La mayoría de equipos instrumentan todo y no entienden nada. Una guía práctica para diseñar spans que realmente te ayuden a depurar problemas en producción.
Ayudo a equipos de ingeniería a ver qué está pasando realmente en producción.
Antes de que se convierta en un problema.
Ayudo a equipos de ingeniería a ver qué está pasando realmente en producción. Diseño, implemento y arreglo stacks de observabilidad para que puedan depurar más rápido.
- Arquitectura de observabilidad y OpenTelemetry
- Tracing distribuido entre microservicios
- Debugging en producción y respuesta a incidentes
- Rendimiento y fiabilidad en JVM
15+ años construyendo y depurando sistemas en producción
He pasado mi carrera ayudando a equipos de ingeniería a ver qué está pasando realmente en producción, depurando problemas de latencia y diseñando pipelines de telemetría para una observabilidad proactiva.
Mi experiencia abarca fintech, e-commerce e ingeniería de plataformas, con trabajo práctico en OpenTelemetry, el ecosistema JVM, Grafana, Elasticsearch y las principales plataformas de APM. No vendo herramientas — te ayudo a entender tus sistemas.
Resultados concretos, no presentaciones
Cada colaboración empieza entendiendo tu sistema y termina con mejoras medibles. Esto es lo que hago.
Reviso tu configuración actual de métricas, logs y trazas. Identifico gaps en cobertura, señales ruidosas y correlaciones ausentes — y entrego un informe priorizado con recomendaciones concretas.
Visión clara de qué funciona, qué es ruido y qué falta
Diseño arquitecturas de observabilidad para sistemas distribuidos — desde la instrumentación con OpenTelemetry hasta el almacenamiento y la visualización. Trabajo con tu stack, no contra él.
Una arquitectura de telemetría que escala con tu sistema
Cuando algo se rompe y nadie sabe por qué, yo ayudo. Traigo experiencia profunda en trazar problemas de latencia, memory leaks y fallos en cascada entre servicios distribuidos.
Identificación y resolución más rápida de la causa raíz
Analizo el comportamiento de tu sistema en runtime para encontrar cuellos de botella, contención de recursos y riesgos de fiabilidad. Profiling de JVM, análisis de carga, definición de SLOs — lo que el sistema necesite.
Menor latencia, mejor uptime, SLOs claros
Realizo workshops prácticos sobre prácticas de observabilidad, instrumentación con OpenTelemetry y debugging efectivo. Tu equipo aprende a ser dueño de su telemetría — no solo a consumir dashboards.
Un equipo que puede instrumentar, depurar e iterar de forma autónoma
Reviso tu configuración actual de métricas, logs y trazas. Identifico gaps en cobertura, señales ruidosas y correlaciones ausentes — y entrego un informe priorizado con recomendaciones concretas.
Visión clara de qué funciona, qué es ruido y qué falta
Diseño arquitecturas de observabilidad para sistemas distribuidos — desde la instrumentación con OpenTelemetry hasta el almacenamiento y la visualización. Trabajo con tu stack, no contra él.
Una arquitectura de telemetría que escala con tu sistema
Cuando algo se rompe y nadie sabe por qué, yo ayudo. Traigo experiencia profunda en trazar problemas de latencia, memory leaks y fallos en cascada entre servicios distribuidos.
Identificación y resolución más rápida de la causa raíz
Analizo el comportamiento de tu sistema en runtime para encontrar cuellos de botella, contención de recursos y riesgos de fiabilidad. Profiling de JVM, análisis de carga, definición de SLOs — lo que el sistema necesite.
Menor latencia, mejor uptime, SLOs claros
Realizo workshops prácticos sobre prácticas de observabilidad, instrumentación con OpenTelemetry y debugging efectivo. Tu equipo aprende a ser dueño de su telemetría — no solo a consumir dashboards.
Un equipo que puede instrumentar, depurar e iterar de forma autónoma
Proceso claro, sin sorpresas
Mantengo las cosas simples. Cada colaboración sigue una estructura clara para que sepas exactamente qué esperar.
Empiezo leyendo tu arquitectura, hablando con el equipo y revisando la telemetría existente. Sin suposiciones.
Mapeo lo que puedes ver versus lo que necesitas ver. La mayoría de equipos tienen más datos que insights — la brecha suele estar en la correlación, no en la recolección.
Propongo cambios que encajan con tu stack, tu equipo y tus restricciones. Sin vendor lock-in, sin complejidad innecesaria.
Trabajo junto a tus ingenieros para implementar cambios y verificar que realmente mejoran la visibilidad. El objetivo es un sistema que el equipo pueda mantener y evolucionar.
Empiezo leyendo tu arquitectura, hablando con el equipo y revisando la telemetría existente. Sin suposiciones.
Mapeo lo que puedes ver versus lo que necesitas ver. La mayoría de equipos tienen más datos que insights — la brecha suele estar en la correlación, no en la recolección.
Propongo cambios que encajan con tu stack, tu equipo y tus restricciones. Sin vendor lock-in, sin complejidad innecesaria.
Trabajo junto a tus ingenieros para implementar cambios y verificar que realmente mejoran la visibilidad. El objetivo es un sistema que el equipo pueda mantener y evolucionar.
Insights sobre observabilidad
Reflexiones prácticas sobre sistemas distribuidos, observabilidad e ingeniería de producción. Sin hype, solo cosas que aprendí de la manera difícil.
La mayoría de equipos instrumentan todo y no entienden nada. Una guía práctica para diseñar spans que realmente te ayuden a depurar problemas en producción.
El tracing distribuido es potente, pero la propagación de trazas a través de boundaries asíncronos y colas de mensajes puede introducir problemas sutiles.
La diferencia entre un objetivo de fiabilidad que impulsa decisiones de ingeniería y uno que acumula polvo en una página de wiki.
Los límites de memoria del contenedor y la ergonomía de la JVM no siempre se ponen de acuerdo. Un deep dive en diagnosticar y arreglar OOM kills, tormentas de GC y memory leaks off-heap.
El tracing distribuido es potente, pero la propagación de trazas a través de boundaries asíncronos y colas de mensajes puede introducir problemas sutiles.
La diferencia entre un objetivo de fiabilidad que impulsa decisiones de ingeniería y uno que acumula polvo en una página de wiki.
Los límites de memoria del contenedor y la ergonomía de la JVM no siempre se ponen de acuerdo. Un deep dive en diagnosticar y arreglar OOM kills, tormentas de GC y memory leaks off-heap.
Hagamos tus sistemas observables
Si estás lidiando con puntos ciegos en producción, desafíos de escalado o un stack de telemetría que no aporta valor — puedo ayudar. Escríbeme y hablemos de tu sistema.
Completa los campos y nos pondremos en contacto contigo
Normalmente respondo en menos de 24 horas.