Consultoría en Observabilidad

Ayudo a equipos de ingeniería a ver qué está pasando realmente en producción.
Antes de que se convierta en un problema.

Ayudo a equipos de ingeniería a ver qué está pasando realmente en producción. Diseño, implemento y arreglo stacks de observabilidad para que puedan depurar más rápido.

  • Arquitectura de observabilidad y OpenTelemetry
  • Tracing distribuido entre microservicios
  • Debugging en producción y respuesta a incidentes
  • Rendimiento y fiabilidad en JVM
Trayectoria

15+ años construyendo y depurando sistemas en producción

He pasado mi carrera ayudando a equipos de ingeniería a ver qué está pasando realmente en producción, depurando problemas de latencia y diseñando pipelines de telemetría para una observabilidad proactiva.

Mi experiencia abarca fintech, e-commerce e ingeniería de plataformas, con trabajo práctico en OpenTelemetry, el ecosistema JVM, Grafana, Elasticsearch y las principales plataformas de APM. No vendo herramientas — te ayudo a entender tus sistemas.

15+
Años en sistemas en producción
OTel
Especialista en OpenTelemetry
JVM
Expertise profundo en JVM
SD
Foco en sistemas distribuidos
Cómo ayudo

Resultados concretos, no presentaciones

Cada colaboración empieza entendiendo tu sistema y termina con mejoras medibles. Esto es lo que hago.

Auditoría de Observabilidad

Reviso tu configuración actual de métricas, logs y trazas. Identifico gaps en cobertura, señales ruidosas y correlaciones ausentes — y entrego un informe priorizado con recomendaciones concretas.

Resultado

Visión clara de qué funciona, qué es ruido y qué falta

Diseño de Arquitectura e Instrumentación

Diseño arquitecturas de observabilidad para sistemas distribuidos — desde la instrumentación con OpenTelemetry hasta el almacenamiento y la visualización. Trabajo con tu stack, no contra él.

Resultado

Una arquitectura de telemetría que escala con tu sistema

Debugging en Producción

Cuando algo se rompe y nadie sabe por qué, yo ayudo. Traigo experiencia profunda en trazar problemas de latencia, memory leaks y fallos en cascada entre servicios distribuidos.

Resultado

Identificación y resolución más rápida de la causa raíz

Rendimiento y Fiabilidad

Analizo el comportamiento de tu sistema en runtime para encontrar cuellos de botella, contención de recursos y riesgos de fiabilidad. Profiling de JVM, análisis de carga, definición de SLOs — lo que el sistema necesite.

Resultado

Menor latencia, mejor uptime, SLOs claros

Capacitación de Equipos

Realizo workshops prácticos sobre prácticas de observabilidad, instrumentación con OpenTelemetry y debugging efectivo. Tu equipo aprende a ser dueño de su telemetría — no solo a consumir dashboards.

Resultado

Un equipo que puede instrumentar, depurar e iterar de forma autónoma

Cómo trabajo

Proceso claro, sin sorpresas

Mantengo las cosas simples. Cada colaboración sigue una estructura clara para que sepas exactamente qué esperar.

01
Entender el sistema

Empiezo leyendo tu arquitectura, hablando con el equipo y revisando la telemetría existente. Sin suposiciones.

02
Identificar puntos ciegos

Mapeo lo que puedes ver versus lo que necesitas ver. La mayoría de equipos tienen más datos que insights — la brecha suele estar en la correlación, no en la recolección.

03
Diseñar la solución

Propongo cambios que encajan con tu stack, tu equipo y tus restricciones. Sin vendor lock-in, sin complejidad innecesaria.

04
Implementar y validar

Trabajo junto a tus ingenieros para implementar cambios y verificar que realmente mejoran la visibilidad. El objetivo es un sistema que el equipo pueda mantener y evolucionar.

Artículos

Insights sobre observabilidad

Reflexiones prácticas sobre sistemas distribuidos, observabilidad e ingeniería de producción. Sin hype, solo cosas que aprendí de la manera difícil.

OpenTelemetry
Por qué tu setup de OpenTelemetry probablemente está generando spans inútiles

La mayoría de equipos instrumentan todo y no entienden nada. Una guía práctica para diseñar spans que realmente te ayuden a depurar problemas en producción.

Tracing Distribuido
El coste oculto de la correlación: cuando el tracing crea más problemas de los que resuelve

El tracing distribuido es potente, pero la propagación de trazas a través de boundaries asíncronos y colas de mensajes puede introducir problemas sutiles.

Fiabilidad
Los SLOs no son SLAs: cómo definir objetivos de fiabilidad que tu equipo realmente use

La diferencia entre un objetivo de fiabilidad que impulsa decisiones de ingeniería y uno que acumula polvo en una página de wiki.

JVM
Debugging de presión de memoria en JVM en entornos containerizados

Los límites de memoria del contenedor y la ergonomía de la JVM no siempre se ponen de acuerdo. Un deep dive en diagnosticar y arreglar OOM kills, tormentas de GC y memory leaks off-heap.

Hagamos tus sistemas observables

Si estás lidiando con puntos ciegos en producción, desafíos de escalado o un stack de telemetría que no aporta valor — puedo ayudar. Escríbeme y hablemos de tu sistema.

Formulario de contacto

Completa los campos y nos pondremos en contacto contigo

Normalmente respondo en menos de 24 horas.