<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Observabilidad on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/observabilidad/</link><description>Recent content in Observabilidad on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Wed, 20 May 2026 09:00:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/observabilidad/index.xml" rel="self" type="application/rss+xml"/><item><title>eBPF en inferencia local y detección estadística de drift: el cierre del ciclo de observabilidad LLM en 2026</title><link>https://blog.lo0.es/posts/ebpf-on-device-inference-drift/</link><pubDate>Wed, 20 May 2026 09:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/ebpf-on-device-inference-drift/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>Tracing, evals, guardrails, MCP observability: las capas que ya hemos cubierto ven &lt;strong>qué está pasando ahora mismo&lt;/strong>. Lo que no ven es lo que cambia &lt;strong>silenciosamente&lt;/strong>: el agente que la semana pasada respondía bien y esta semana, sin que nadie haya tocado nada, responde algo peor. Lo que no ven tampoco es la &lt;strong>mecánica fina&lt;/strong> de la inferencia local: por qué un llama.cpp en un edge device tarda 200 ms cuando debería tardar 100, qué función del runtime concreta es el cuello. Este post cierra las dos series de la semana con las dos capas que faltaban: &lt;strong>eBPF aplicado a inferencia local&lt;/strong> (uprobes en &lt;code>llama.cpp&lt;/code>, &lt;code>vLLM&lt;/code>, &lt;code>libcudart.so&lt;/code>, hardware perf counters integrados, con &amp;lt;4% de overhead — formalizado en el paper &lt;a href="https://arxiv.org/abs/2601.20755">ProfInfer 2026&lt;/a> que es a inferencia local lo que Hubble es a la red) y &lt;strong>análisis estadístico de flows de agentes&lt;/strong> para detectar drift antes de que tu usuario lo note (KS, PSI, MMD, embedding-space clustering, con &lt;a href="https://www.evidentlyai.com/">Evidently AI&lt;/a>, &lt;a href="https://www.nannyml.com/">NannyML&lt;/a> y &lt;a href="https://whylabs.ai/">WhyLabs&lt;/a> como herramientas dominantes). Las tres tipologías de drift LLM en 2026 — &lt;strong>prompt drift, model drift, eval-score drift&lt;/strong> — exigen tests distintos. El stack completo —tracing, evals, guardrails, MCP observability, eBPF observability, drift detection— forma el bucle que cualquier sistema agentic serio necesita para operar con SLA real, no con esperanza.&lt;/p>
&lt;blockquote>
&lt;p>Este post &lt;strong>cierra dos series&lt;/strong>: la serie post-tracing (&lt;a href="https://blog.lo0.es/posts/evals-llm-la-capa-despues-de-tracing/">Evals&lt;/a>, &lt;a href="https://blog.lo0.es/posts/guardrails-safety-llm/">Guardrails&lt;/a>, &lt;a href="https://blog.lo0.es/posts/mcp-observability-otel/">MCP observability&lt;/a>) y la serie eBPF (&lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a>, &lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon&lt;/a>, &lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble&lt;/a>, &lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight&lt;/a>). Junta los dos hilos: eBPF aplicado al motor de inferencia local + análisis estadístico de los flows que todas las capas producen.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-el-cardiograma-del-agente">La analogía: el cardiograma del agente&lt;/h2>
&lt;p>Un médico que sólo mira síntomas agudos —el paciente llega con fiebre alta, hay que actuar— está haciendo medicina &lt;strong>reactiva&lt;/strong>. Para hacer medicina &lt;strong>preventiva&lt;/strong>, necesita series temporales: la tensión arterial cada año, el colesterol cada seis meses, el ECG cuando hay sospecha. No es información de &amp;ldquo;ahora mismo&amp;rdquo;, es información sobre &lt;strong>cómo evoluciona&lt;/strong> algo que debería estar estable. Cuando una serie temporal se desvía de su línea base, hay que investigar antes de que sea fiebre alta.&lt;/p>
&lt;p>Las capas de observabilidad LLM que llevamos vistas son &lt;strong>medicina reactiva&lt;/strong>: tracing te dice qué pasó en una conversación concreta; evals te dice si esa conversación fue buena; guardrails te dice si había una amenaza específica; MCP observability te dice qué tools se invocaron y cómo. Todas miran &lt;strong>eventos&lt;/strong>, no &lt;strong>tendencias&lt;/strong>.&lt;/p>
&lt;p>Drift detection es la &lt;strong>medicina preventiva&lt;/strong>. Mira series temporales —de embeddings de prompts, de scores de evaluación, de distribuciones de tokens generados— y dispara alertas cuando algo se aleja de su normalidad. No te dice &amp;ldquo;esta respuesta es mala&amp;rdquo;; te dice &amp;ldquo;la distribución de prompts de las últimas 6 horas no se parece a la distribución del último mes&amp;rdquo;. Ahí decides si investigar.&lt;/p>
&lt;p>Y la otra mitad del post —eBPF en inferencia local— es el equivalente al &lt;strong>resonador magnético&lt;/strong>: cuando ya sabes que hay un problema, te permite ver el interior del modelo a una resolución que ningún wrapper externo da. Ver qué función concreta del runtime tarda, qué kernel CUDA es el cuello, cómo se mueven los tokens en los buffers internos antes de salir al cliente.&lt;/p>
&lt;p>Las dos juntas cierran el ciclo: las series temporales detectan que algo va mal, el resonador localiza dónde.&lt;/p>
&lt;h2 id="parte-1--ebpf-aplicado-a-inferencia-local">Parte 1 — eBPF aplicado a inferencia local&lt;/h2>
&lt;h3 id="por-qué-la-inferencia-local-cambia-el-juego">Por qué la inferencia local cambia el juego&lt;/h3>
&lt;p>Cuando el LLM corre &lt;strong>localmente&lt;/strong> —vLLM en un nodo Kubernetes, llama.cpp en un edge device, Ollama en una workstation, MLX en macOS— y no detrás de una API externa, la observabilidad cambia de forma:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Controlas el binario&lt;/strong>: puedes adjuntar hooks que de otra manera serían imposibles.&lt;/li>
&lt;li>&lt;strong>Los buffers internos existen en RAM accesible&lt;/strong>: el stream de tokens-output, los logits, las cachés KV, las estructuras de scheduler están &lt;strong>ahí&lt;/strong>, en direcciones que un uprobe puede leer.&lt;/li>
&lt;li>&lt;strong>No hay cable que esnifar&lt;/strong>: la analogía de AgentSight con SSL hooks no aplica porque no hay TLS — el modelo te responde con un retorno de función en proceso, no con una respuesta HTTPS.&lt;/li>
&lt;li>&lt;strong>La distancia entre kernel y modelo es mínima&lt;/strong>: los kernels CUDA que ejecutan la atención están a una syscall de profundidad; eBPF puede observar ambos lados de esa frontera con el mismo trazador.&lt;/li>
&lt;/ul>
&lt;p>Esto abre una clase de observabilidad que con LLM-as-a-service (API de Anthropic, OpenAI, Vertex) es estructuralmente imposible. Para apps que sirven inferencia on-premise o on-edge — un cluster de inference, un dispositivo móvil, un servidor RTX 4090 en el rack — es una capa nueva.&lt;/p>
&lt;h3 id="profinfer-el-paper-que-formaliza-el-patrón">ProfInfer: el paper que formaliza el patrón&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/abs/2601.20755">ProfInfer (arxiv 2601.20755, 2026)&lt;/a> es la pieza académica de referencia que sistematiza lo que el ecosistema venía haciendo de manera ad-hoc. El subtítulo del paper lo dice todo: &lt;em>An eBPF-based Fine-Grained LLM Inference Profiler&lt;/em>.&lt;/p>
&lt;p>Lo que propone:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Atachar uprobes dinámicamente&lt;/strong> a funciones runtime de motores como &lt;code>llama.cpp&lt;/code> (y por extensión vLLM, Ollama). No recompila, no modifica el código fuente. Es como &lt;code>bpftrace&lt;/code> para inferencia LLM.&lt;/li>
&lt;li>&lt;strong>Combinar runtime events con hardware performance counters&lt;/strong>. Una uprobe te dice cuándo se ejecuta &lt;code>llama_decode&lt;/code>; un hardware counter te dice cuántas instrucciones flotantes se ejecutaron mientras estaba dentro. La correlación entre ambas es lo que da la &lt;strong>resolución fina&lt;/strong>.&lt;/li>
&lt;li>&lt;strong>&amp;lt;4% overhead medido&lt;/strong> en cargas reales. Es coste de producción.&lt;/li>
&lt;li>&lt;strong>Visualizaciones&lt;/strong> en tres vistas: operadores (qué operaciones tensoriales se ejecutaron), grafos (cómo se relacionan), timelines (cuándo).&lt;/li>
&lt;/ul>
&lt;p>El paper se enfoca especialmente en &lt;strong>modelos en plataformas móviles&lt;/strong> (Llama servido en un Pixel o iPhone), donde la observabilidad clásica con Prometheus y métricas exportadas casi no existe. Pero el patrón aplica a cualquier inferencia local.&lt;/p>
&lt;h3 id="dónde-hookear-el-mapa-por-motor">Dónde hookear: el mapa por motor&lt;/h3>
&lt;p>Vamos al detalle de los hooks. Las funciones objetivo varían por motor:&lt;/p>
&lt;h4 id="llamacpp">llama.cpp&lt;/h4>
&lt;p>&lt;code>llama.cpp&lt;/code> es C++ puro, símbolos visibles en el binario. Los hooks típicos:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>llama_decode&lt;/code>&lt;/strong>: la función que ejecuta una pasada de inferencia (procesa el batch actual). Spans para latencia por iteration, tokens procesados.&lt;/li>
&lt;li>&lt;strong>&lt;code>llama_token_to_piece&lt;/code>&lt;/strong>: convierte un token ID a texto. Hook aquí captura el &lt;strong>stream de tokens generados&lt;/strong> antes de devolver al caller. Es el equivalente local a las uprobes de SSL: ves la salida del modelo sin que llegue siquiera al consumidor.&lt;/li>
&lt;li>&lt;strong>&lt;code>llama_get_logits&lt;/code>&lt;/strong>: lee los logits del último decode. Si quieres registrar las probabilidades del modelo (no solo el token elegido), aquí.&lt;/li>
&lt;li>&lt;strong>&lt;code>ggml_compute_forward_*&lt;/code>&lt;/strong> (varias funciones): los kernels de operaciones (matmul, attention, layernorm). Hooks para profiling por operación.&lt;/li>
&lt;li>&lt;strong>&lt;code>ggml_backend_*&lt;/code>&lt;/strong>: las funciones del backend (CPU, Metal, CUDA, ROCm). Hooks aquí desglosan el coste por dispositivo.&lt;/li>
&lt;/ul>
&lt;p>Ejemplo con &lt;code>bpftrace&lt;/code>:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># Latencia y count de llama_decode&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">bpftrace -e &lt;span class="s1">&amp;#39;
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1">uprobe:/path/to/llama-server:llama_decode {
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1"> @start[tid] = nsecs;
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1">}
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1">uretprobe:/path/to/llama-server:llama_decode /@start[tid]/ {
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1"> @decode_lat = hist((nsecs - @start[tid]) / 1000);
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1"> delete(@start[tid]);
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1">}
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="s1">&amp;#39;&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Salida: histograma de latencias de decode en microsegundos. Cero modificación al binario.&lt;/p>
&lt;h4 id="vllm">vLLM&lt;/h4>
&lt;p>vLLM es Python en su mayor parte. Los símbolos C/CUDA están en sus extensiones nativas (&lt;code>vllm._C&lt;/code>, &lt;code>vllm._moe_C&lt;/code>). Los hooks típicos:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>uprobes en &lt;code>vllm._C.*&lt;/code>&lt;/strong> para operadores custom (paged attention kernel, sampling kernel).&lt;/li>
&lt;li>&lt;strong>uprobes en &lt;code>libcudart.so&lt;/code> y &lt;code>libcuda.so&lt;/code>&lt;/strong> para capturar &lt;code>cudaMalloc&lt;/code>, &lt;code>cudaLaunchKernel&lt;/code>, &lt;code>cudaMemcpy&lt;/code>. Sirve para mapear costes de transferencias host↔device y de lanzamientos de kernels.&lt;/li>
&lt;li>&lt;strong>Tracepoints Python con &lt;code>bpftrace&lt;/code> sobre &lt;code>usdt&lt;/code> puntos&lt;/strong>: vLLM no expone tracepoints estáticos nativos, pero se pueden colocar con USDT (&lt;code>dtrace&lt;/code> style) en lugares estratégicos del scheduler.&lt;/li>
&lt;/ul>
&lt;p>vLLM expone además métricas Prometheus nativas (&lt;code>vllm:num_requests_running&lt;/code>, &lt;code>vllm:gpu_cache_usage_perc&lt;/code>, etc.). El valor añadido del enfoque eBPF es &lt;strong>bajar de las métricas del scheduler a las funciones individuales&lt;/strong>: cuando una request es lenta, ver si fue prefill, decode, scheduler overhead, transferencia o sincronización.&lt;/p>
&lt;h4 id="cuda-en-general">CUDA en general&lt;/h4>
&lt;p>Independiente del motor, las uprobes en &lt;code>libcudart.so&lt;/code> capturan &lt;strong>toda la actividad CUDA del proceso&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;code>cudaMalloc(size)&lt;/code> → tracking de allocations en device memory.&lt;/li>
&lt;li>&lt;code>cudaLaunchKernel(func, ...)&lt;/code> → spans por cada lanzamiento de kernel.&lt;/li>
&lt;li>&lt;code>cudaMemcpyAsync(dst, src, size, kind)&lt;/code> → transferencias host↔device.&lt;/li>
&lt;li>&lt;code>cudaStreamSynchronize(stream)&lt;/code> → puntos de sincronización (donde el host espera al device).&lt;/li>
&lt;/ul>
&lt;p>Esto te da una &lt;strong>timeline completa de actividad CUDA&lt;/strong> sin necesidad de NVIDIA Nsight Systems (que es excelente pero pesado y orientado a desarrollo, no a producción continua).&lt;/p>
&lt;h3 id="hardware-counters-la-otra-mitad">Hardware counters: la otra mitad&lt;/h3>
&lt;p>eBPF puede leer &lt;strong>performance counters&lt;/strong> del PMU (Performance Monitoring Unit) del CPU/GPU. Esto incluye instrucciones ejecutadas, cache misses, branch mispredictions y, en GPUs con soporte, FLOPS, ocupación de SM, ancho de banda HBM.&lt;/p>
&lt;p>Combinar:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>uprobe&lt;/strong>: &amp;ldquo;se ejecutó &lt;code>llama_decode&lt;/code> desde T1 a T2 con tokens=4&amp;rdquo;.&lt;/li>
&lt;li>&lt;strong>perf counter&lt;/strong>: &amp;ldquo;durante esa ventana, cache misses L2 = 15000, instrucciones = 2.3 millones&amp;rdquo;.&lt;/li>
&lt;/ul>
&lt;p>Permite responder: ¿por qué tarda? ¿es memory-bound (muchos cache misses), compute-bound (todas las instrucciones en FPU), bandwidth-bound (mucho movimiento de datos)? Estado del arte para profiling profesional.&lt;/p>
&lt;h3 id="comparativa-con-agentsight">Comparativa con AgentSight&lt;/h3>
&lt;p>Hay dos productos eBPF para LLMs hoy con foco distinto:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight&lt;/a>&lt;/strong> (cubierto en la serie eBPF): observa &lt;strong>agentes que llaman a APIs externas&lt;/strong>. Hookea SSL para ver el plaintext de las llamadas HTTPS al LLM remoto, más stdio para servers MCP locales. &lt;strong>Visión cliente&lt;/strong>.&lt;/li>
&lt;li>&lt;strong>ProfInfer / patrón de eBPF en inferencia local&lt;/strong>: observa &lt;strong>el motor que ejecuta el modelo localmente&lt;/strong>. Hookea las funciones internas del motor (llama.cpp, vLLM) y la capa CUDA. &lt;strong>Visión servidor (interno)&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>Son complementarios. Si tu agente usa Claude API + tu propio vLLM local con Llama 3 para tareas específicas, AgentSight ve lo primero, eBPF/ProfInfer ve lo segundo. Si todo es local, dominio claramente del segundo. Si todo es API externa, del primero.&lt;/p>
&lt;h3 id="casos-de-uso-de-ebpf-en-inferencia-local">Casos de uso de eBPF en inferencia local&lt;/h3>
&lt;p>Tres casos donde es la herramienta correcta:&lt;/p>
&lt;p>&lt;strong>Profiling fino para optimización&lt;/strong>: tu vLLM tarda 50ms más por token de lo esperado. Con eBPF + hardware counters localizas en qué kernel concreto. Antes esto requería Nsight Systems en una sesión de desarrollo; ahora es continuo en producción.&lt;/p>
&lt;p>&lt;strong>Token-level observability sin modificar el motor&lt;/strong>: capturar el stream de tokens generados antes de devolverlos al cliente. Útil para auditoría, para drift detection sobre los outputs, para tracing local sin pasar por instrumentación del wrapping.&lt;/p>
&lt;p>&lt;strong>Detección de degradación específica&lt;/strong>: una versión nueva de vLLM mete una regresión sutil en el paged attention. Con baselines de perf counters, detectas el cambio incluso si la métrica externa (tokens/sec) parece igual.&lt;/p>
&lt;h2 id="parte-2--análisis-estadístico-de-flows-detectar-drift">Parte 2 — Análisis estadístico de flows: detectar drift&lt;/h2>
&lt;p>Pasamos al otro lado del problema: las series temporales.&lt;/p>
&lt;h3 id="por-qué-tracing-evals-y-guardrails-no-detectan-drift">Por qué tracing, evals y guardrails no detectan drift&lt;/h3>
&lt;p>Las capas que ya hemos visto operan sobre &lt;strong>eventos individuales&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>Tracing: una traza de una conversación.&lt;/li>
&lt;li>Evals: un score de una respuesta.&lt;/li>
&lt;li>Guardrails: un veredicto sobre un prompt o respuesta.&lt;/li>
&lt;li>MCP observability: spans de una invocación de tool.&lt;/li>
&lt;/ul>
&lt;p>Cada uno responde a una pregunta puntual (&amp;quot;¿está bien esto?&amp;quot;). Ninguno responde a la pregunta de &lt;strong>evolución&lt;/strong> (&amp;quot;¿está cambiando algo a lo largo del tiempo?&amp;quot;).&lt;/p>
&lt;p>El problema operacional: &lt;strong>drift es invisible en eventos individuales&lt;/strong>. Si el score medio de eval baja de 0.92 a 0.85 a lo largo de tres semanas, ninguna evaluación individual marcará alarma —todas siguen siendo &amp;ldquo;razonables&amp;rdquo;—. Lo que cambia es la &lt;strong>distribución&lt;/strong>. Y eso solo se ve mirando muchas evaluaciones agregadas en el tiempo.&lt;/p>
&lt;h3 id="las-tres-tipologías-de-drift-llm-en-2026">Las tres tipologías de drift LLM en 2026&lt;/h3>
&lt;p>&lt;a href="https://futureagi.com/blog/what-is-llm-drift-2026">FutureAGI&lt;/a> las consolida así, y la industria está convergiendo en este vocabulario:&lt;/p>
&lt;p>&lt;strong>1. Prompt drift&lt;/strong>: alguien actualiza el prompt sistema y los efectos secundarios rompen casos que antes funcionaban. Casi siempre intencional pero con consecuencias no anticipadas. &lt;strong>Detección&lt;/strong>: comparar distribuciones de respuestas antes y después del cambio, monitorizar eval scores por versión de prompt (linked en Langfuse, ver post de &lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight&lt;/a> donde cubrimos prompt management).&lt;/p>
&lt;p>&lt;strong>2. Model drift&lt;/strong>: el proveedor (OpenAI, Anthropic) actualiza el modelo sin avisar. El mismo prompt produce respuestas con tonalidad ligeramente distinta, calidad similar pero diferente, o degradación en algún subset. &lt;strong>Detección&lt;/strong>: comparar embeddings de respuestas de hoy con baseline; monitorizar rubric scores; alertar si la varianza intra-modelo crece.&lt;/p>
&lt;p>&lt;strong>3. Eval-score drift&lt;/strong>: la rolling mean de tus métricas de eval (faithfulness, answer relevancy, custom rubrics) tiende a la baja. Causa raíz puede ser cualquiera de las anteriores o un cambio en el mix de usuarios. &lt;strong>Detección&lt;/strong>: alertas sobre tendencias de las series de evals.&lt;/p>
&lt;p>A estas tres se suma una cuarta más sutil:&lt;/p>
&lt;p>&lt;strong>4. Persona drift / user mix shift&lt;/strong>: la población de usuarios que usa el sistema cambia. No es que el modelo o el prompt empeoraron; es que los nuevos usuarios hacen preguntas distintas y el sistema, aunque sigue siendo igual de bueno en lo que era bueno, falla en lo nuevo. &lt;strong>Detección&lt;/strong>: embedding clustering de prompts, monitorizar aparición de clusters nuevos o crecimiento de uno minoritario.&lt;/p>
&lt;h3 id="el-concepto-técnico-clave-embedding-space-shift">El concepto técnico clave: embedding-space shift&lt;/h3>
&lt;p>&lt;a href="https://stackpulsar.com/blog/llm-model-drift-detection/">Stack Pulsar&lt;/a> lo dice claro: en LLMs, &lt;strong>el drift se mide mejor en el espacio de embeddings&lt;/strong>. Las distancias clásicas en espacio de tokens no capturan semántica fina; en embedding space sí.&lt;/p>
&lt;p>El pipeline canónico:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Establecer baseline&lt;/strong>: durante un periodo estable (digamos las primeras dos semanas tras un release), captura una muestra grande de embeddings de prompts y respuestas.&lt;/li>
&lt;li>&lt;strong>Monitorización continua&lt;/strong>: cada hora o cada día, captura una nueva muestra del tráfico de producción.&lt;/li>
&lt;li>&lt;strong>Comparar distribuciones&lt;/strong>: aplica un test estadístico que compare la distribución actual con la baseline en el espacio de embeddings.&lt;/li>
&lt;li>&lt;strong>Alertar&lt;/strong>: si la divergencia supera un umbral, dispara una alerta y un workflow de investigación.&lt;/li>
&lt;/ol>
&lt;p>Como bonus, &lt;strong>monitorizar clusters&lt;/strong>: si tu baseline tiene 5 clusters de prompts (preguntas técnicas, soporte general, ventas, etc.) y de pronto aparece un sexto cluster que no estaba, lo más probable es que un nuevo segmento de usuarios haya llegado.&lt;/p>
&lt;h3 id="tests-estadísticos-ks-psi-mmd">Tests estadísticos: KS, PSI, MMD&lt;/h3>
&lt;p>Tres tests que cualquier sistema de drift usa, cada uno con su lugar:&lt;/p>
&lt;p>&lt;strong>Kolmogorov-Smirnov (KS)&lt;/strong>: no-paramétrico. Calcula la máxima distancia entre dos CDFs empíricas. Devuelve un statistic y un p-value. &lt;strong>Ventaja&lt;/strong>: muy sensible a cambios sutiles, especialmente en colas. &lt;strong>Desventaja&lt;/strong>: con datasets grandes, &amp;ldquo;demasiado sensible&amp;rdquo; — dispara alarmas por cambios reales pero clínicamente irrelevantes.&lt;/p>
&lt;p>&lt;strong>Population Stability Index (PSI)&lt;/strong>: bineas la distribución de referencia y la actual, luego sumas &lt;code>(p_actual - p_ref) × log(p_actual / p_ref)&lt;/code> sobre los bines. Interpretación canónica: PSI &amp;lt; 0.1 estable, 0.1-0.25 drift suave, &amp;gt; 0.25 drift significativo. &lt;strong>Ventaja&lt;/strong>: interpretable, threshold-based, tradición de uso en credit scoring (Capital One, Goldman Sachs). &lt;strong>Desventaja&lt;/strong>: menos sensible que KS — pierde drift en colas.&lt;/p>
&lt;p>&lt;strong>Maximum Mean Discrepancy (MMD)&lt;/strong>: mide la divergencia entre dos distribuciones embebiendo cada una en un espacio de Hilbert vía kernel. Sirve para &lt;strong>distribuciones multivariadas complejas&lt;/strong> (embeddings de alta dimensión). &lt;strong>Ventaja&lt;/strong>: la única que escala razonablemente a embeddings de 768/1024/4096 dimensiones. &lt;strong>Desventaja&lt;/strong>: más compleja de interpretar.&lt;/p>
&lt;p>La práctica recomendada en 2026:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PSI para features simples&lt;/strong> (longitud de prompt, tokens, número de tools invocadas).&lt;/li>
&lt;li>&lt;strong>KS para features continuos&lt;/strong> donde quieras alta sensibilidad.&lt;/li>
&lt;li>&lt;strong>MMD para embeddings&lt;/strong> (espacios de alta dimensión).&lt;/li>
&lt;/ul>
&lt;p>&lt;a href="https://www.evidentlyai.com/blog/data-drift-detection-large-datasets">Análisis de Evidently&lt;/a> en datasets reales mostró que &lt;strong>KS detecta drift 6+ horas antes que PSI&lt;/strong> en algunos incidentes. La consecuencia operativa: usa KS para early warning, PSI para confirmación con threshold interpretable.&lt;/p>
&lt;h3 id="herramientas-2026">Herramientas 2026&lt;/h3>
&lt;p>Tres productos dominan el campo:&lt;/p>
&lt;h4 id="evidently-ai">Evidently AI&lt;/h4>
&lt;p>&lt;a href="https://github.com/evidentlyai/evidently">Evidently&lt;/a> es open-source (Apache 2.0), Python-first. Su valor:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Drift reports HTML&lt;/strong>: generas un report comparando dos datasets (referencia vs actual) y obtienes un archivo HTML con todos los tests estadísticos, visualizaciones, conclusiones. Sin servidor, sin infra; un fichero compartible.&lt;/li>
&lt;li>&lt;strong>Soporte de LLM nativo&lt;/strong>: además de tabular, soporta texto. Compute embeddings, aplica los tests adecuados.&lt;/li>
&lt;li>&lt;strong>100+ métricas&lt;/strong> en la suite. Te lo cubre todo desde un único framework.&lt;/li>
&lt;li>&lt;strong>Integración con MLflow y kube&lt;/strong>: workflows de CI con reports en cada release.&lt;/li>
&lt;/ul>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">evidently&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">Report&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">evidently.metrics&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">DataDriftPreset&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">ref&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">load_baseline_dataset&lt;/span>&lt;span class="p">()&lt;/span> &lt;span class="c1"># prompts de la semana pasada&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">cur&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">load_current_dataset&lt;/span>&lt;span class="p">()&lt;/span> &lt;span class="c1"># prompts de la última hora&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">report&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">Report&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">metrics&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="n">DataDriftPreset&lt;/span>&lt;span class="p">()])&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">report&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">run&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">reference_data&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">ref&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">current_data&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">cur&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">report&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">save_html&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;drift_report.html&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cuando esta funcionalidad detecta drift, además te dice &lt;strong>qué columna&lt;/strong> y &lt;strong>qué test&lt;/strong> disparó.&lt;/p>
&lt;h4 id="nannyml">NannyML&lt;/h4>
&lt;p>&lt;a href="https://www.nannyml.com/">NannyML&lt;/a> tiene un foco distinto: &lt;strong>estimar el rendimiento del modelo cuando no tienes ground truth&lt;/strong>. Las técnicas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>CBPE (Confidence-Based Performance Estimation)&lt;/strong>: estima accuracy usando la confianza del modelo en sus predicciones.&lt;/li>
&lt;li>&lt;strong>DLE (Direct Loss Estimation)&lt;/strong>: estima la pérdida directamente.&lt;/li>
&lt;/ul>
&lt;p>Útil cuando tu app LLM no tiene feedback humano inmediato pero quieres saber si su calidad ha bajado. Apache 2.0, Python.&lt;/p>
&lt;h4 id="whylabs">WhyLabs&lt;/h4>
&lt;p>&lt;a href="https://whylabs.ai/">WhyLabs&lt;/a> es comercial (con whylogs como librería OSS subyacente), enfocada a producción enterprise:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>SaaS managed&lt;/strong> con SOC 2 Type 2 y HIPAA compliance.&lt;/li>
&lt;li>&lt;strong>Real-time monitoring&lt;/strong> vía ingesta continua de logs.&lt;/li>
&lt;li>&lt;strong>Embedding tracking&lt;/strong>: soporte nativo para distribuciones de embeddings, no solo features tabulares.&lt;/li>
&lt;li>&lt;strong>Token probability shifts&lt;/strong>: monitorea la distribución de probabilidades de tokens generados, no solo metadata.&lt;/li>
&lt;/ul>
&lt;p>Para empresas regulated que no quieren operar su propia plataforma de drift detection, es la opción de menos fricción.&lt;/p>
&lt;h4 id="otras-menciones">Otras menciones&lt;/h4>
&lt;p>&lt;a href="https://phoenix.arize.com/">Arize Phoenix&lt;/a> (visto en post de Evals) incluye drift detection como módulo. &lt;a href="https://galileo.ai/">Galileo&lt;/a> tiene productos comerciales especializados en LLM monitoring. &lt;a href="https://www.fiddler.ai/">Fiddler AI&lt;/a> y &lt;a href="https://github.com/SeldonIO/alibi-detect">Alibi Detect&lt;/a> (Seldon) son alternativas más generalistas que también cubren LLM.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Herramienta&lt;/th>
&lt;th>Licencia&lt;/th>
&lt;th>Foco&lt;/th>
&lt;th>Stack típico&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Evidently AI&lt;/strong>&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Drift reports + LLM&lt;/td>
&lt;td>OSS Python, reports HTML&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>NannyML&lt;/strong>&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Performance sin GT&lt;/td>
&lt;td>OSS Python, batch&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>WhyLabs&lt;/strong>&lt;/td>
&lt;td>Comercial (whylogs OSS)&lt;/td>
&lt;td>SaaS enterprise, embeddings&lt;/td>
&lt;td>Logs continuos, compliance&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Arize Phoenix&lt;/strong>&lt;/td>
&lt;td>ELv2&lt;/td>
&lt;td>Tracing + drift unificado&lt;/td>
&lt;td>OSS, OTel-native&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Galileo&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>LLM monitoring premium&lt;/td>
&lt;td>SaaS, ML expert team&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Alibi Detect&lt;/strong>&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Drift detection general&lt;/td>
&lt;td>OSS Python, Seldon ecosystem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Fiddler AI&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>Explainability + monitoring&lt;/td>
&lt;td>Enterprise SaaS&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h2 id="parte-3--el-stack-completo-cómo-encaja-todo">Parte 3 — El stack completo: cómo encaja todo&lt;/h2>
&lt;p>Recapitulemos las capas que las dos series han cubierto, ordenadas de &lt;strong>más cercana al request individual&lt;/strong> a &lt;strong>más cercana a la tendencia agregada&lt;/strong>:&lt;/p>
&lt;pre tabindex="0">&lt;code>EVENTOS individuales TENDENCIAS agregadas
│ │
Tracing ──→ Evals ──→ Guardrails ──→ MCP obs ──→ Drift detection
│ │
AgentSight ──→ Tetragon ──→ Hubble ──→ eBPF on-device
│ │
(qué pasa) (qué cambia)
&lt;/code>&lt;/pre>&lt;p>Cada capa responde una pregunta distinta:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Capa&lt;/th>
&lt;th>Pregunta que responde&lt;/th>
&lt;th>Granularidad&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Tracing&lt;/strong> (Langfuse, AgentSight)&lt;/td>
&lt;td>¿Qué hizo el agente exactamente?&lt;/td>
&lt;td>Una sesión&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Evals&lt;/strong>&lt;/td>
&lt;td>¿Fue buena la respuesta?&lt;/td>
&lt;td>Una respuesta&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Guardrails&lt;/strong>&lt;/td>
&lt;td>¿Es seguro este prompt/respuesta?&lt;/td>
&lt;td>Un mensaje&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>MCP observability&lt;/strong>&lt;/td>
&lt;td>¿Qué tools invocó, cuánto coste?&lt;/td>
&lt;td>Una llamada tool&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>eBPF en agente/red&lt;/strong> (AgentSight, Hubble)&lt;/td>
&lt;td>¿Cómo se comportó el sistema?&lt;/td>
&lt;td>Por proceso/conexión&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>eBPF en motor local&lt;/strong> (ProfInfer-like)&lt;/td>
&lt;td>¿Cómo se ejecutó el modelo?&lt;/td>
&lt;td>Por función runtime&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Drift detection&lt;/strong>&lt;/td>
&lt;td>¿Está cambiando algo silenciosamente?&lt;/td>
&lt;td>Distribución&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Ninguna sustituye a las demás. La cobertura completa requiere las siete. La operación práctica:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Capas 1-3&lt;/strong> (tracing, evals, guardrails) son &lt;strong>obligatorias desde el día uno&lt;/strong>. Cualquier app LLM en producción que no las tenga está pilotando a ciegas.&lt;/li>
&lt;li>&lt;strong>Capa 4&lt;/strong> (MCP) se vuelve obligatoria cuando hay agentes con tools, que es la mayoría en 2026.&lt;/li>
&lt;li>&lt;strong>Capas 5-6&lt;/strong> (eBPF) se vuelven valiosas cuando la escala justifica el coste de operación (&amp;gt;10 servicios, &amp;gt;100 pods de inferencia).&lt;/li>
&lt;li>&lt;strong>Capa 7&lt;/strong> (drift) es la que &lt;strong>más se descuida y más caro sale ignorar&lt;/strong>: se cubre con un día de trabajo para tener el pipeline básico y ahorra semanas de incidencias futuras.&lt;/li>
&lt;/ol>
&lt;h2 id="patrón-operativo-de-drift-en-2026">Patrón operativo de drift en 2026&lt;/h2>
&lt;p>La receta mínima que cualquier app LLM seria debería tener:&lt;/p>
&lt;h3 id="paso-1--establecer-baseline">Paso 1 — Establecer baseline&lt;/h3>
&lt;p>Durante un periodo estable post-release (2 semanas mínimo), almacena:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Embeddings de todos los prompts&lt;/strong> (vector + metadata: timestamp, user_segment, tenant).&lt;/li>
&lt;li>&lt;strong>Embeddings de las respuestas&lt;/strong>.&lt;/li>
&lt;li>&lt;strong>Scores de evals&lt;/strong> automatizados sobre muestra (eg 5-10% del tráfico con G-Eval).&lt;/li>
&lt;li>&lt;strong>Distribución de tools invocadas&lt;/strong> (qué tools, con qué argumentos típicos, con qué frecuencia).&lt;/li>
&lt;/ul>
&lt;p>Storage: cualquier vector store + relational. Cardinalidad razonable a la escala que tengas.&lt;/p>
&lt;h3 id="paso-2--pipeline-continuo-de-comparación">Paso 2 — Pipeline continuo de comparación&lt;/h3>
&lt;p>Cada hora (o cada día según escala):&lt;/p>
&lt;ul>
&lt;li>Toma la muestra del periodo actual (última hora).&lt;/li>
&lt;li>Aplica los tests estadísticos contra el baseline:
&lt;ul>
&lt;li>&lt;strong>PSI&lt;/strong> sobre features simples (longitud prompt, tokens, num tools).&lt;/li>
&lt;li>&lt;strong>KS&lt;/strong> sobre features continuos (latencia, score).&lt;/li>
&lt;li>&lt;strong>MMD&lt;/strong> sobre embeddings.&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>Genera un drift report (Evidently lo hace en una línea de Python).&lt;/li>
&lt;/ul>
&lt;h3 id="paso-3--alertas-y-workflow-de-investigación">Paso 3 — Alertas y workflow de investigación&lt;/h3>
&lt;p>Configurar thresholds y rutas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PSI &amp;gt; 0.25 sobre tokens consumidos&lt;/strong>: alerta moderada (puede ser legítimo, investigar segmentos).&lt;/li>
&lt;li>&lt;strong>MMD significativo sobre embeddings de prompts&lt;/strong>: alerta alta (cambio en user mix o ataque coordinado).&lt;/li>
&lt;li>&lt;strong>Eval rubric score baja &amp;gt;5% en rolling 7d&lt;/strong>: alerta crítica.&lt;/li>
&lt;li>&lt;strong>Nuevo cluster en embedding space del 10%+ del tráfico&lt;/strong>: workflow de revisión (puede ser nuevo segmento legítimo o anomalía).&lt;/li>
&lt;/ul>
&lt;p>Cada alerta debe llevar a &lt;strong>un dashboard de drill-down&lt;/strong> con los segmentos afectados, no a un Slack message vacío. La regla operativa: si alguien no puede investigar el alert en &amp;lt;5 minutos, no se va a investigar.&lt;/p>
&lt;h3 id="paso-4--refresh-de-baseline">Paso 4 — Refresh de baseline&lt;/h3>
&lt;p>El baseline no es estático. Cada N semanas, &lt;strong>refresca el baseline&lt;/strong> incorporando lo &amp;ldquo;estable nuevo&amp;rdquo;. Si en 3 meses el patrón de uso ha cambiado legítimamente (más usuarios internacionales, idiomas nuevos), el baseline debe reflejarlo. La cadencia típica: trimestral.&lt;/p>
&lt;h2 id="trampas-operativas">Trampas operativas&lt;/h2>
&lt;h3 id="baseline-contaminado">Baseline contaminado&lt;/h3>
&lt;p>Tomas el baseline de un periodo que ya contenía el problema en germen. Resultado: el baseline incluye el comportamiento malo, los tests no disparan nunca. Solución: verificar el baseline contra una segunda muestra independiente (por ejemplo, la primera semana vs la segunda) antes de bendecirlo.&lt;/p>
&lt;h3 id="threshold-demasiado-bajo">Threshold demasiado bajo&lt;/h3>
&lt;p>PSI &amp;gt; 0.05 dispara constantemente. Tu equipo aprende a ignorar las alertas. &lt;strong>Calibrar thresholds&lt;/strong> según el ruido natural de tu sistema: corre el sistema con baseline + muestras semanales sucesivas y mide la distribución de PSI; pon el threshold un par de desviaciones por encima de lo normal.&lt;/p>
&lt;h3 id="embeddings-no-representativos">Embeddings no representativos&lt;/h3>
&lt;p>Usas el embedding model de OpenAI &lt;code>text-embedding-3-small&lt;/code> para detectar drift en un sistema que sirve preguntas técnicas en español sobre redes Cisco. Resultado: el embedding model no captura la semántica fina del dominio. Solución: usar embeddings finetuned para tu dominio o uno fuerte en multilenguaje y técnico.&lt;/p>
&lt;h3 id="sobrecarga-de-almacenamiento">Sobrecarga de almacenamiento&lt;/h3>
&lt;p>Almacenar embedding de cada prompt en producción a escala (millones de prompts/día) llena disco y aumenta coste. &lt;strong>Sampling estratificado&lt;/strong>: guarda 5-10% del tráfico, pero asegúrate de que los segmentos minoritarios están sobrerrepresentados para no perderlos.&lt;/p>
&lt;h3 id="confundir-drift-con-el-sistema-funciona">Confundir drift con &amp;ldquo;el sistema funciona&amp;rdquo;&lt;/h3>
&lt;p>A veces el drift es &lt;strong>buen drift&lt;/strong>: los usuarios nuevos descubren que el agente sabe hacer X cosa, y de pronto el 30% del tráfico es para X cosa. La distribución cambió porque el producto encontró un nuevo uso. &lt;strong>Antes de tirar de la alarma&lt;/strong>, verifica si el cambio es deseable.&lt;/p>
&lt;h3 id="privacy-en-almacenamiento-de-embeddings">Privacy en almacenamiento de embeddings&lt;/h3>
&lt;p>Embeddings pueden ser invertidos parcialmente a su texto original con técnicas de embedding inversion. Si los prompts contienen PII, almacenar embeddings durante meses para drift detection es un vector de fuga. &lt;strong>Cifrar at rest y rotar regularmente&lt;/strong>, o trabajar con embeddings agregados/promediados.&lt;/p>
&lt;h3 id="ebpf-en-producción-sin-profile-guardrails">eBPF en producción sin profile guardrails&lt;/h3>
&lt;p>Adjuntar uprobes en funciones de hot path como &lt;code>llama_decode&lt;/code> puede impactar throughput si no se hace con cuidado. &lt;strong>Probar siempre en staging&lt;/strong> y monitorizar overhead. ProfInfer reporta &amp;lt;4%; lo que tú midas puede variar según tu binario y kernel.&lt;/p>
&lt;h2 id="cerrando-las-dos-series">Cerrando las dos series&lt;/h2>
&lt;p>Esta semana hemos escrito &lt;strong>12 artículos&lt;/strong> que recorren el stack moderno de inferencia LLM en producción de arriba abajo:&lt;/p>
&lt;p>&lt;strong>Serie inferencia LLM (4 artículos)&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache: la memoria de trabajo que sostiene la inferencia LLM&lt;/a> — fundamentos.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en Kubernetes&lt;/a> — el motor.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/pagedattention-deep-dive/">PagedAttention deep dive&lt;/a> — cómo funciona por dentro.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/operators-llm-kubernetes/">Operators LLM en Kubernetes&lt;/a> — orquestación.&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Serie eBPF (4 artículos)&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a> — el sustrato.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon&lt;/a> — seguridad runtime.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble&lt;/a> — observabilidad de red.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight&lt;/a> — observabilidad de agentes.&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Serie post-tracing (4 artículos)&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/evals-llm-la-capa-despues-de-tracing/">Evals&lt;/a> — calidad reactiva.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/guardrails-safety-llm/">Guardrails&lt;/a> — seguridad preventiva.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/mcp-observability-otel/">MCP observability&lt;/a> — protocolo de herramientas.&lt;/li>
&lt;li>&lt;strong>Este&lt;/strong> — drift detection y eBPF en inferencia local.&lt;/li>
&lt;/ul>
&lt;p>Si lees los doce en orden tienes un mapa razonablemente completo de &lt;strong>qué hace falta para operar agentes IA en producción seria en 2026&lt;/strong>, con el detalle suficiente para no chocarte con los problemas habituales en el primer mes. Y, sobre todo, con la mentalidad de que &lt;strong>observabilidad LLM es un stack, no un producto&lt;/strong>: cada capa resuelve un problema, ninguna las resuelve todas, y la combinación es lo que define a un sistema operable de uno que aguanta hasta el primer incidente.&lt;/p>
&lt;h2 id="lo-que-queda-para-futuras-series">Lo que queda para futuras series&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>MLOps específico para LLMs&lt;/strong>: fine-tuning continuo, RAG over data lakes, agent training.&lt;/li>
&lt;li>&lt;strong>Constitutional AI y alignment runtime&lt;/strong>: cómo el modelo se autorregula con guardrails internos.&lt;/li>
&lt;li>&lt;strong>GPU networking&lt;/strong>: InfiniBand, NCCL, GPUDirect — el ángulo que dejamos sin tocar.&lt;/li>
&lt;li>&lt;strong>Edge inference&lt;/strong>: llama.cpp en móviles, MLX en macOS, Snapdragon NPU.&lt;/li>
&lt;li>&lt;strong>Inference scheduling teórico&lt;/strong>: CFS-like algorithms aplicados a LLM serving multi-tenant.&lt;/li>
&lt;/ul>
&lt;p>Los iremos cubriendo. Hasta aquí, gracias por leer estos doce posts. Si te ha aportado algo, compártelo con un colega.&lt;/p>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>eBPF en inferencia local:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://arxiv.org/abs/2601.20755">ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler (arxiv 2601.20755)&lt;/a> — paper de referencia 2026.&lt;/li>
&lt;li>&lt;a href="https://www.glukhov.org/observability/monitoring-llm-inference-prometheus-grafana/">Monitor LLM Inference in Production 2026 (Glukhov)&lt;/a> — Prometheus + Grafana para vLLM/TGI/llama.cpp.&lt;/li>
&lt;li>&lt;a href="https://www.armosec.io/blog/observability-for-ai-inference-servers/">AI Inference Server Observability in Kubernetes (ARMO)&lt;/a> — las cuatro señales que MLOps tools no capturan.&lt;/li>
&lt;li>&lt;a href="https://developers.redhat.com/articles/2025/09/30/vllm-or-llamacpp-choosing-right-llm-inference-engine-your-use-case">vLLM vs llama.cpp: Choosing the right engine (Red Hat)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Drift detection conceptos:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://futureagi.com/blog/what-is-llm-drift-2026">What is LLM Drift? Types, Detection, Mitigation 2026 (FutureAGI)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://stackpulsar.com/blog/llm-model-drift-detection/">LLM Model Drift Detection 2026 (Stack Pulsar)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://galileo.ai/blog/best-llm-output-drift-monitoring-platforms">9 Best LLM Drift Monitoring Platforms in 2026 (Galileo)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2404.18673">Open-Source Drift Detection Tools in Action (arxiv 2404.18673)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2309.10000">Detecting covariate drift in text data using document embeddings (arxiv 2309.10000)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://futureagi.com/blog/best-ai-drift-detection-tools-2026">Best AI Drift Detection Tools in 2026 (FutureAGI)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Herramientas:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://github.com/evidentlyai/evidently">Evidently AI (GitHub)&lt;/a> — open-source.&lt;/li>
&lt;li>&lt;a href="https://www.evidentlyai.com/">Evidently — sitio oficial&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.nannyml.com/">NannyML&lt;/a> — performance sin ground truth.&lt;/li>
&lt;li>&lt;a href="https://whylabs.ai/">WhyLabs&lt;/a> — managed observability.&lt;/li>
&lt;li>&lt;a href="https://github.com/SeldonIO/alibi-detect">Alibi Detect (Seldon)&lt;/a> — drift detection general.&lt;/li>
&lt;li>&lt;a href="https://phoenix.arize.com/">Arize Phoenix&lt;/a> — drift integrado con tracing.&lt;/li>
&lt;/ul>
&lt;p>Tests estadísticos:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://mlpipeline-cloud.com/blog/data-drift-detection-psi-ks">Data drift detection: PSI vs Kolmogorov–Smirnov (MLPipeline)&lt;/a> — comparativa práctica.&lt;/li>
&lt;li>&lt;a href="https://brandonwie.dev/posts/psi-model-drift-detection">Population Stability Index for Model Drift Detection&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.evidentlyai.com/blog/data-drift-detection-large-datasets">Which test is the best? 5 methods to detect data drift (Evidently)&lt;/a> — los 6 horas de ventaja de KS.&lt;/li>
&lt;/ul>
&lt;p>Cross-references (las tres series completas):&lt;/p>
&lt;ul>
&lt;li>Serie inferencia LLM: &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache&lt;/a>, &lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en K8s&lt;/a>, &lt;a href="https://blog.lo0.es/posts/pagedattention-deep-dive/">PagedAttention&lt;/a>, &lt;a href="https://blog.lo0.es/posts/operators-llm-kubernetes/">Operators LLM K8s&lt;/a>.&lt;/li>
&lt;li>Serie eBPF: &lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a>, &lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon&lt;/a>, &lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble&lt;/a>, &lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight&lt;/a>.&lt;/li>
&lt;li>Serie post-tracing: &lt;a href="https://blog.lo0.es/posts/evals-llm-la-capa-despues-de-tracing/">Evals&lt;/a>, &lt;a href="https://blog.lo0.es/posts/guardrails-safety-llm/">Guardrails&lt;/a>, &lt;a href="https://blog.lo0.es/posts/mcp-observability-otel/">MCP observability&lt;/a>.&lt;/li>
&lt;/ul></description></item><item><title>MCP por dentro y su observabilidad profunda: el LSP de los agentes IA y cómo verlo todo con OpenTelemetry</title><link>https://blog.lo0.es/posts/mcp-observability-otel/</link><pubDate>Wed, 20 May 2026 06:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/mcp-observability-otel/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>&lt;a href="https://modelcontextprotocol.io/">Model Context Protocol (MCP)&lt;/a> es el estándar que Anthropic publicó a finales de 2024 y que se ha convertido en 2026 en &lt;strong>el protocolo dominante para conectar agentes IA con herramientas y datos externos&lt;/strong>. Su valor —el motivo por el que toda la industria lo ha adoptado en menos de 18 meses— es que &lt;strong>resuelve un problema combinatorio&lt;/strong>: antes de MCP, integrar M apps IA con N herramientas requería M×N integraciones ad-hoc; con MCP, M + N. Es el mismo movimiento que hizo el &lt;a href="https://microsoft.github.io/language-server-protocol/">Language Server Protocol&lt;/a> en 2016 para los editores de código. La arquitectura es tres roles bien definidos —&lt;strong>Host&lt;/strong> (la app IA), &lt;strong>Cliente&lt;/strong> (la conexión, uno por servidor) y &lt;strong>Servidor&lt;/strong> (la pieza que expone capacidades)—; las primitivas son seis —tres del lado servidor (Tools, Resources, Prompts), tres del lado cliente (Sampling, Roots, Elicitation)—; el protocolo es JSON-RPC sobre dos transportes —stdio para procesos locales, Streamable HTTP para remoto—. El reto operacional aparece cuando hay 10-20 servers MCP corriendo simultáneamente, cada uno con varias tools, conectados a un agente que encadena llamadas multistep: &lt;strong>observar qué pasa, dónde fallan las cosas, cuánto cuesta cada tool, qué tenant invoca qué&lt;/strong> se vuelve crítico. La respuesta del ecosistema en 2026: las nuevas &lt;strong>OpenTelemetry GenAI semantic conventions for MCP&lt;/strong> (ya estables), trace context propagation vía &lt;code>params._meta&lt;/code> (porque JSON-RPC no lo trae nativo), FastMCP con instrumentación OTel built-in, MCP Gateways como capa centralizada (Traefik Hub, MintMCP, OpenObserve), y MCP Inspector para debugging interactivo. Este artículo recorre la arquitectura desde fuera hacia dentro, sitúa cada concepto en su lugar exacto, y baja al detalle de la observabilidad: trazas, métricas RED, casos de uso reales y trampas.&lt;/p>
&lt;blockquote>
&lt;p>Este es el &lt;strong>tercer post de la serie post-tracing&lt;/strong>. Posts previos: &lt;a href="https://blog.lo0.es/posts/evals-llm-la-capa-despues-de-tracing/">Evals&lt;/a> y &lt;a href="https://blog.lo0.es/posts/guardrails-safety-llm/">Guardrails&lt;/a>. Aquí bajamos al protocolo que conecta agentes con herramientas, y cómo verlo en producción.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-maestra-en-tres-versiones">La analogía maestra (en tres versiones)&lt;/h2>
&lt;p>MCP es un protocolo de comunicación. Como cualquier protocolo, se entiende mejor con la analogía adecuada. Voy a darte tres porque cada una ilumina una faceta distinta y la combinación te deja entendiéndolo mejor que cualquier definición técnica.&lt;/p>
&lt;h3 id="versión-1--el-usb-c-de-las-apps-ia-la-oficial">Versión 1 — El USB-C de las apps IA (la oficial)&lt;/h3>
&lt;p>Es la analogía que Anthropic adoptó al presentarlo. Antes de USB-C, cada dispositivo electrónico tenía su propio conector. Tu móvil llevaba microUSB o Lightning, tu portátil un puerto propietario para alimentación, tus auriculares un jack 3.5mm, tu disco externo USB-A en una punta y mini-USB en la otra. Resultado: tres cajas llenas de cables específicos que se perdían, ninguno servía para dos cosas, comprar un dispositivo nuevo significaba comprar accesorios nuevos.&lt;/p>
&lt;p>USB-C cambió eso. &lt;strong>Un único conector físico que muchos protocolos atraviesan&lt;/strong>: datos (USB 3, USB 4, Thunderbolt), vídeo (DisplayPort), alimentación (Power Delivery), audio. Conectas cualquier cosa a cualquier cosa y funciona; los protocolos negocian arriba.&lt;/p>
&lt;p>MCP juega el mismo rol para apps IA. Antes de MCP, &lt;strong>cada aplicación que quería integrar herramientas con un LLM&lt;/strong> —Claude Desktop, Cursor, Continue, custom agents propios— &lt;strong>inventaba su propia forma de hacerlo&lt;/strong>. Cada vendor de tools tenía que escribir N integraciones distintas, una por app. Resultado: fragmentación masiva, mucho código duplicado, integraciones que se rompían cuando una app cambiaba su API interna.&lt;/p>
&lt;p>Con MCP, el conector es uno: cualquier app que hable MCP puede usar cualquier herramienta MCP. Igual que tu USB-C habla a impresoras, monitores y discos sin que la impresora &amp;ldquo;sepa&amp;rdquo; que el cable está conectado a un Mac o a un Linux.&lt;/p>
&lt;h3 id="versión-2--el-lsp-de-los-editores-de-código-la-más-técnicamente-precisa">Versión 2 — El LSP de los editores de código (la más técnicamente precisa)&lt;/h3>
&lt;p>Esta es mi preferida porque la analogía es &lt;strong>estructuralmente idéntica&lt;/strong>, no solo metafórica.&lt;/p>
&lt;p>Hasta 2016, si querías que tu editor de código soportara un lenguaje nuevo —Rust, Go, TypeScript— alguien tenía que escribir un plugin específico para tu editor concreto. VSCode tenía su plugin de Rust, IntelliJ otro distinto, Vim otro, Emacs otro. Cada feature decente (go-to-definition, autocompletado, refactoring) era una implementación duplicada N veces. &lt;strong>M editores × N lenguajes = M·N integraciones&lt;/strong>.&lt;/p>
&lt;p>Microsoft propuso en 2016 el &lt;strong>Language Server Protocol (LSP)&lt;/strong>: cada lenguaje implementa &lt;strong>un único&lt;/strong> &amp;ldquo;language server&amp;rdquo; (un proceso que entiende ese lenguaje); cada editor implementa &lt;strong>un único&lt;/strong> cliente LSP; cuando trabajas con código Rust en VSCode, VSCode lanza rust-analyzer como subproceso y le habla LSP por stdio. Cualquier editor LSP + cualquier servidor LSP = funciona. &lt;strong>M + N&lt;/strong>.&lt;/p>
&lt;p>MCP es &lt;strong>literalmente&lt;/strong> este patrón, trasladado de &amp;ldquo;editor + language server&amp;rdquo; a &amp;ldquo;app IA + tool provider&amp;rdquo;. Y comparte hasta el detalle técnico: ambos pasan &lt;strong>JSON-RPC sobre stdio&lt;/strong> (entre otros transportes). Cuando Anthropic diseñó MCP, miraron a LSP. Quien venga del mundo de editores e IDEs encontrará MCP familiar.&lt;/p>
&lt;h3 id="versión-3--el-driver-del-sistema-operativo-la-operativa">Versión 3 — El driver del sistema operativo (la operativa)&lt;/h3>
&lt;p>Por último, una analogía que ayuda a entender &lt;strong>lo que hace&lt;/strong> un MCP server concreto.&lt;/p>
&lt;p>Un sistema operativo no sabe directamente cómo hablar con tu impresora HP LaserJet específica. Lo que sabe es &lt;strong>una interfaz genérica&lt;/strong>: &amp;ldquo;imprimir documento&amp;rdquo;, &amp;ldquo;consultar estado&amp;rdquo;, &amp;ldquo;cancelar tarea&amp;rdquo;. El driver de impresora es la pieza que traduce esa interfaz genérica a los comandos propietarios de tu impresora específica.&lt;/p>
&lt;p>Un MCP server hace exactamente lo mismo:&lt;/p>
&lt;ul>
&lt;li>Tu agente IA sabe &lt;strong>una interfaz genérica&lt;/strong>: invocar una tool con un schema definido, leer un resource por URI, pedir un prompt template por nombre.&lt;/li>
&lt;li>El &lt;strong>MCP server&lt;/strong> es el driver: traduce esas operaciones genéricas a las API concretas del sistema underlying —tu base de datos PostgreSQL, tu filesystem, tu API GitHub, tu Stripe—.&lt;/li>
&lt;/ul>
&lt;p>Esto deja al agente IA libre de saber cómo se autentica con GitHub, qué SQL exacto usa PostgreSQL, qué endpoints tiene Stripe. Habla MCP; el server se encarga de los detalles.&lt;/p>
&lt;p>Con las tres analogías combinadas: &lt;strong>MCP es la capa entre el LLM y el mundo, un USB-C estándar implementado como LSP en JSON-RPC, con cada server actuando de driver para un sistema underlying concreto&lt;/strong>.&lt;/p>
&lt;h2 id="qué-problema-concreto-resuelve-mcp">Qué problema concreto resuelve MCP&lt;/h2>
&lt;p>Antes de bajar a la arquitectura, conviene fijar &lt;strong>el problema específico&lt;/strong> que MCP resuelve, porque sin eso muchas decisiones de diseño parecen arbitrarias.&lt;/p>
&lt;p>El problema es &lt;strong>el coste cuadrático de las integraciones&lt;/strong>.&lt;/p>
&lt;p>Imagina que tienes M aplicaciones que usan LLMs (Claude Desktop, Cursor, Continue, ChatGPT Desktop, tu propio agente custom, &amp;hellip;) y N herramientas externas que esos LLMs podrían usar (filesystem, GitHub, Slack, PostgreSQL, Jira, Notion, &amp;hellip;). Sin un estándar:&lt;/p>
&lt;ul>
&lt;li>Cada par (aplicación, herramienta) requiere &lt;strong>una integración específica&lt;/strong>.&lt;/li>
&lt;li>Cada vez que la aplicación cambia su API interna, hay que actualizar N integraciones.&lt;/li>
&lt;li>Cada vez que la herramienta cambia su API, hay que actualizar M.&lt;/li>
&lt;li>Para que tu herramienta nueva sea adoptada, tienes que escribir M integraciones.&lt;/li>
&lt;li>Para que tu aplicación nueva soporte el ecosistema, tienes que escribir N.&lt;/li>
&lt;/ul>
&lt;p>Resultado real en 2023-2024: &lt;strong>fragmentación masiva&lt;/strong>. Function calling de OpenAI no era compatible con tool use de Anthropic; cada framework (LangChain, LlamaIndex, dspy) tenía su propio wrapper; los plugins de Claude Desktop no funcionaban en Cursor; etc.&lt;/p>
&lt;p>MCP rompe la cuadratura. &lt;strong>Cada aplicación implementa el protocolo una vez&lt;/strong>; &lt;strong>cada herramienta implementa el protocolo una vez&lt;/strong>; cualquier par funciona. M + N.&lt;/p>
&lt;p>Es exactamente lo que pasó con USB-C, con LSP, con SQL (antes había APIs propietarias por base de datos), con POSIX (antes había APIs propietarias por sistema operativo). El patrón se repite porque resuelve siempre el mismo tipo de problema.&lt;/p>
&lt;h2 id="la-arquitectura-tres-roles-situados-con-claridad">La arquitectura: tres roles, situados con claridad&lt;/h2>
&lt;p>Vamos a fijar dónde vive cada cosa, porque mezclar los roles es la fuente número uno de confusión en MCP.&lt;/p>
&lt;div class="diagram" style="max-width:720px;margin:1.5rem auto;">
&lt;svg viewBox="0 0 720 360" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Arquitectura MCP: Host, Cliente, Servidor">
&lt;style>.title{font:600 13px sans-serif;fill:#222}.lbl{font:600 12px sans-serif;fill:#222}.sm{font:11px sans-serif;fill:#555}.box{stroke:#444;stroke-width:1.4}.host{fill:#ffe9d6}.llm{fill:#ffd6d6}.client{fill:#d6eaff}.server{fill:#d9f5d6}.sys{fill:#eee;stroke-dasharray:4 2}.arr{stroke:#666;stroke-width:1.4;fill:none;marker-end:url(#mh)}.bidi{stroke:#888;stroke-width:1.2;fill:none}&lt;/style>
&lt;defs>&lt;marker id="mh" viewBox="0 0 10 10" refX="9" refY="5" markerWidth="6" markerHeight="6" orient="auto">&lt;path d="M0,0 L10,5 L0,10 z" fill="#666"/>&lt;/marker>&lt;/defs>
&lt;text x="360" y="20" text-anchor="middle" class="title">Arquitectura MCP: dónde vive cada pieza&lt;/text>
&lt;rect x="30" y="40" width="280" height="280" rx="8" class="box host"/>
&lt;text x="170" y="60" text-anchor="middle" class="lbl">HOST&lt;/text>
&lt;text x="170" y="76" text-anchor="middle" class="sm">app IA: Claude Desktop, Cursor, agente propio&lt;/text>
&lt;rect x="55" y="95" width="230" height="50" rx="6" class="box llm"/>
&lt;text x="170" y="116" text-anchor="middle" class="lbl">LLM (motor de razonamiento)&lt;/text>
&lt;text x="170" y="132" text-anchor="middle" class="sm">decide qué tools llamar, qué resources leer&lt;/text>
&lt;rect x="55" y="160" width="100" height="36" rx="6" class="box client"/>
&lt;text x="105" y="183" text-anchor="middle" class="lbl">Cliente 1&lt;/text>
&lt;rect x="160" y="160" width="120" height="36" rx="6" class="box client"/>
&lt;text x="220" y="183" text-anchor="middle" class="lbl">Cliente 2&lt;/text>
&lt;rect x="55" y="210" width="100" height="36" rx="6" class="box client"/>
&lt;text x="105" y="233" text-anchor="middle" class="lbl">Cliente 3&lt;/text>
&lt;rect x="160" y="210" width="120" height="36" rx="6" class="box client"/>
&lt;text x="220" y="233" text-anchor="middle" class="lbl">Cliente N&lt;/text>
&lt;text x="170" y="275" text-anchor="middle" class="sm">un cliente MCP por cada servidor conectado&lt;/text>
&lt;text x="170" y="295" text-anchor="middle" class="sm">cada cliente es una conexión 1:1&lt;/text>
&lt;rect x="380" y="60" width="200" height="70" rx="6" class="box server"/>
&lt;text x="480" y="82" text-anchor="middle" class="lbl">Server: filesystem-mcp&lt;/text>
&lt;text x="480" y="100" text-anchor="middle" class="sm">stdio (proceso local)&lt;/text>
&lt;text x="480" y="116" text-anchor="middle" class="sm">tools: read, write, list, search&lt;/text>
&lt;rect x="380" y="140" width="200" height="70" rx="6" class="box server"/>
&lt;text x="480" y="162" text-anchor="middle" class="lbl">Server: github-mcp&lt;/text>
&lt;text x="480" y="180" text-anchor="middle" class="sm">Streamable HTTP (remoto)&lt;/text>
&lt;text x="480" y="196" text-anchor="middle" class="sm">tools: create_issue, get_pr, ...&lt;/text>
&lt;rect x="380" y="220" width="200" height="70" rx="6" class="box server"/>
&lt;text x="480" y="242" text-anchor="middle" class="lbl">Server: postgres-mcp&lt;/text>
&lt;text x="480" y="260" text-anchor="middle" class="sm">stdio (proceso local)&lt;/text>
&lt;text x="480" y="276" text-anchor="middle" class="sm">tools: query, schema; resources: tablas&lt;/text>
&lt;rect x="610" y="60" width="80" height="70" rx="6" class="box sys"/>
&lt;text x="650" y="92" text-anchor="middle" class="sm">FS local&lt;/text>
&lt;text x="650" y="108" text-anchor="middle" class="sm">↕&lt;/text>
&lt;rect x="610" y="140" width="80" height="70" rx="6" class="box sys"/>
&lt;text x="650" y="172" text-anchor="middle" class="sm">GitHub API&lt;/text>
&lt;text x="650" y="188" text-anchor="middle" class="sm">↕&lt;/text>
&lt;rect x="610" y="220" width="80" height="70" rx="6" class="box sys"/>
&lt;text x="650" y="252" text-anchor="middle" class="sm">PostgreSQL&lt;/text>
&lt;text x="650" y="268" text-anchor="middle" class="sm">↕&lt;/text>
&lt;path class="bidi" d="M155,178 L380,95"/>
&lt;path class="bidi" d="M280,178 L380,175"/>
&lt;path class="bidi" d="M155,228 L380,255"/>
&lt;path class="bidi" d="M580,95 L610,95"/>
&lt;path class="bidi" d="M580,175 L610,175"/>
&lt;path class="bidi" d="M580,255 L610,255"/>
&lt;text x="170" y="340" text-anchor="middle" class="sm">los clientes dentro del host hablan MCP a los servers; los servers traducen al sistema&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>Tres roles. Vamos a fijar qué hace cada uno y dónde vive físicamente.&lt;/p>
&lt;h3 id="host-la-aplicación-ia">Host: la aplicación IA&lt;/h3>
&lt;p>El &lt;strong>Host&lt;/strong> es la aplicación que el usuario abre. Claude Desktop, Cursor, Continue, ChatGPT Desktop, un agente custom que tu equipo construye, una extensión de VSCode. Lo que el usuario percibe como &amp;ldquo;el producto&amp;rdquo;.&lt;/p>
&lt;p>El Host es el responsable de:&lt;/p>
&lt;ul>
&lt;li>Decidir &lt;strong>qué servidores MCP&lt;/strong> conectar (configurados por el usuario en un archivo o vía UI).&lt;/li>
&lt;li>Lanzar o conectar con cada servidor MCP.&lt;/li>
&lt;li>Crear &lt;strong>un Cliente MCP por servidor&lt;/strong> (es 1:1, no comparten).&lt;/li>
&lt;li>Embeber el &lt;strong>LLM&lt;/strong> (o llamarlo vía API) que toma las decisiones de qué herramientas usar.&lt;/li>
&lt;li>Mediar la &lt;strong>autorización&lt;/strong> del usuario para acciones sensibles (mostrarle al humano &amp;ldquo;el agente quiere ejecutar X tool, ¿permites?&amp;rdquo;).&lt;/li>
&lt;/ul>
&lt;p>Importante: &lt;strong>el LLM vive dentro del Host&lt;/strong>, no en los servidores. Los servidores son tontos; ejecutan operaciones cuando se les pide. El razonamiento (&amp;quot;¿debería llamar a esta tool ahora?&amp;quot;) vive en el LLM del host.&lt;/p>
&lt;h3 id="cliente-la-conexión-una-por-servidor">Cliente: la conexión, una por servidor&lt;/h3>
&lt;p>Un &lt;strong>Cliente MCP&lt;/strong> es una &lt;strong>conexión específica&lt;/strong> entre el Host y un Servidor. Si tu Host tiene 5 servidores MCP configurados, tiene &lt;strong>5 clientes&lt;/strong>, no uno compartido. Cada cliente:&lt;/p>
&lt;ul>
&lt;li>Mantiene su socket o stdio pipe con el servidor.&lt;/li>
&lt;li>Negocia capacidades en el handshake inicial (qué versión del protocolo, qué primitivas soportan ambos).&lt;/li>
&lt;li>Serializa requests JSON-RPC al servidor y deserializa respuestas.&lt;/li>
&lt;li>Es el punto donde &lt;strong>el Host invoca operaciones&lt;/strong> del servidor.&lt;/li>
&lt;/ul>
&lt;p>La separación 1:1 cliente-servidor es importante porque permite que cada server tenga su propio estado de sesión, sus permisos específicos y su contexto autenticado independiente. No hay multiplexación en el cliente.&lt;/p>
&lt;h3 id="servidor-la-pieza-que-expone-capacidades">Servidor: la pieza que expone capacidades&lt;/h3>
&lt;p>El &lt;strong>Servidor MCP&lt;/strong> es la pieza que implementa el lado tool-provider del protocolo. Recibe JSON-RPC del cliente, lo procesa, ejecuta la acción contra el sistema underlying y devuelve respuesta.&lt;/p>
&lt;p>Hay dos sabores físicamente:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Servidor local&lt;/strong>: arranca como subproceso del Host, comunica por stdio. Su ciclo de vida es el del Host (cuando cierras Claude Desktop, los servidores locales mueren). Modelo típico: tu Host lanza &lt;code>node filesystem-mcp-server.js&lt;/code> como hijo.&lt;/li>
&lt;li>&lt;strong>Servidor remoto&lt;/strong>: corre como servicio independiente, accesible por HTTP. Multi-tenant, autenticado, escalable. Modelo típico: una empresa publica &lt;code>https://mcp.acme.com/v1&lt;/code> y muchos hosts se conectan.&lt;/li>
&lt;/ul>
&lt;p>Esta diferencia tiene consecuencias enormes en observabilidad (volveremos en breve).&lt;/p>
&lt;h3 id="resumen-del-lugar-de-cada-cosa">Resumen del lugar de cada cosa&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Vive en&lt;/th>
&lt;th>Hay cuántos&lt;/th>
&lt;th>Habla qué con quién&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Host&lt;/td>
&lt;td>Máquina del usuario&lt;/td>
&lt;td>1 (la app abierta)&lt;/td>
&lt;td>UI con usuario; lanza clientes&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>LLM&lt;/td>
&lt;td>Embebido en Host (o cloud API)&lt;/td>
&lt;td>1 (el principal)&lt;/td>
&lt;td>Razona; pide tools&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cliente&lt;/td>
&lt;td>Host&lt;/td>
&lt;td>1 por servidor&lt;/td>
&lt;td>JSON-RPC con su servidor&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Servidor local&lt;/td>
&lt;td>Subproceso del Host&lt;/td>
&lt;td>1 por integración local&lt;/td>
&lt;td>stdio con su cliente&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Servidor remoto&lt;/td>
&lt;td>Servicio externo&lt;/td>
&lt;td>1 por servicio&lt;/td>
&lt;td>HTTP/SSE con sus clientes&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Sistema underlying&lt;/td>
&lt;td>Externo&lt;/td>
&lt;td>Depende&lt;/td>
&lt;td>API/DB/FS, no MCP&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Si te confundes en discusión, vuelve a esta tabla. La fuente número uno de errores en MCP es decir &amp;ldquo;el servidor&amp;rdquo; cuando se quiere decir &amp;ldquo;el host&amp;rdquo;.&lt;/p>
&lt;h2 id="las-dos-capas-del-protocolo">Las dos capas del protocolo&lt;/h2>
&lt;p>MCP separa &lt;strong>data layer&lt;/strong> y &lt;strong>transport layer&lt;/strong>. Esta separación es la que permite que el protocolo funcione por stdio local y por HTTP remoto &lt;strong>sin cambiar nada&lt;/strong> en las primitivas.&lt;/p>
&lt;h3 id="data-layer-json-rpc-con-extensiones-mcp">Data Layer: JSON-RPC con extensiones MCP&lt;/h3>
&lt;p>La capa de datos define el &lt;strong>vocabulario de los mensajes&lt;/strong>. Es &lt;strong>JSON-RPC 2.0&lt;/strong>. Cada mensaje es un JSON con &lt;code>jsonrpc: &amp;quot;2.0&amp;quot;&lt;/code>, un &lt;code>method&lt;/code> (eg &lt;code>tools/call&lt;/code>, &lt;code>resources/read&lt;/code>), &lt;code>params&lt;/code>, e &lt;code>id&lt;/code> para correlar request con response.&lt;/p>
&lt;p>Encima de JSON-RPC, MCP añade:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Lifecycle&lt;/strong>: el handshake inicial (&lt;code>initialize&lt;/code>, &lt;code>initialized&lt;/code>) que negocia capacidades.&lt;/li>
&lt;li>&lt;strong>Las primitivas&lt;/strong> (siguiente sección): &lt;code>tools/*&lt;/code>, &lt;code>resources/*&lt;/code>, &lt;code>prompts/*&lt;/code>, &lt;code>sampling/*&lt;/code>, etc.&lt;/li>
&lt;li>&lt;strong>Notifications&lt;/strong>: mensajes sin respuesta (eg &lt;code>notifications/cancelled&lt;/code> para abortar una tool en curso).&lt;/li>
&lt;li>&lt;strong>Meta-information&lt;/strong>: el campo &lt;code>params._meta&lt;/code> por convención lleva metadata transversal (trace context, request IDs).&lt;/li>
&lt;/ul>
&lt;h3 id="transport-layer-cómo-se-mueven-los-mensajes">Transport Layer: cómo se mueven los mensajes&lt;/h3>
&lt;p>La capa de transporte define &lt;strong>cómo viajan&lt;/strong> los mensajes JSON-RPC. Dos transportes oficiales:&lt;/p>
&lt;p>&lt;strong>stdio&lt;/strong>: el cliente lanza el servidor como subproceso y se comunican por sus stdin/stdout/stderr con JSON-RPC. Un mensaje por línea, separados por newline. Sin red, sin handshake TLS, sin auth (la confianza se hereda del propio sistema operativo: si lanzas el subproceso, le confías). Latencia mínima (~100 μs round-trip), ancho de banda máximo (memcpy, no socket).&lt;/p>
&lt;p>Caso de uso: &lt;strong>servidores locales&lt;/strong> que viven en la misma máquina que el host. La mayoría de servidores MCP que ves en directorios públicos son stdio.&lt;/p>
&lt;p>&lt;strong>Streamable HTTP&lt;/strong>: el cliente envía POST a un endpoint HTTP del servidor; el servidor responde con JSON, opcionalmente abre un stream Server-Sent Events para enviar notificaciones asíncronas o respuestas largas. Auth por bearer token, API key o headers custom.&lt;/p>
&lt;p>Introducido en la spec de &lt;strong>noviembre 2025&lt;/strong>, sustituye al transporte SSE puro de versiones anteriores que tenía limitaciones de bidireccionalidad. Caso de uso: &lt;strong>servidores remotos&lt;/strong> que sirven a muchos clientes simultáneos, con autenticación y multi-tenancy.&lt;/p>
&lt;p>Importante: las &lt;strong>primitivas son las mismas&lt;/strong> en ambos transportes. Un &lt;code>tools/call&lt;/code> es idéntico en stdio y en HTTP. El transport es accidental, no fundamental.&lt;/p>
&lt;h2 id="las-seis-primitivas-situadas-en-la-arquitectura">Las seis primitivas: situadas en la arquitectura&lt;/h2>
&lt;p>Aquí está la chicha. Hay seis primitivas en MCP. Suelen confundirse porque varias parecen hacer cosas similares. La clasificación clave: &lt;strong>tres viven del lado servidor&lt;/strong> (server expone, cliente consume) y &lt;strong>tres del lado cliente&lt;/strong> (cliente expone, servidor consume).&lt;/p>
&lt;h3 id="server-side-lo-que-el-servidor-le-da-al-host">Server-side: lo que el servidor le da al host&lt;/h3>
&lt;p>&lt;strong>Tools&lt;/strong> son &lt;strong>acciones&lt;/strong> que el servidor expone. Cada tool tiene un schema (parámetros tipados, descripción) y una implementación. Cuando el LLM del host decide invocar una tool, el cliente envía &lt;code>tools/call&lt;/code> al servidor, este la ejecuta y devuelve resultado.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: el server &lt;code>github-mcp&lt;/code> expone &lt;code>create_issue(repo, title, body)&lt;/code>. El LLM del host decide &amp;ldquo;voy a crear un issue&amp;rdquo;, llama esta tool, github-mcp habla a la API de GitHub, devuelve el issue ID al LLM.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el servidor las expone, el LLM las consume&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Resources&lt;/strong> son &lt;strong>datos contextuales&lt;/strong> que el servidor expone, direccionables por URI. No son acciones; son lecturas de contenido. Un resource tiene URI (&lt;code>file:///path/to/doc.md&lt;/code>, &lt;code>postgres://table/users&lt;/code>), metadata y un endpoint para leer contenido.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: el server &lt;code>filesystem-mcp&lt;/code> expone como resources los archivos de los directorios autorizados. El LLM pide &lt;code>resources/read&lt;/code> con URI &lt;code>file:///docs/api.md&lt;/code> y obtiene el texto.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el servidor las expone, el host las lee (y opcionalmente las pasa al LLM como contexto)&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>Diferencia clave Tools vs Resources: &lt;strong>Tools son verbos&lt;/strong> (ejecutan, modifican estado, tienen side effects); &lt;strong>Resources son sustantivos&lt;/strong> (existen, se leen, son idempotentes). Si tienes algo que es &amp;ldquo;buscar texto en archivos&amp;rdquo; → probablemente Tool (acción). Si es &amp;ldquo;este archivo concreto&amp;rdquo; → Resource. La distinción importa para auditoría y permisos: tools requieren más control.&lt;/p>
&lt;p>&lt;strong>Prompts&lt;/strong> son &lt;strong>plantillas de prompt parametrizadas&lt;/strong> que el servidor expone. El usuario o el host puede invocarlas para inyectar un patrón conversacional al modelo.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: un server &lt;code>code-review-mcp&lt;/code> expone un prompt &lt;code>review_diff(diff_text, style=&amp;quot;strict&amp;quot;)&lt;/code> que devuelve un prompt completo bien escrito para pedirle al LLM que revise código.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el servidor las expone, el usuario o el host las invoca, el LLM las recibe como input&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>Los prompts son la primitiva menos usada de las tres; muchos servers ni los implementan. Pero permiten que un equipo publique buenos prompts como librería reutilizable, separados del agente.&lt;/p>
&lt;h3 id="client-side-lo-que-el-host-le-da-al-servidor">Client-side: lo que el host le da al servidor&lt;/h3>
&lt;p>Aquí es donde MCP se diferencia de protocolos como HTTP REST: &lt;strong>el servidor también puede pedir cosas al host&lt;/strong>, no es solo una vía. Tres primitivas viajan en esa dirección.&lt;/p>
&lt;p>&lt;strong>Sampling&lt;/strong>: el servidor pide al host que ejecute una generación con su LLM. Es decir, &lt;strong>el servidor toma prestado el LLM del host&lt;/strong> para razonar.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: el server &lt;code>search-mcp&lt;/code> recibe una query del agente, busca en su corpus, encuentra 50 resultados y necesita resumirlos antes de devolver. En vez de tener su propio LLM, manda un &lt;code>sampling/createMessage&lt;/code> al cliente; el host pasa esto a su LLM, ejecuta la generación con permisos del usuario, devuelve el resumen al servidor.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el servidor lo pide, el host (con su LLM y la autorización del usuario) lo cumple&lt;/strong>.&lt;/li>
&lt;li>Por qué importa: el usuario controla qué modelo se usa, qué coste se paga, qué permisos aplican. El servidor no necesita su propia API key de OpenAI.&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Roots&lt;/strong>: el host le dice al servidor &lt;strong>dónde mirar&lt;/strong>. Roots son URIs (directorios, repositorios, namespaces) que el host autoriza al servidor a explorar.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: tu Claude Desktop arranca &lt;code>filesystem-mcp&lt;/code> con roots &lt;code>[file:///Users/yo/proyectos]&lt;/code>. El servidor sabe que solo debe operar dentro de esa carpeta, no en &lt;code>/etc/passwd&lt;/code>.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el host las declara en el handshake, el servidor las respeta&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Elicitation&lt;/strong>: el servidor pide al host &lt;strong>información adicional al usuario humano&lt;/strong> vía UI estructurada.&lt;/p>
&lt;ul>
&lt;li>Ejemplo: el server &lt;code>stripe-mcp&lt;/code> está a punto de procesar un refund de 5000€. Antes de ejecutar, manda &lt;code>elicitation/createMessage&lt;/code> al cliente; el host muestra al usuario &amp;ldquo;Confirma este refund de €5000&amp;rdquo; con un botón; cuando el usuario confirma, devuelve OK al server, que entonces procede.&lt;/li>
&lt;li>Lugar arquitectónico: &lt;strong>el servidor pide, el host muestra al usuario, el usuario decide, la respuesta vuelve al servidor&lt;/strong>.&lt;/li>
&lt;li>Es la primitiva clave para human-in-the-loop en acciones sensibles.&lt;/li>
&lt;/ul>
&lt;h3 id="visualización-del-flujo-de-las-seis-primitivas">Visualización del flujo de las seis primitivas&lt;/h3>
&lt;pre tabindex="0">&lt;code> HOST SERVIDOR
│ │
Server-side ─────┼─────────────────────────────────────┤
│ │
tools/list ──────┼────── pregunta qué tools hay ──────▶│
│◀────── devuelve lista ──────────────│
│ │
tools/call ──────┼────── ejecuta esta tool ───────────▶│
│◀────── resultado ──────────────────│
│ │
resources/read ──┼────── lee este URI ────────────────▶│
│◀────── contenido ─────────────────│
│ │
prompts/get ─────┼────── dame este prompt ────────────▶│
│◀────── prompt compilado ──────────│
│ │
Client-side ─────┼─────────────────────────────────────┤
│ │
sampling ────────│◀────── necesito una generación ─────│
│── usa mi LLM ───┐ │
│── devuelve ─────▼──────────────────▶│
│ │
roots ───────────┼─── declarados en handshake ────────▶│
│ │
elicitation ─────│◀────── pregunta al usuario X ───────│
│── muestra UI ──┐ │
│── confirma ────▼───────────────────▶│
&lt;/code>&lt;/pre>&lt;h2 id="el-json-rpc-en-acción-un-ejemplo-concreto">El JSON-RPC en acción: un ejemplo concreto&lt;/h2>
&lt;p>Para que la teoría se materialice, una conversación MCP real entre cliente y servidor &lt;code>filesystem-mcp&lt;/code>:&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-jsonc" data-lang="jsonc">// 1. Handshake inicial (cliente → servidor)
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 1, &amp;#34;method&amp;#34;: &amp;#34;initialize&amp;#34;,
&amp;#34;params&amp;#34;: {
&amp;#34;protocolVersion&amp;#34;: &amp;#34;2026-03-01&amp;#34;,
&amp;#34;capabilities&amp;#34;: {
&amp;#34;sampling&amp;#34;: {}, // este cliente soporta sampling
&amp;#34;roots&amp;#34;: { &amp;#34;listChanged&amp;#34;: true }
},
&amp;#34;clientInfo&amp;#34;: { &amp;#34;name&amp;#34;: &amp;#34;ClaudeDesktop&amp;#34;, &amp;#34;version&amp;#34;: &amp;#34;1.2.0&amp;#34; }
}
}
// 2. Server responde con sus capabilities
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 1, &amp;#34;result&amp;#34;: {
&amp;#34;protocolVersion&amp;#34;: &amp;#34;2026-03-01&amp;#34;,
&amp;#34;capabilities&amp;#34;: {
&amp;#34;tools&amp;#34;: { &amp;#34;listChanged&amp;#34;: true },
&amp;#34;resources&amp;#34;: { &amp;#34;subscribe&amp;#34;: true, &amp;#34;listChanged&amp;#34;: true },
&amp;#34;prompts&amp;#34;: {}
},
&amp;#34;serverInfo&amp;#34;: { &amp;#34;name&amp;#34;: &amp;#34;filesystem-mcp&amp;#34;, &amp;#34;version&amp;#34;: &amp;#34;0.5.2&amp;#34; }
}
}
// 3. Cliente pide listado de tools
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 2, &amp;#34;method&amp;#34;: &amp;#34;tools/list&amp;#34;
}
// 4. Server devuelve sus tools con schema
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 2, &amp;#34;result&amp;#34;: {
&amp;#34;tools&amp;#34;: [
{
&amp;#34;name&amp;#34;: &amp;#34;read_file&amp;#34;,
&amp;#34;description&amp;#34;: &amp;#34;Read a file from the filesystem&amp;#34;,
&amp;#34;inputSchema&amp;#34;: {
&amp;#34;type&amp;#34;: &amp;#34;object&amp;#34;,
&amp;#34;properties&amp;#34;: { &amp;#34;path&amp;#34;: { &amp;#34;type&amp;#34;: &amp;#34;string&amp;#34; } },
&amp;#34;required&amp;#34;: [&amp;#34;path&amp;#34;]
}
},
{ &amp;#34;name&amp;#34;: &amp;#34;write_file&amp;#34;, &amp;#34;description&amp;#34;: &amp;#34;...&amp;#34;, &amp;#34;inputSchema&amp;#34;: {} },
{ &amp;#34;name&amp;#34;: &amp;#34;list_directory&amp;#34;, &amp;#34;description&amp;#34;: &amp;#34;...&amp;#34;, &amp;#34;inputSchema&amp;#34;: {} }
]
}
}
// 5. El LLM decide llamar read_file; cliente envía tools/call
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 3, &amp;#34;method&amp;#34;: &amp;#34;tools/call&amp;#34;,
&amp;#34;params&amp;#34;: {
&amp;#34;name&amp;#34;: &amp;#34;read_file&amp;#34;,
&amp;#34;arguments&amp;#34;: { &amp;#34;path&amp;#34;: &amp;#34;/Users/yo/proyectos/notas.md&amp;#34; },
&amp;#34;_meta&amp;#34;: { // ← extensión donde irá trace context
&amp;#34;traceparent&amp;#34;: &amp;#34;00-abc123...-def456-01&amp;#34;
}
}
}
// 6. Server devuelve contenido del archivo
{
&amp;#34;jsonrpc&amp;#34;: &amp;#34;2.0&amp;#34;, &amp;#34;id&amp;#34;: 3, &amp;#34;result&amp;#34;: {
&amp;#34;content&amp;#34;: [
{ &amp;#34;type&amp;#34;: &amp;#34;text&amp;#34;, &amp;#34;text&amp;#34;: &amp;#34;# Mis notas\n\n...&amp;#34; }
]
}
}
&lt;/code>&lt;/pre>&lt;p>Lo importante a notar: &lt;strong>&lt;code>params._meta&lt;/code>&lt;/strong>. Ese es el bag donde MCP convencionalmente pasa metadata transversal, incluyendo trace context. Volveremos en breve.&lt;/p>
&lt;h2 id="el-problema-de-observabilidad-por-qué-tracing-tradicional-no-basta">El problema de observabilidad: por qué tracing tradicional no basta&lt;/h2>
&lt;p>Hasta aquí la teoría. Bajemos al problema operacional: en un cluster de producción 2026, un agente típico tiene &lt;strong>5-15 servidores MCP&lt;/strong> conectados simultáneamente, cada uno con &lt;strong>5-20 tools&lt;/strong>, y cada conversación con el agente puede generar &lt;strong>decenas de llamadas a tools&lt;/strong> encadenadas. Sin observabilidad, depurar incidencias es imposible.&lt;/p>
&lt;p>Por qué el tracing genérico (Hubble, OTel sin convenciones MCP) no es suficiente:&lt;/p>
&lt;p>&lt;strong>Stdio no se ve en la red&lt;/strong>. Los servidores locales hablan por pipes del SO. Tu Hubble o tu Datadog APM no ven nada; no hay paquetes que capturar. AgentSight (visto en el &lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">post anterior de la serie eBPF&lt;/a>) con &lt;code>stdiocap&lt;/code> lo captura pero da el JSON-RPC en crudo, sin contexto semántico (qué tool es, qué resource, qué prompt).&lt;/p>
&lt;p>&lt;strong>HTTP genérico tampoco entiende MCP&lt;/strong>. Si trazas el HTTP a un servidor MCP remoto sin convenciones MCP, ves un POST a &lt;code>/v1&lt;/code> con un body JSON-RPC opaco. Pierdes &amp;ldquo;qué tool se invocó&amp;rdquo;, &amp;ldquo;qué argumentos&amp;rdquo;, &amp;ldquo;fue elicitation o sampling&amp;rdquo;. Métricas RED por endpoint no te sirven; necesitas RED &lt;strong>por tool&lt;/strong>.&lt;/p>
&lt;p>&lt;strong>JSON-RPC no propaga trace context nativo&lt;/strong>. A diferencia de HTTP (W3C traceparent header) o gRPC (metadata), JSON-RPC no tiene un campo estándar para trace context. Si no propagas, cada llamada al servidor empieza un trace nuevo desconectado del trace del agente.&lt;/p>
&lt;p>&lt;strong>Multistep multi-server es muy difícil de seguir&lt;/strong>. Una sola conversación del usuario puede traducirse en: 1) call a github-mcp &lt;code>get_pr&lt;/code>; 2) call a filesystem-mcp &lt;code>read_file&lt;/code> para varios archivos; 3) llamada al LLM principal con todo el contexto; 4) call a postgres-mcp &lt;code>query&lt;/code>; 5) call a slack-mcp &lt;code>send_message&lt;/code>. Sin trace context propagado, son cinco traces inconexos. Con propagación, es un árbol.&lt;/p>
&lt;p>La solución: &lt;strong>OpenTelemetry semantic conventions for MCP&lt;/strong>, ya &lt;strong>estables&lt;/strong> en 2026.&lt;/p>
&lt;h2 id="opentelemetry-semantic-conventions-for-mcp">OpenTelemetry semantic conventions for MCP&lt;/h2>
&lt;p>Las &lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/mcp/">GenAI MCP semantic conventions&lt;/a> son el set de atributos estandarizados para spans y métricas relacionados con MCP. Se publicaron como parte del subgrupo GenAI de OpenTelemetry SIG y son la primera parte de las semantic conventions GenAI que llegó a estable.&lt;/p>
&lt;h3 id="por-qué-semantic-conventions-específicas">Por qué semantic conventions específicas&lt;/h3>
&lt;p>Antes de tenerlas, los equipos instrumentaban MCP con las &lt;strong>RPC semantic conventions&lt;/strong> genéricas (las que usarías para gRPC o XML-RPC). Funcionaba a medias. Las conventions MCP-específicas añaden:&lt;/p>
&lt;ul>
&lt;li>Atributos para identificar &lt;strong>qué primitiva&lt;/strong> se ejecutó (&lt;code>mcp.method.name = &amp;quot;tools/call&amp;quot;&lt;/code>).&lt;/li>
&lt;li>Atributos para identificar &lt;strong>qué tool/resource/prompt&lt;/strong> concreto se tocó (&lt;code>mcp.tool.name&lt;/code>, &lt;code>mcp.resource.uri&lt;/code>, &lt;code>mcp.prompt.name&lt;/code>).&lt;/li>
&lt;li>Atributos para el flujo bidireccional (sampling/elicitation requests del servidor al cliente).&lt;/li>
&lt;li>Atributos para el handshake (&lt;code>mcp.protocol.version&lt;/code>, &lt;code>mcp.client.name&lt;/code>, &lt;code>mcp.server.name&lt;/code>).&lt;/li>
&lt;li>Métricas RED estandarizadas por tool (&lt;code>mcp.tool.call.duration&lt;/code>, &lt;code>mcp.tool.call.errors&lt;/code>).&lt;/li>
&lt;/ul>
&lt;h3 id="los-atributos-canónicos">Los atributos canónicos&lt;/h3>
&lt;p>Los atributos que cualquier instrumentación MCP-aware debería emitir:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Atributo&lt;/th>
&lt;th>Significado&lt;/th>
&lt;th>Ejemplo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;code>mcp.method.name&lt;/code>&lt;/td>
&lt;td>Método JSON-RPC&lt;/td>
&lt;td>&lt;code>&amp;quot;tools/call&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.tool.name&lt;/code>&lt;/td>
&lt;td>Nombre de la tool&lt;/td>
&lt;td>&lt;code>&amp;quot;read_file&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.resource.uri&lt;/code>&lt;/td>
&lt;td>URI del resource&lt;/td>
&lt;td>&lt;code>&amp;quot;file:///docs/api.md&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.prompt.name&lt;/code>&lt;/td>
&lt;td>Nombre del prompt&lt;/td>
&lt;td>&lt;code>&amp;quot;code_review&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.session.id&lt;/code>&lt;/td>
&lt;td>ID de sesión MCP&lt;/td>
&lt;td>&lt;code>&amp;quot;sess-abc123&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.protocol.version&lt;/code>&lt;/td>
&lt;td>Versión del protocolo&lt;/td>
&lt;td>&lt;code>&amp;quot;2026-03-01&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.client.name&lt;/code>&lt;/td>
&lt;td>Identidad del cliente&lt;/td>
&lt;td>&lt;code>&amp;quot;ClaudeDesktop/1.2.0&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.server.name&lt;/code>&lt;/td>
&lt;td>Identidad del servidor&lt;/td>
&lt;td>&lt;code>&amp;quot;filesystem-mcp/0.5.2&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.transport&lt;/code>&lt;/td>
&lt;td>Transporte usado&lt;/td>
&lt;td>&lt;code>&amp;quot;stdio&amp;quot;&lt;/code> o &lt;code>&amp;quot;http&amp;quot;&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>mcp.error.code&lt;/code>&lt;/td>
&lt;td>JSON-RPC error code&lt;/td>
&lt;td>&lt;code>-32602&lt;/code> (Invalid params)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>gen_ai.usage.input_tokens&lt;/code>&lt;/td>
&lt;td>Tokens consumidos (si sampling)&lt;/td>
&lt;td>&lt;code>1240&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>gen_ai.usage.output_tokens&lt;/code>&lt;/td>
&lt;td>Tokens generados (si sampling)&lt;/td>
&lt;td>&lt;code>512&lt;/code>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Los dos últimos vienen de las semantic conventions GenAI genéricas y se aplican cuando la llamada MCP involucra sampling (servidor usando el LLM del cliente).&lt;/p>
&lt;h3 id="métricas-red-por-tool">Métricas RED por tool&lt;/h3>
&lt;p>Más allá de los spans, las semantic conventions definen tres métricas core:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>mcp.tool.call.duration&lt;/code>&lt;/strong> (histograma): latencia de cada invocación.&lt;/li>
&lt;li>&lt;strong>&lt;code>mcp.tool.call.count&lt;/code>&lt;/strong> (counter): número total de invocaciones.&lt;/li>
&lt;li>&lt;strong>&lt;code>mcp.tool.call.errors&lt;/code>&lt;/strong> (counter): errores por tool.&lt;/li>
&lt;/ul>
&lt;p>Etiquetadas con &lt;code>mcp.tool.name&lt;/code>, &lt;code>mcp.server.name&lt;/code>, &lt;code>mcp.client.name&lt;/code>. Pivotables en Grafana para responder &amp;ldquo;qué tool es la más lenta&amp;rdquo;, &amp;ldquo;qué tool falla más&amp;rdquo;, &amp;ldquo;qué cliente carga más a qué server&amp;rdquo;.&lt;/p>
&lt;h2 id="trace-context-propagation-el-truco-del-params_meta">Trace context propagation: el truco del &lt;code>params._meta&lt;/code>&lt;/h2>
&lt;p>JSON-RPC no tiene cabeceras como HTTP, así que MCP no puede usar &lt;code>traceparent&lt;/code> header de W3C directamente. La solución que el ecosistema ha consensuado: &lt;strong>propagar trace context en &lt;code>params._meta&lt;/code>&lt;/strong>.&lt;/p>
&lt;p>Cuando el cliente MCP envía un &lt;code>tools/call&lt;/code>, su instrumentación OTel hace:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">import&lt;/span> &lt;span class="nn">json&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">opentelemetry.propagate&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">inject&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">carrier&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="p">{}&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">inject&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">carrier&lt;/span>&lt;span class="p">)&lt;/span> &lt;span class="c1"># rellena con traceparent/tracestate del span activo&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">params&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="s2">&amp;#34;name&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;read_file&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="s2">&amp;#34;arguments&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>&lt;span class="s2">&amp;#34;path&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;/notas.md&amp;#34;&lt;/span>&lt;span class="p">},&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="s2">&amp;#34;_meta&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="n">carrier&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="c1"># ← propaga trace context&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cuando el servidor recibe, hace lo simétrico:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">opentelemetry.propagate&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">extract&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">ctx&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">extract&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">request&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">params&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">get&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;_meta&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="p">{}))&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">with&lt;/span> &lt;span class="n">tracer&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">start_as_current_span&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;tools/call&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">context&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">ctx&lt;/span>&lt;span class="p">):&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="c1"># esta span es hija de la del cliente&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">execute_tool&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">request&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">params&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Resultado: el span del servidor es &lt;strong>hijo&lt;/strong> del span del cliente en el árbol de traces. Cuando ves la trace en Tempo o Phoenix, ves toda la cadena: usuario → host → cliente → server → ejecución → respuesta → cliente → host → respuesta al usuario.&lt;/p>
&lt;p>Esto requiere que &lt;strong>ambos extremos&lt;/strong> instrumenten consistentemente. Si el server no extrae el contexto, ves spans desconectados pero al menos tienes traceability del lado cliente.&lt;/p>
&lt;h2 id="patrones-de-instrumentación">Patrones de instrumentación&lt;/h2>
&lt;p>Hay tres caminos para instrumentar MCP, en orden creciente de esfuerzo:&lt;/p>
&lt;h3 id="1-fastmcp-con-opentelemetry-built-in">1. FastMCP con OpenTelemetry built-in&lt;/h3>
&lt;p>&lt;a href="https://gofastmcp.com/">FastMCP&lt;/a> es uno de los frameworks Python más usados para construir servidores MCP. Trae &lt;strong>instrumentación OpenTelemetry built-in&lt;/strong>: cada tool, resource template, prompt operation genera spans automáticamente con las conventions MCP correctas.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">fastmcp&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">FastMCP&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">opentelemetry.sdk.trace.export&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">OTLPSpanExporter&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">mcp&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">FastMCP&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;my-server&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">otel_endpoint&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s2">&amp;#34;https://otel-collector:4318&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="nd">@mcp.tool&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">def&lt;/span> &lt;span class="nf">search_docs&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">query&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="nb">str&lt;/span>&lt;span class="p">)&lt;/span> &lt;span class="o">-&amp;gt;&lt;/span> &lt;span class="nb">str&lt;/span>&lt;span class="p">:&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="s2">&amp;#34;&amp;#34;&amp;#34;Search the corpus for matching documents.&amp;#34;&amp;#34;&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="c1"># esto genera automáticamente un span con&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="c1"># mcp.tool.name=search_docs, mcp.method.name=tools/call, etc.&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">run_search&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">query&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cero código de instrumentación. Spans con conventions correctas. Es el patrón recomendado si arrancas un servidor MCP en Python desde cero.&lt;/p>
&lt;h3 id="2-opentelemetry-sdk-manual">2. OpenTelemetry SDK manual&lt;/h3>
&lt;p>Para servidores ya existentes o en otros lenguajes (TypeScript, Go), la opción es instrumentar manualmente con el SDK estándar OTel + emitir los atributos MCP convencionales:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">opentelemetry&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">trace&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">tracer&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">trace&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">get_tracer&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="vm">__name__&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">async&lt;/span> &lt;span class="k">def&lt;/span> &lt;span class="nf">handle_tools_call&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">req&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="n">JSONRPCRequest&lt;/span>&lt;span class="p">):&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">ctx&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">extract_trace_context&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">req&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">with&lt;/span> &lt;span class="n">tracer&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">start_as_current_span&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;mcp.tools.call&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">context&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">ctx&lt;/span>&lt;span class="p">)&lt;/span> &lt;span class="k">as&lt;/span> &lt;span class="n">span&lt;/span>&lt;span class="p">:&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">span&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">set_attribute&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;mcp.method.name&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="s2">&amp;#34;tools/call&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">span&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">set_attribute&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;mcp.tool.name&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">req&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">params&lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;name&amp;#34;&lt;/span>&lt;span class="p">])&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">span&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">set_attribute&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;mcp.server.name&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="s2">&amp;#34;filesystem-mcp&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">try&lt;/span>&lt;span class="p">:&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">result&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="k">await&lt;/span> &lt;span class="n">execute_tool&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">req&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">params&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">result&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">except&lt;/span> &lt;span class="ne">Exception&lt;/span> &lt;span class="k">as&lt;/span> &lt;span class="n">e&lt;/span>&lt;span class="p">:&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">span&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">set_attribute&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;mcp.error.code&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="o">-&lt;/span>&lt;span class="mi">32603&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">span&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">record_exception&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">e&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">raise&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Más boilerplate pero funciona con cualquier servidor existente.&lt;/p>
&lt;h3 id="3-mcp-inspector-para-debugging-interactivo">3. MCP Inspector para debugging interactivo&lt;/h3>
&lt;p>&lt;a href="https://github.com/modelcontextprotocol/inspector">MCP Inspector&lt;/a> (oficial) es una herramienta de &lt;strong>debugging interactivo a nivel protocolo&lt;/strong>. Lanza un proxy local (puerto 6277) entre tu cliente y el servidor, y abre una UI web (puerto 6274) donde ves cada mensaje JSON-RPC ida y vuelta en tiempo real.&lt;/p>
&lt;p>No es observabilidad de producción —es desarrollo y depuración—. Pero es &lt;strong>insustituible&lt;/strong> durante el bring-up de un servidor nuevo: ves exactamente qué requests llegan, qué responses se devuelven, qué errores se producen. Ahorra horas de logging ad-hoc.&lt;/p>
&lt;h2 id="mcp-gateways-la-pieza-centralizada-para-enterprise">MCP Gateways: la pieza centralizada para enterprise&lt;/h2>
&lt;p>Cuando tu organización tiene &lt;strong>muchos agentes&lt;/strong> conectándose a &lt;strong>muchos servidores MCP&lt;/strong>, gestionar la matriz de conexiones se vuelve operacionalmente serio. La pregunta natural —&amp;quot;¿puede haber un proxy delante de todos los MCP servers que centralice auth, rate limiting, logging y observabilidad?&amp;quot;— ya tiene respuesta: &lt;strong>MCP Gateways&lt;/strong>.&lt;/p>
&lt;p>Un Gateway MCP es un proxy que:&lt;/p>
&lt;ul>
&lt;li>Acepta conexiones MCP de los hosts/agentes.&lt;/li>
&lt;li>Las enruta a los servers MCP backend correspondientes.&lt;/li>
&lt;li>Aplica &lt;strong>autenticación y autorización&lt;/strong> centralizada (qué agente puede llamar qué tool).&lt;/li>
&lt;li>Aplica &lt;strong>rate limiting&lt;/strong> por agente, por tool, por tenant.&lt;/li>
&lt;li>&lt;strong>Observa&lt;/strong>: emite métricas OTel de cada operación pasante.&lt;/li>
&lt;li>&lt;strong>Propaga identidad&lt;/strong> del agente al servidor backend (con varios modelos: token forwarding, token exchange, impersonación).&lt;/li>
&lt;/ul>
&lt;p>Las opciones que se han establecido en 2026:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;a href="https://doc.traefik.io/traefik-hub/mcp-gateway/">Traefik Hub MCP Gateway&lt;/a>&lt;/strong> — del equipo de Traefik. Configuración declarativa, integración nativa con el ecosistema Kubernetes/Helm de Traefik.&lt;/li>
&lt;li>&lt;strong>&lt;a href="https://www.mintmcp.com/">MintMCP&lt;/a>&lt;/strong> — gateway con foco en observabilidad y multi-tenancy. SaaS y self-host.&lt;/li>
&lt;li>&lt;strong>&lt;a href="https://openobserve.ai/blog/mcp-gateway-guide/">OpenObserve MCP Gateway&lt;/a>&lt;/strong> — integrado con la plataforma de observabilidad OpenObserve.&lt;/li>
&lt;/ul>
&lt;p>Para deployments pequeños (un equipo, pocos agentes) un Gateway puede ser overkill. Para enterprise (decenas de agentes, decenas de servers, compliance regulado), es prácticamente obligatorio.&lt;/p>
&lt;h2 id="casos-de-uso-reales-de-la-observabilidad-mcp">Casos de uso reales de la observabilidad MCP&lt;/h2>
&lt;p>Vamos a aterrizar con cinco casos donde la observabilidad MCP propiamente instrumentada da valor inmediato:&lt;/p>
&lt;h3 id="1-audit-por-tool-por-tenant-por-agente">1. Audit por tool, por tenant, por agente&lt;/h3>
&lt;p>Pregunta: &amp;ldquo;¿quién ejecutó la tool &lt;code>delete_repo&lt;/code> el mes pasado?&amp;rdquo;. Sin observabilidad MCP, imposible. Con conventions OTel + propagación de identidad: query en tu backend de traces filtrando por &lt;code>mcp.tool.name=&amp;quot;delete_repo&amp;quot;&lt;/code>, agrupando por &lt;code>mcp.client.name&lt;/code> o por user_id propagado en &lt;code>_meta&lt;/code>. Compliance feliz.&lt;/p>
&lt;h3 id="2-coste-por-tool-y-por-tenant">2. Coste por tool y por tenant&lt;/h3>
&lt;p>Pregunta: &amp;ldquo;¿cuánto cuesta cada tool?&amp;rdquo;. Si las tools invocan APIs externas (Stripe, OpenAI sampling) o consumen recursos significativos (GPU para una tool de inferencia), saber su coste agregado importa. Con &lt;code>mcp.tool.call.duration&lt;/code> + &lt;code>gen_ai.usage.*&lt;/code> agregadas por tool y tenant, se construyen dashboards de cost accountability sin instrumentar nada extra.&lt;/p>
&lt;h3 id="3-debug-de-cadenas-multistep-que-fallan">3. Debug de cadenas multistep que fallan&lt;/h3>
&lt;p>Pregunta: &amp;ldquo;el agente falló al completar esta tarea, ¿dónde fue?&amp;rdquo;. El trace propagado conecta: span del usuario → span del LLM con su CoT → spans de cada tool invocada → span del LLM final. Si la cadena se rompió en la tercera tool, en Tempo se ve el span rojo con el mensaje de error específico. Reproducir el fallo es trivial.&lt;/p>
&lt;h3 id="4-latencia-y-degradación-de-tools">4. Latencia y degradación de tools&lt;/h3>
&lt;p>Pregunta: &amp;ldquo;¿qué tool está degradando?&amp;rdquo;. Métricas RED por tool en Grafana muestran latencia p95/p99 a lo largo del tiempo. Cuando una tool empieza a subir de 200ms a 800ms (porque el servicio underlying se está colapsando), lo ves antes de que los usuarios se quejen.&lt;/p>
&lt;h3 id="5-detección-de-loops-y-anomalías-agentic">5. Detección de loops y anomalías agentic&lt;/h3>
&lt;p>Pregunta: &amp;ldquo;¿algún agente está atascado en bucle?&amp;rdquo;. Si un agente llama &lt;code>tools/call read_file&lt;/code> 80 veces en 30 segundos para el mismo path, claramente algo está mal. Alerta sobre &lt;code>mcp.tool.call.count&lt;/code> agrupado por (session_id, tool_name) detecta esto. Combinado con detección de loops a nivel de razonamiento, cierra el círculo.&lt;/p>
&lt;h2 id="trampas-operativas">Trampas operativas&lt;/h2>
&lt;h3 id="falta-de-identity-propagation">Falta de identity propagation&lt;/h3>
&lt;p>Tu Gateway autentica al agente, pero pasa requests al backend sin propagar identidad. Resultado: los logs del backend dicen &amp;ldquo;service-account&amp;rdquo; en todo, imposible auditar quién invocó qué. &lt;strong>Elige una estrategia de propagación temprano&lt;/strong>: token forwarding (sencillo, expone tokens al backend), token exchange (más seguro), o impersonación con logging cruzado.&lt;/p>
&lt;h3 id="servidores-stdio-que-no-aparecen-en-tu-apm">Servidores stdio que no aparecen en tu APM&lt;/h3>
&lt;p>Es la trampa nº1 del campo. Tu agente Cursor usa filesystem-mcp como stdio; no ves nada en Datadog porque no hay tráfico de red. Solución: instrumentar el servidor stdio con OTel SDK que exporta por OTLP a tu collector (vía gRPC o HTTP, OTel collector puede recibir aunque el server hable stdio con su cliente). O usar AgentSight &lt;code>stdiocap&lt;/code> para capturar el JSON-RPC en crudo y procesarlo offline.&lt;/p>
&lt;h3 id="múltiples-versiones-de-protocolo-en-producción">Múltiples versiones de protocolo en producción&lt;/h3>
&lt;p>Diferentes clientes usan distintas versiones de MCP simultáneamente. Tu metrics dashboard mezcla peras y manzanas. Etiqueta SIEMPRE con &lt;code>mcp.protocol.version&lt;/code> y filtra/agrupa por ella.&lt;/p>
&lt;h3 id="_meta-perdido-al-pasar-por-proxy">&lt;code>_meta&lt;/code> perdido al pasar por proxy&lt;/h3>
&lt;p>Tu Gateway acepta el request del cliente, lo reescribe para el backend, y se olvida de copiar &lt;code>params._meta&lt;/code>. Resultado: trace roto en el Gateway, dos traces inconexos. Asegúrate de que tu Gateway &lt;strong>preserva o re-inyecta&lt;/strong> trace context en cada hop.&lt;/p>
&lt;h3 id="volumen-de-trazas-con-servers-chatty">Volumen de trazas con servers chatty&lt;/h3>
&lt;p>Algunos servers MCP emiten muchas pequeñas operaciones (filesystem listings, partial reads). Sin sampling, llenan tu backend de trazas inútiles. Aplica &lt;strong>tail-based sampling&lt;/strong> que conserve sesiones completas o solo conserve traces con errores/latencia alta.&lt;/p>
&lt;h3 id="cardinalidad-en-métricas">Cardinalidad en métricas&lt;/h3>
&lt;p>&lt;code>mcp.tool.call.duration&lt;/code> con &lt;code>mcp.session.id&lt;/code> como label explota la cardinalidad. &lt;strong>No incluyas IDs únicos por sesión en labels&lt;/strong>; mantén la cardinalidad bajo control con labels que toman pocos valores discretos (tool name, server name, client name, error code).&lt;/p>
&lt;h3 id="confundir-spans-del-cliente-y-del-servidor">Confundir spans del cliente y del servidor&lt;/h3>
&lt;p>Cuando ves el árbol, distingue: el cliente ve &lt;strong>latencia total desde su perspectiva&lt;/strong> (incluye network); el servidor ve &lt;strong>solo su trabajo&lt;/strong>. Si miras solo el span del servidor para depurar latencia percibida por el usuario, te pierdes el RTT. Usa ambos.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto">Lo que no hemos cubierto&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>MCP transport WebSocket experimental&lt;/strong>: alternativa a Streamable HTTP, aún no estándar.&lt;/li>
&lt;li>&lt;strong>Servidores MCP en cloud-native deployments con sidecars&lt;/strong>: patrón emergente de desplegar MCP servers como sidecars de pods.&lt;/li>
&lt;li>&lt;strong>MCP federation&lt;/strong>: composición de varios servers como uno solo (similar a GraphQL federation).&lt;/li>
&lt;li>&lt;strong>eBPF + MCP&lt;/strong>: cómo &lt;code>stdiocap&lt;/code> de AgentSight y los hooks de Cilium se complementan con la instrumentación nativa.&lt;/li>
&lt;li>&lt;strong>MCP testing y contract tests&lt;/strong>: cómo validar que tu servidor cumple la spec.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>Especificación y conceptos:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://modelcontextprotocol.io/">Model Context Protocol — sitio oficial&lt;/a> — entrada canónica.&lt;/li>
&lt;li>&lt;a href="https://modelcontextprotocol.io/docs/learn/architecture">MCP architecture overview&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://modelcontextprotocol.info/docs/concepts/transports/">Transports — MCP docs&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://github.com/modelcontextprotocol/inspector">MCP Inspector (GitHub)&lt;/a> — debugging interactivo.&lt;/li>
&lt;/ul>
&lt;p>OpenTelemetry GenAI MCP:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/mcp/">Semantic conventions for Model Context Protocol — OpenTelemetry&lt;/a> — referencia normativa.&lt;/li>
&lt;li>&lt;a href="https://github.com/modelcontextprotocol/modelcontextprotocol/discussions/269">Adding OpenTelemetry Trace Support to MCP (Discussion #269)&lt;/a> — historia de la propuesta.&lt;/li>
&lt;li>&lt;a href="https://oneuptime.com/blog/post/2026-03-26-how-to-instrument-mcp-servers-with-opentelemetry/view">How to Instrument MCP Servers with OpenTelemetry (OneUptime)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.elastic.co/observability-labs/blog/mcp-tracing-opentelemetry-elastic-apm">How to trace MCP server tool calls with OpenTelemetry and Elastic APM&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://signoz.io/blog/mcp-observability-with-otel/">MCP Observability with OpenTelemetry (SigNoz)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://developers.redhat.com/articles/2026/04/06/distributed-tracing-agentic-workflows-opentelemetry">Distributed tracing for agentic workflows (Red Hat Developer)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.mintmcp.com/blog/opentelemetry-ai-agents">OpenTelemetry for AI Agents in MCP Workflows (MintMCP)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Frameworks y gateways:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://gofastmcp.com/servers/telemetry">FastMCP OpenTelemetry&lt;/a> — instrumentación built-in.&lt;/li>
&lt;li>&lt;a href="https://doc.traefik.io/traefik-hub/mcp-gateway/">Traefik Hub MCP Gateway&lt;/a> — gateway de Traefik.&lt;/li>
&lt;li>&lt;a href="https://www.mintmcp.com/">MintMCP&lt;/a> — gateway con foco en observabilidad.&lt;/li>
&lt;li>&lt;a href="https://openobserve.ai/blog/mcp-gateway-guide/">OpenObserve MCP Gateway guide&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://dev.to/composiodev/what-is-an-mcp-gateway-and-why-do-enterprise-ai-teams-need-one-in-2026-1lie">What is an MCP Gateway (DEV Community)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://github.com/traceloop/opentelemetry-mcp-server">OpenTelemetry MCP Server (Traceloop)&lt;/a> — el patrón inverso: usar MCP para que agentes consulten traces OTel.&lt;/li>
&lt;/ul>
&lt;p>Cross-references:&lt;/p>
&lt;ul>
&lt;li>Post anterior: &lt;a href="https://blog.lo0.es/posts/guardrails-safety-llm/">Guardrails y safety&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/agentsight-tracing-llm/">AgentSight y el nuevo tracing de LLMs&lt;/a> — donde se introdujo &lt;code>stdiocap&lt;/code> para capturar stdio de servidores MCP locales.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/evals-llm-la-capa-despues-de-tracing/">Evals: la capa después del tracing&lt;/a>.&lt;/li>
&lt;/ul></description></item><item><title>AgentSight y el nuevo tracing de LLMs: zero-instrumentation con eBPF frente a Langfuse, LangSmith, Phoenix y compañía</title><link>https://blog.lo0.es/posts/agentsight-tracing-llm/</link><pubDate>Tue, 19 May 2026 18:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/agentsight-tracing-llm/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>Observar un agente de LLM en producción en 2026 se divide en dos enfoques con filosofías opuestas. El &lt;strong>instrumentado&lt;/strong>, dominante hasta 2025, vive en herramientas como &lt;a href="https://langfuse.com/">Langfuse&lt;/a>, &lt;a href="https://www.langchain.com/langsmith">LangSmith&lt;/a>, &lt;a href="https://phoenix.arize.com/">Arize Phoenix&lt;/a>, &lt;a href="https://www.helicone.ai/">Helicone&lt;/a>, &lt;a href="https://www.traceloop.com/openllmetry">OpenLLMetry/Traceloop&lt;/a> o &lt;a href="https://pydantic.dev/logfire">Pydantic Logfire&lt;/a>: instalas un SDK, decoras tus llamadas, emites spans con la convención &lt;strong>OpenTelemetry GenAI&lt;/strong> (&lt;code>gen_ai.request.model&lt;/code>, &lt;code>gen_ai.usage.input_tokens&lt;/code>, etc.) y los exportas a un backend. Profundidad altísima cuando controlas el código; cero visibilidad cuando el agente es un binario opaco que ejecutas sin instrumentar. El &lt;strong>zero-instrumentation&lt;/strong>, que &lt;a href="https://github.com/eunomia-bpf/agentsight">AgentSight&lt;/a> ha popularizado en la segunda mitad de 2025, gira la perspectiva 180º: pone hooks &lt;strong>eBPF en las uprobes de las bibliotecas SSL/TLS&lt;/strong> y captura el plaintext de cada petición HTTPS antes del cifrado, &lt;strong>sin tocar el código de la app&lt;/strong>, con menos del &lt;strong>3% de overhead&lt;/strong> y la garantía de ser &lt;strong>tamper-proof&lt;/strong> (el agente no puede falsificar lo que se ve en el kernel). Combinado con captura BPF de stdio para servidores MCP locales, AgentSight te da observabilidad completa de cualquier agente —incluyendo binarios cerrados como Claude Code, Gemini CLI o Cursor— en un cluster Kubernetes. Las dos familias no son enemigas: la pila de referencia 2026 combina ambas (instrumented para apps propias con LangChain, eBPF para binarios opacos y compliance de tamper-proof) sobre &lt;strong>OpenTelemetry GenAI semantic conventions&lt;/strong> como vocabulario común que el ecosistema está estabilizando este año.&lt;/p>
&lt;blockquote>
&lt;p>Este es el &lt;strong>cuarto y último post de la serie sobre eBPF&lt;/strong>. Parte 1: &lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a>. Parte 2: &lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon: seguridad de runtime&lt;/a>. Parte 3: &lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble: observabilidad de red&lt;/a>. Aquí cerramos el círculo con la dimensión &lt;strong>semántica&lt;/strong> —qué hace un agente IA, no solo qué red abre o qué syscalls emite—.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-apm-tradicional-vs-sniffer-de-red">La analogía: APM tradicional vs sniffer de red&lt;/h2>
&lt;p>Quien haya operado aplicaciones empresariales conoce las dos tribus del monitoring. La tribu &lt;strong>APM&lt;/strong> (New Relic, AppDynamics, Datadog APM): instalas un agente o un SDK en cada aplicación, marcas spans, recoges traces con profundidad enorme dentro de cada proceso —líneas de código, queries SQL, métodos de Java—. La tribu &lt;strong>wire-level&lt;/strong> (sniffers de red, herramientas tipo SolarWinds NPM, NetFlow): no toca la aplicación; observa el cable, ve protocolos, latencias, retransmisiones, identifica problemas que la app no sabe que tiene.&lt;/p>
&lt;p>Cada una ve cosas distintas y las dos sirven. Quien ha vivido un incidente serio donde APM decía &amp;ldquo;todo verde&amp;rdquo; mientras los usuarios sufrían sabe que el wire-level habría detectado el problema (un middlebox saturado, un MTU mal configurado, un timeout de TCP). Quien ha intentado debuggear un memory leak con sniffers sabe que sin APM era imposible.&lt;/p>
&lt;p>La observabilidad de agentes LLM en 2026 está exactamente en este punto. El &lt;strong>APM-style&lt;/strong> lleva un par de años montado: Langfuse, LangSmith, Phoenix, OpenLLMetry. Profundidad enorme, requiere instrumentar la app. El &lt;strong>wire-level con eBPF&lt;/strong> acaba de llegar: AgentSight es el primer proyecto que lo lleva a productivo. Profundidad menor en el interior del agente, pero ve cualquier agente sin tocar nada y es &lt;strong>tamper-proof&lt;/strong>. Los dos sirven. La industria está en plena coexistencia.&lt;/p>
&lt;h2 id="por-qué-observar-agentes-llm-es-distinto">Por qué observar agentes LLM es distinto&lt;/h2>
&lt;p>Antes de entrar en herramientas, vale la pena detenerse en qué hace específicos a los agentes LLM como sujetos de observabilidad:&lt;/p>
&lt;p>&lt;strong>No-determinismo.&lt;/strong> El mismo input puede producir outputs distintos. Reproducir un incidente requiere capturar &lt;strong>exactamente&lt;/strong> la conversación, el modelo, los parámetros y, idealmente, la seed. Una métrica agregada &amp;ldquo;latencia p95&amp;rdquo; se queda corta; lo que necesitas es replay de la traza individual.&lt;/p>
&lt;p>&lt;strong>Cadena de invocaciones externas.&lt;/strong> Un agente típico llama LLM → herramientas (tool calling) → MCP servers → otras APIs → vuelta a LLM. Una sesión de chat puede generar &lt;strong>decenas de llamadas encadenadas&lt;/strong> que hay que correlar por trace_id para entender la decisión.&lt;/p>
&lt;p>&lt;strong>Coste lineal en tokens.&lt;/strong> Cada llamada se paga en tokens. Sin trazar input/output tokens por petición, no puedes asignar coste a tenant ni equipo, ni detectar bucles que se comen tu presupuesto en una hora.&lt;/p>
&lt;p>&lt;strong>Riesgo semántico.&lt;/strong> Prompt injection (un user input que contiene instrucciones para manipular al modelo), jailbreaks, leakage de secretos via tool calls. Es un tipo de problema que no aparece en aplicaciones tradicionales y la observabilidad debe verlo.&lt;/p>
&lt;p>&lt;strong>Binarios opacos.&lt;/strong> En 2026, muchos equipos despliegan &lt;strong>agentes de terceros&lt;/strong> —Claude Code, Cursor agent, Aider, Gemini CLI, Codex CLI— como herramientas internas. No son aplicaciones propias; son binarios cerrados que llaman a la API del vendor. Instrumentarlos es imposible. Observarlos requiere otra cosa.&lt;/p>
&lt;p>&lt;strong>Multi-agent y orquestación.&lt;/strong> Cada vez más arquitecturas tienen agentes que invocan a otros agentes (planner → executor → critic). La observabilidad debe entender la topología, no solo el span individual.&lt;/p>
&lt;p>Con estos cinco puntos en mente, las herramientas que vamos a ver se diferencian principalmente en &lt;strong>qué partes&lt;/strong> del problema cubren bien y &lt;strong>qué partes&lt;/strong> dejan ciegas.&lt;/p>
&lt;h2 id="el-enfoque-instrumentado-cómo-funciona">El enfoque instrumentado: cómo funciona&lt;/h2>
&lt;p>El modelo es directo y conocido:&lt;/p>
&lt;ol>
&lt;li>Tu código llama al LLM o a herramientas usando una librería oficial: &lt;code>openai&lt;/code>, &lt;code>anthropic&lt;/code>, &lt;code>langchain&lt;/code>, &lt;code>llama_index&lt;/code>, &lt;code>dspy&lt;/code>.&lt;/li>
&lt;li>Instalas un SDK del tracer (Langfuse, LangSmith, OpenLLMetry, Logfire) que &lt;strong>wrappea&lt;/strong> o &lt;strong>monkey-patcha&lt;/strong> esas librerías.&lt;/li>
&lt;li>Cada llamada emite un &lt;strong>span OpenTelemetry&lt;/strong> con atributos estandarizados: modelo usado, tokens input/output, latencia, parámetros, mensajes, herramienta invocada, resultado.&lt;/li>
&lt;li>Los spans se exportan vía OTLP a un backend que los muestra como un árbol de traces.&lt;/li>
&lt;/ol>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># Ejemplo típico con OpenLLMetry + cualquier SDK&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">traceloop.sdk&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">Traceloop&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">openai&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">OpenAI&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">Traceloop&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">init&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">app_name&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s2">&amp;#34;my-agent&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">api_endpoint&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s2">&amp;#34;https://otel-collector:4318&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">client&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">OpenAI&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># este call emite automáticamente un span con&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># gen_ai.request.model, gen_ai.usage.input_tokens, etc.&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">resp&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">client&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">chat&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">completions&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">create&lt;/span>&lt;span class="p">(&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">model&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s2">&amp;#34;gpt-4.1&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">messages&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="p">[{&lt;/span>&lt;span class="s2">&amp;#34;role&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;user&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="s2">&amp;#34;content&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;...&amp;#34;&lt;/span>&lt;span class="p">}]&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Lo que ves después: un dashboard con cada conversación como un trace, cada llamada como un span, los prompts y completions completos (si optas in), el coste calculado, latencias por span, errores marcados.&lt;/p>
&lt;h3 id="opentelemetry-genai-semantic-conventions-el-vocabulario-común">OpenTelemetry GenAI semantic conventions: el vocabulario común&lt;/h3>
&lt;p>La fragmentación del campo se está mitigando con &lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/">&lt;strong>OpenTelemetry GenAI Semantic Conventions&lt;/strong>&lt;/a>. Es el esfuerzo de la CNCF para que &lt;strong>todas&lt;/strong> las herramientas emitan spans con los mismos nombres de atributos:&lt;/p>
&lt;ul>
&lt;li>&lt;code>gen_ai.system&lt;/code> — el proveedor (openai, anthropic, vertex_ai, etc.).&lt;/li>
&lt;li>&lt;code>gen_ai.request.model&lt;/code> — modelo solicitado (&lt;code>gpt-4.1&lt;/code>, &lt;code>claude-3-5-sonnet&lt;/code>).&lt;/li>
&lt;li>&lt;code>gen_ai.response.model&lt;/code> — modelo realmente usado (a veces difiere, eg fallbacks).&lt;/li>
&lt;li>&lt;code>gen_ai.usage.input_tokens&lt;/code> y &lt;code>gen_ai.usage.output_tokens&lt;/code> — contadores.&lt;/li>
&lt;li>&lt;code>gen_ai.request.temperature&lt;/code>, &lt;code>gen_ai.request.top_p&lt;/code>, etc. — parámetros.&lt;/li>
&lt;li>&lt;code>gen_ai.response.finish_reasons&lt;/code> — por qué terminó (stop, length, content_filter).&lt;/li>
&lt;li>&lt;code>gen_ai.operation.name&lt;/code> — el tipo de operación (chat, embedding, completion).&lt;/li>
&lt;/ul>
&lt;p>A principios de 2026, los &lt;strong>client spans&lt;/strong> salieron de experimental a estable. El resto (server spans, multi-agent events) sigue en desarrollo. El significado operacional: si tu SDK emite estos atributos, &lt;strong>cualquier backend que entienda OTel GenAI&lt;/strong> puede consumirlos. Cambiar de Langfuse a Phoenix a Helicone no implica re-instrumentar, solo cambiar el exporter.&lt;/p>
&lt;p>La SIG está activamente desarrollando &lt;strong>conventions for multi-agent systems&lt;/strong>: agent teams, tasks, actions, memory, artifact tracking. Esto es lo que falta para que las arquitecturas de agentes complejas tengan vocabulario común. En 2026 está experimental; se espera estabilización a finales de año o principios de 2027.&lt;/p>
&lt;h3 id="herramientas-instrumentadas-el-panorama-2026">Herramientas instrumentadas: el panorama 2026&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Herramienta&lt;/th>
&lt;th>Licencia&lt;/th>
&lt;th>Self-host&lt;/th>
&lt;th>Foco&lt;/th>
&lt;th>Donde brilla&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Langfuse&lt;/strong>&lt;/td>
&lt;td>MIT&lt;/td>
&lt;td>&lt;strong>Sí&lt;/strong>&lt;/td>
&lt;td>LLM observability + evals + prompt mgmt&lt;/td>
&lt;td>Mejor balance OSS, suite completa&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>LangSmith&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>No&lt;/td>
&lt;td>LangChain/LangGraph nativo&lt;/td>
&lt;td>Si usas LangChain, integración cero-config&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Arize Phoenix&lt;/strong>&lt;/td>
&lt;td>ELv2 (OSS)&lt;/td>
&lt;td>Sí&lt;/td>
&lt;td>OTel-native, RAG fuerte&lt;/td>
&lt;td>Vector DBs, retrieval, embeddings&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Helicone&lt;/strong>&lt;/td>
&lt;td>Comercial + OSS lite&lt;/td>
&lt;td>Sí (lite)&lt;/td>
&lt;td>Proxy simple&lt;/td>
&lt;td>Setup minutos, OpenAI-only&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>OpenLLMetry / Traceloop&lt;/strong>&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Sí&lt;/td>
&lt;td>SDK OTel para LLMs&lt;/td>
&lt;td>Vendor-neutral, exporta a cualquier OTel backend&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Pydantic Logfire&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>No&lt;/td>
&lt;td>App + LLM unificado&lt;/td>
&lt;td>Si usas Pydantic AI, integración nativa&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Weights &amp;amp; Biases Weave&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>Limitado&lt;/td>
&lt;td>Experimentación + producción&lt;/td>
&lt;td>Si ya usas W&amp;amp;B para training&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Laminar / Braintrust&lt;/strong>&lt;/td>
&lt;td>Comercial&lt;/td>
&lt;td>No / Sí&lt;/td>
&lt;td>Evals + tracing&lt;/td>
&lt;td>Más recientes, foco en evaluación&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="deep-dive-langfuse">Deep dive: Langfuse&lt;/h3>
&lt;p>Merece detenerse en &lt;a href="https://langfuse.com/">Langfuse&lt;/a> porque es, en 2026, &lt;strong>la elección por defecto entre las opciones open-source&lt;/strong> y la que más equipos han adoptado este año. Es proyecto de &lt;a href="https://github.com/langfuse/langfuse">YC W23&lt;/a>, licencia &lt;strong>MIT&lt;/strong>, y lleva un ritmo de release sostenido con cambios arquitectónicos serios entre versiones.&lt;/p>
&lt;p>&lt;strong>Cuatro pilares declarados&lt;/strong>: observability (tracing), evaluations, prompt management, playground/datasets. Cada uno por separado tiene productos comerciales completos detrás; Langfuse los integra en una sola plataforma con un solo backend.&lt;/p>
&lt;h4 id="el-sdk-v4-otel-native-no-un-sustituto">El SDK v4: OTEL-native, no un sustituto&lt;/h4>
&lt;p>El gran cambio operacional reciente es el &lt;strong>SDK v4&lt;/strong>, una capa fina sobre el cliente oficial de OpenTelemetry. La elección es deliberada: en lugar de mantener un cliente propio que se atrase respecto a las primitives OTel, Langfuse usa el SDK estándar y &lt;strong>enriquece&lt;/strong> los spans con atributos y helpers específicos para LLM. La consecuencia: cualquier código que ya esté instrumentado con OpenTelemetry vainilla (&lt;code>@opentelemetry/sdk-node&lt;/code>, &lt;code>opentelemetry-sdk&lt;/code> en Python) &lt;strong>puede exportar a Langfuse sin cambios mayores&lt;/strong>, y al revés, si mañana quieres migrar de Langfuse a otro backend OTel, los spans son portables.&lt;/p>
&lt;p>En Python el decorador idiomático es &lt;code>@observe&lt;/code>:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">langfuse&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">observe&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">get_client&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">langfuse&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">get_client&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="nd">@observe&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">def&lt;/span> &lt;span class="nf">buscar_documentos&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">query&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="nb">str&lt;/span>&lt;span class="p">):&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="c1"># cualquier llamada interna también se traza&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">vector_store&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">similarity_search&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">query&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="nd">@observe&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">as_type&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s2">&amp;#34;generation&amp;#34;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">def&lt;/span> &lt;span class="nf">llamar_llm&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">prompt&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="nb">str&lt;/span>&lt;span class="p">):&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="c1"># marcada como &amp;#34;generation&amp;#34; para que aparezca con metadata LLM&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">openai_client&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">chat&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">completions&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">create&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="o">...&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="nd">@observe&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">def&lt;/span> &lt;span class="nf">pipeline_rag&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">pregunta&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="nb">str&lt;/span>&lt;span class="p">):&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">docs&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">buscar_documentos&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">pregunta&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="k">return&lt;/span> &lt;span class="n">llamar_llm&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">build_prompt&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">pregunta&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">docs&lt;/span>&lt;span class="p">))&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>El árbol de llamadas se captura automáticamente: la traza muestra &lt;code>pipeline_rag&lt;/code> como root span, con &lt;code>buscar_documentos&lt;/code> y &lt;code>llamar_llm&lt;/code> como hijos, anidados. Sin escribir un solo &lt;code>with tracer.start_as_current_span(...)&lt;/code> a mano.&lt;/p>
&lt;p>En TypeScript el equivalente es modular: instalas &lt;code>@langfuse/tracing&lt;/code>, &lt;code>@langfuse/otel&lt;/code> y &lt;code>@opentelemetry/sdk-node&lt;/code>, y puedes usar decoradores TS, context managers o spans manuales —los tres modelos interoperan—. La consecuencia: bibliotecas terceras que emiten spans OTel (&lt;code>openai&lt;/code>, &lt;code>@anthropic-ai/sdk&lt;/code>, instrumentaciones de Vercel AI SDK) se ven en Langfuse sin trabajo adicional.&lt;/p>
&lt;h4 id="arquitectura-self-host-pensada-para-producción-seria">Arquitectura self-host: pensada para producción seria&lt;/h4>
&lt;p>La arquitectura del backend Langfuse tiene &lt;strong>dos decisiones explícitas&lt;/strong> que distinguen su despliegue self-host:&lt;/p>
&lt;ol>
&lt;li>
&lt;p>&lt;strong>Persistencia primero en S3/Blob Storage&lt;/strong>. Cuando un evento de tracing entra, &lt;strong>se persiste en object storage antes de tocar la base de datos&lt;/strong>. Solo cuando el procesado posterior confirma OK se inserta en Postgres/Clickhouse. Si la DB cae temporalmente, los eventos &lt;strong>no se pierden&lt;/strong>; quedan en S3 esperando reproceso. Para producción donde perder traces de un incidente equivale a perder evidencia, esto es load-bearing.&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>Migraciones largas como background jobs&lt;/strong>. Los upgrades de schema que en otras plataformas implican ventana de downtime, en Langfuse se ejecutan en background mientras la aplicación sigue sirviendo. El downtime de upgrade se reduce drásticamente.&lt;/p>
&lt;/li>
&lt;/ol>
&lt;p>Los modos de despliegue soportados oficialmente:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Docker Compose&lt;/strong>: para desarrollo y POCs. Un comando, todo arriba.&lt;/li>
&lt;li>&lt;strong>VM&lt;/strong>: un único nodo, contenedores, sin orquestación. Para entornos pequeños.&lt;/li>
&lt;li>&lt;strong>Kubernetes con Helm&lt;/strong>: el modo recomendado para producción. Chart oficial mantenido. Soporta external Postgres, external Clickhouse, external S3, HPA.&lt;/li>
&lt;/ul>
&lt;p>Las dependencias externas en producción típica: &lt;strong>Postgres&lt;/strong> (metadata, prompts, configuración), &lt;strong>Clickhouse&lt;/strong> (eventos de tracing, queries de alta cardinalidad), &lt;strong>S3 o blob compatible&lt;/strong> (eventos pendientes), &lt;strong>Redis&lt;/strong> (cola entre componentes). Sí, son varias piezas; es lo que sostiene la durabilidad y la escala.&lt;/p>
&lt;h4 id="prompt-management-como-ciudadano-de-primera-clase">Prompt management como ciudadano de primera clase&lt;/h4>
&lt;p>Lo que diferencia a Langfuse de las plataformas centradas solo en tracing es que &lt;strong>los prompts viven en Langfuse&lt;/strong>, no en el repo de la aplicación o en hojas de cálculo. Cada prompt tiene:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Nombre y versión&lt;/strong> (v1, v2, v3&amp;hellip;). Cambiar el prompt no requiere redeploy de la app: la app pide el prompt al SDK, que lo cachea y refresca cuando hay versión nueva.&lt;/li>
&lt;li>&lt;strong>Variables tipadas&lt;/strong>: &lt;code>{{user_input}}&lt;/code>, &lt;code>{{context}}&lt;/code>. Render con validación.&lt;/li>
&lt;li>&lt;strong>Tags y labels&lt;/strong>: por entorno (&lt;code>production&lt;/code>, &lt;code>staging&lt;/code>), por equipo, por experimento.&lt;/li>
&lt;li>&lt;strong>Cache cliente y servidor&lt;/strong>: el SDK cachea localmente con TTL configurable, evita roundtrip a Langfuse en cada llamada.&lt;/li>
&lt;li>&lt;strong>Linkage con traces&lt;/strong>: cada trace recoge qué versión exacta de qué prompt se usó. Investigar &amp;ldquo;esta respuesta salió mal&amp;rdquo; lleva al prompt versión Y, no a &amp;ldquo;alguna versión del prompt en algún momento&amp;rdquo;.&lt;/li>
&lt;/ul>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">langfuse&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">get_client&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">langfuse&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">get_client&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">prompt&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">langfuse&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">get_prompt&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s2">&amp;#34;rag-system-prompt&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">version&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="mi">3&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># o por label: langfuse.get_prompt(&amp;#34;rag-system-prompt&amp;#34;, label=&amp;#34;production&amp;#34;)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">compiled&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">prompt&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">compile&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">context&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">docs_text&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">user_input&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="n">question&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># &amp;#39;compiled&amp;#39; es el string final, listo para mandar al LLM&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Para equipos que iteran sobre prompts a diario, esto es lo que evita el caos de &amp;ldquo;qué versión del prompt está corriendo realmente en producción ahora mismo&amp;rdquo;.&lt;/p>
&lt;h4 id="evaluations-cuatro-modelos-de-evaluación-combinables">Evaluations: cuatro modelos de evaluación combinables&lt;/h4>
&lt;p>Langfuse cubre los cuatro patrones de evaluación de respuestas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>LLM-as-a-judge&lt;/strong>: configuras un modelo (típicamente GPT-4 o Claude) con una rúbrica y evalúa cada respuesta. Resultado: score numérico (0-1) y justificación. Aplicable a tracing automático (todas las respuestas) o batch (selección de dataset).&lt;/li>
&lt;li>&lt;strong>User feedback&lt;/strong>: la app permite al usuario marcar respuesta como buena/mala. El feedback se asocia al trace y al prompt version, lo que permite ver qué versiones tienen peor rate.&lt;/li>
&lt;li>&lt;strong>Manual labeling&lt;/strong>: una UI donde labelers humanos puntúan respuestas. Útil para datasets dorados y para evaluar el judge.&lt;/li>
&lt;li>&lt;strong>Custom evaluators vía API/SDK&lt;/strong>: evals propios (un test unitario, una métrica de negocio) reportan score vía API. Se integran con CI.&lt;/li>
&lt;/ul>
&lt;p>Combinadas, dan &lt;strong>regression testing&lt;/strong> del prompt: cambias de v3 a v4, evalúas el dataset dorado con LLM-as-judge, comparas; si v4 empeora en alguno de los segmentos, el merge falla.&lt;/p>
&lt;h4 id="integraciones">Integraciones&lt;/h4>
&lt;p>Langfuse no compite con OpenLLMetry, LangChain o LiteLLM: los &lt;strong>integra&lt;/strong>. Las que están testeadas y documentadas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>OpenTelemetry&lt;/strong>: cualquier instrumentación OTel emite a Langfuse vía OTLP.&lt;/li>
&lt;li>&lt;strong>LangChain y LangGraph&lt;/strong>: callback nativo que captura toda la cadena.&lt;/li>
&lt;li>&lt;strong>LlamaIndex&lt;/strong>: callback nativo.&lt;/li>
&lt;li>&lt;strong>OpenAI SDK&lt;/strong> (Python y TS): wrapper que añade tracing automáticamente.&lt;/li>
&lt;li>&lt;strong>LiteLLM&lt;/strong>: integración como callback, lo que cubre 100+ proveedores via LiteLLM.&lt;/li>
&lt;li>&lt;strong>OpenLLMetry / Traceloop&lt;/strong>: emiten a Langfuse como cualquier backend OTel.&lt;/li>
&lt;li>&lt;strong>MLflow&lt;/strong>: vía exporter OTel desde MLflow a Langfuse.&lt;/li>
&lt;li>&lt;strong>Vercel AI SDK&lt;/strong>: instrumentación nativa.&lt;/li>
&lt;/ul>
&lt;p>La estrategia es clara: &lt;strong>Langfuse es backend, no SDK&lt;/strong>. Tu equipo elige cómo instrumenta; Langfuse acepta cualquier camino. La consecuencia operativa: cambiar de Langfuse a otro backend OTel mañana es viable.&lt;/p>
&lt;h4 id="cuándo-langfuse-no-es-la-respuesta">Cuándo Langfuse no es la respuesta&lt;/h4>
&lt;p>Para no presentarlo como bala de plata:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Si solo usas LangChain y no tienes recursos para self-host&lt;/strong>: LangSmith te dará integración más fluida (es el mismo equipo).&lt;/li>
&lt;li>&lt;strong>Si tu única necesidad es proxy con cost tracking sin evals&lt;/strong>: Helicone es más simple.&lt;/li>
&lt;li>&lt;strong>Si quieres una solución vendor commercial integrada&lt;/strong>: Datadog LLM Observability, New Relic AI Monitoring o Dynatrace AI son alternativas Enterprise con soporte 24/7.&lt;/li>
&lt;li>&lt;strong>Si tu carga es batch puro de inferencia masiva sin agentes&lt;/strong>: probablemente no necesitas tracing semántico; Prometheus + Grafana con métricas OTel basta.&lt;/li>
&lt;/ul>
&lt;p>Para todo lo demás —apps propias con tracing serio, multi-tenant con cuotas, equipos que iteran prompts a diario, RAG con evaluación continua—, Langfuse es la apuesta segura.&lt;/p>
&lt;p>&lt;strong>Resumen de elección rápido&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>LangChain → LangSmith&lt;/strong> (cero esfuerzo, instrumentación automática).&lt;/li>
&lt;li>&lt;strong>Aplicaciones propias multi-framework con OSS → Langfuse&lt;/strong> (MIT, self-host, completo).&lt;/li>
&lt;li>&lt;strong>RAG con vector stores → Arize Phoenix&lt;/strong> (mejor visibilidad de retrieval).&lt;/li>
&lt;li>&lt;strong>Proxy simple, presupuesto bajo → Helicone&lt;/strong>.&lt;/li>
&lt;li>&lt;strong>Vendor neutrality estricta → OpenLLMetry/Traceloop&lt;/strong>.&lt;/li>
&lt;li>&lt;strong>Pydantic AI → Logfire&lt;/strong> (mismo equipo).&lt;/li>
&lt;/ul>
&lt;h3 id="fortalezas-y-debilidades-del-modelo-instrumentado">Fortalezas y debilidades del modelo instrumentado&lt;/h3>
&lt;p>&lt;strong>Fortalezas&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Profundidad enorme&lt;/strong>: spans anidados con todo el contexto (chain steps, retrieval, embeddings, tool calls).&lt;/li>
&lt;li>&lt;strong>Vocabulario semántico&lt;/strong>: SDK conoce el dominio (LLM, vector store, agent).&lt;/li>
&lt;li>&lt;strong>Madurez&lt;/strong>: tres años de evolución, ecosistema rico, dashboards listos.&lt;/li>
&lt;li>&lt;strong>Evals integradas&lt;/strong>: las plataformas top combinan tracing con evaluación (judge LLM, datasets, regression).&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Debilidades&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Requiere control del código&lt;/strong>: si no puedes instrumentar, no funciona.&lt;/li>
&lt;li>&lt;strong>Trust en la app&lt;/strong>: si la app reporta mal o tiene un bug, la traza también. No es tamper-proof.&lt;/li>
&lt;li>&lt;strong>Acoplamiento al SDK&lt;/strong>: cambios de versión de una librería pueden romper la instrumentación.&lt;/li>
&lt;li>&lt;strong>Cobertura desigual&lt;/strong>: SDKs de Python están maduros; Go, Rust, JS más jóvenes.&lt;/li>
&lt;/ul>
&lt;h2 id="el-enfoque-zero-instrumentation-agentsight">El enfoque zero-instrumentation: AgentSight&lt;/h2>
&lt;p>&lt;a href="https://github.com/eunomia-bpf/agentsight">AgentSight&lt;/a> es el proyecto del grupo &lt;code>eunomia-bpf&lt;/code> que abandera el enfoque opuesto. Su &lt;a href="https://arxiv.org/abs/2508.02736">paper en arxiv (2508.02736)&lt;/a>, presentado en el &lt;em>Workshop on Practical Adoption Challenges of ML for Systems&lt;/em>, formaliza la propuesta. La premisa es directa:&lt;/p>
&lt;blockquote>
&lt;p>&lt;em>Instead of instrumenting the agent, observe it at the system boundary.&lt;/em>&lt;/p>
&lt;/blockquote>
&lt;p>Y &amp;ldquo;system boundary&amp;rdquo; significa &lt;strong>el límite del kernel&lt;/strong>: el último punto antes de que un dato salga del proceso hacia la red o el filesystem. Ahí, con eBPF, se ven las cosas tal como son, sin que la aplicación pueda cooperar para esconderlas.&lt;/p>
&lt;h3 id="arquitectura-tres-planos">Arquitectura: tres planos&lt;/h3>
&lt;p>AgentSight monta tres capas:&lt;/p>
&lt;p>&lt;strong>Plano 1 — SSL/TLS uprobes&lt;/strong>. eBPF puede atar programas a funciones de &lt;strong>bibliotecas userspace&lt;/strong> (uprobes). Las funciones objetivo son las de cifrado: &lt;code>SSL_write&lt;/code>, &lt;code>SSL_read&lt;/code> de OpenSSL/BoringSSL, equivalentes en Rustls. AgentSight les pone hooks que &lt;strong>capturan los argumentos&lt;/strong>: el buffer &lt;strong>plaintext&lt;/strong> que la app pasa para que sea cifrado, justo antes de que TLS lo procese. En la recepción, hace lo simétrico: hook después de &lt;code>SSL_read&lt;/code> con el plaintext recién descifrado. Resultado: AgentSight ve el contenido completo de cualquier petición HTTPS que la app haga &lt;strong>sin necesidad de man-in-the-middle ni certificados ni descifrar tráfico&lt;/strong>. El payload es plaintext porque se capturó &lt;strong>antes&lt;/strong> de cifrarse.&lt;/p>
&lt;p>Esto funciona porque las uprobes son baratas (~100 ns por invocación) y porque las apps usan bibliotecas de TLS comunes. Las pocas apps que implementan su propio TLS (raras en producción) escapan a este hook; para esas hace falta un kprobe diferente o instrumentación manual.&lt;/p>
&lt;p>&lt;strong>Plano 2 — Kernel events&lt;/strong>. Paralelamente, AgentSight observa syscalls relevantes a través de tracepoints: &lt;code>execve&lt;/code> (qué procesos arrancan), &lt;code>connect&lt;/code>/&lt;code>accept&lt;/code> (red), &lt;code>read&lt;/code>/&lt;code>write&lt;/code> con file descriptors (filesystem y stdio), &lt;code>unlink&lt;/code>, &lt;code>clone&lt;/code>. Cualquier acción del agente que tenga efecto fuera del proceso pasa por aquí. Esto cubre, entre otros, &lt;strong>comandos shell ejecutados por el agente&lt;/strong> —si un agente Claude Code decide ejecutar &lt;code>rm -rf&lt;/code> para &amp;ldquo;limpiar el proyecto&amp;rdquo;, el &lt;code>execve&lt;/code> se ve aunque la API LLM no lo reporte—.&lt;/p>
&lt;p>&lt;strong>Plano 3 — Correlation engine&lt;/strong>. Los dos planos anteriores producen streams de eventos asíncronos. AgentSight tiene un componente en userspace que los &lt;strong>correlaciona causalmente cross-process&lt;/strong>: una petición HTTP saliente con &lt;code>bash -c rm -rf&lt;/code> puede ser correlada con la respuesta LLM previa que la sugirió, vía PIDs, tiempos y heurísticas. El paper menciona el uso opcional de &lt;strong>un LLM secundario&lt;/strong> (Anthropic Claude por ejemplo) que analiza la secuencia de eventos y produce alertas semánticas: &amp;ldquo;el agente respondió con una tool call que no estaba en la whitelist&amp;rdquo;, &amp;ldquo;la cadena de reasoning lleva 47 iteraciones sin converger&amp;rdquo;.&lt;/p>
&lt;h3 id="stdiocap-capturar-stdio-de-servidores-mcp-locales">&lt;code>stdiocap&lt;/code>: capturar stdio de servidores MCP locales&lt;/h3>
&lt;p>Una pieza específica que merece mención propia es &lt;code>stdiocap&lt;/code>, una herramienta BPF separada incluida en el repo. El &lt;strong>Model Context Protocol (MCP)&lt;/strong>, popularizado por Anthropic en 2024 y mainstream en 2025-2026, tiene dos modos de transport: HTTP/SSE (red) y &lt;strong>stdio&lt;/strong> (entre el cliente y el server que arranca como subproceso). Los servidores MCP locales —los que corren en la misma máquina y son arrancados por el cliente como hijos vía pipes— comunican por stdin/stdout/stderr con JSON-RPC.&lt;/p>
&lt;p>&lt;code>stdiocap&lt;/code> engancha &lt;code>read&lt;/code>/&lt;code>write&lt;/code>/&lt;code>dup&lt;/code> sobre los file descriptors de stdin/stdout/stderr de un proceso target y &lt;strong>registra todo el tráfico JSON-RPC&lt;/strong> entre cliente y server MCP. Es la misma idea que la captura SSL pero para stdio: observas la conversación sin que ni el cliente ni el server lo sepan. Caso de uso típico: ver qué tools del MCP server &lt;code>filesystem-mcp&lt;/code> ha invocado un agente Claude Code en la última hora, qué argumentos pasó, qué errores recibió. Imposible con instrumentación clásica (los servers MCP suelen ser binarios de terceros).&lt;/p>
&lt;h3 id="garantías-tamper-proof-kernel-safety-3-overhead">Garantías: tamper-proof, kernel safety, &amp;lt;3% overhead&lt;/h3>
&lt;p>Tres propiedades hacen a AgentSight interesante para producción:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Tamper-proof&lt;/strong>: la observación ocurre en el kernel (uprobes, syscalls). Una aplicación maliciosa o comprometida no puede falsificar lo que se ve. Comparar con instrumentación: si el agente decide no emitir el span de su acción, no aparece en Langfuse. Aquí no tiene elección.&lt;/li>
&lt;li>&lt;strong>Kernel safety&lt;/strong>: eBPF verifica formalmente que los programas terminen y respeten bounds checks. No puede crashear el kernel. Igual que en el resto de la serie eBPF.&lt;/li>
&lt;li>&lt;strong>&amp;lt;3% CPU overhead&lt;/strong> medido sobre cargas reales de agentes (paper). El número compara favorablemente con instrumentación SDK que típicamente añade 5-10% en aplicaciones intensas.&lt;/li>
&lt;/ul>
&lt;h3 id="lo-que-detecta-out-of-the-box">Lo que detecta out of the box&lt;/h3>
&lt;p>El paper y la documentación destacan tres clases de detección:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Prompt injection en tiempo real&lt;/strong>: el correlation engine puede aplicar reglas o un modelo de detección sobre el plaintext capturado por las uprobes SSL. Si el prompt contiene patrones sospechosos —&amp;ldquo;ignore all previous instructions&amp;rdquo;, system prompt embebido en un user input, instrucciones para exfiltrar datos—, marca alerta.&lt;/li>
&lt;li>&lt;strong>Reasoning loops que gastan recursos&lt;/strong>: agentes que entran en bucles infinitos llamando a herramientas sin progresar. Detectables porque la cadena causal no converge a &amp;ldquo;respuesta final&amp;rdquo; y los tokens se acumulan. El correlation engine los marca.&lt;/li>
&lt;li>&lt;strong>Bottlenecks en multi-agent&lt;/strong>: cuando varios agentes coordinan, AgentSight ve la matriz de comunicaciones entre todos y puede detectar agentes que se bloquean esperando, deadlocks, fan-out excesivo.&lt;/li>
&lt;/ul>
&lt;h2 id="el-choque-y-la-coexistencia">El choque y la coexistencia&lt;/h2>
&lt;p>Las dos familias parecen competir, pero en realidad ven cosas distintas y se complementan en producción.&lt;/p>
&lt;h3 id="lo-que-solo-el-instrumentado-ve">Lo que solo el instrumentado ve&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>Variables internas del agente&lt;/strong> que no salen al cable: el estado intermedio de un chain LangChain, los valores antes de pasarlos a una herramienta, el cómo se construye un prompt a partir de un template con vars internos.&lt;/li>
&lt;li>&lt;strong>Spans semánticos profundos&lt;/strong>: &lt;code>retrieval &amp;gt; embed &amp;gt; vector_search &amp;gt; rerank &amp;gt; format_context &amp;gt; prompt_template &amp;gt; llm&lt;/code>. AgentSight ve solo la llamada final al LLM; el camino para construirla es invisible.&lt;/li>
&lt;li>&lt;strong>Evaluaciones&lt;/strong>: scoring de respuestas, judge LLMs, regresión de calidad. Esto vive solo en plataformas instrumentadas.&lt;/li>
&lt;/ul>
&lt;h3 id="lo-que-solo-ebpf-ve">Lo que solo eBPF ve&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>Binarios opacos&lt;/strong>: Claude Code, Cursor, Gemini CLI, agentes de terceros. No tienes el código; no puedes instrumentarlos. Solo eBPF los ve.&lt;/li>
&lt;li>&lt;strong>Acciones a nivel sistema&lt;/strong>: el agente decide ejecutar &lt;code>git push --force&lt;/code> o &lt;code>kubectl delete&lt;/code>. La acción se ve en el &lt;code>execve&lt;/code>. La instrumentación del agente puede no reportarla (especialmente si fue un comando que el agente generó como output sin pasar por una &amp;ldquo;tool&amp;rdquo; explícita).&lt;/li>
&lt;li>&lt;strong>Tamper-proof audit&lt;/strong>: para compliance regulatorio (HIPAA, SOC2, NIS2), tener observación que la app no puede burlar tiene valor formal. eBPF lo da.&lt;/li>
&lt;li>&lt;strong>MCP servers locales con stdio&lt;/strong>: invisibles para instrumentación clásica salvo que cada server emita sus propios spans (raro).&lt;/li>
&lt;/ul>
&lt;h3 id="lo-que-ambos-ven-complementariamente">Lo que ambos ven, complementariamente&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>Prompts y completions&lt;/strong>: instrumentado los emite con metadata rica; eBPF los captura del cable. Cross-check perfecto para detectar discrepancias.&lt;/li>
&lt;li>&lt;strong>Llamadas a APIs externas&lt;/strong>: APM lo marca; eBPF lo confirma a nivel kernel.&lt;/li>
&lt;li>&lt;strong>Latencia&lt;/strong>: APM por span; eBPF mide RTT a nivel TCP y conectividad red.&lt;/li>
&lt;/ul>
&lt;h3 id="matriz-de-decisión">Matriz de decisión&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Caso&lt;/th>
&lt;th>Instrumentado&lt;/th>
&lt;th>eBPF (AgentSight)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>App propia con LangChain&lt;/td>
&lt;td>&lt;strong>Sí, primero&lt;/strong>&lt;/td>
&lt;td>Opcional&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>App propia multi-framework&lt;/td>
&lt;td>&lt;strong>Sí&lt;/strong>&lt;/td>
&lt;td>Opcional&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Binario de terceros (Claude Code, Cursor)&lt;/td>
&lt;td>&lt;strong>No funciona&lt;/strong>&lt;/td>
&lt;td>&lt;strong>Sí, único camino&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cumplimiento normativo tamper-proof&lt;/td>
&lt;td>Insuficiente&lt;/td>
&lt;td>&lt;strong>Sí, requerido&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Multi-tenant zero-trust&lt;/td>
&lt;td>Insuficiente&lt;/td>
&lt;td>&lt;strong>Sí, requerido&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Servidores MCP locales (stdio)&lt;/td>
&lt;td>Difícil&lt;/td>
&lt;td>&lt;strong>Sí, con stdiocap&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Evaluación de calidad de respuestas&lt;/td>
&lt;td>&lt;strong>Sí, requerido&lt;/strong>&lt;/td>
&lt;td>No (fuera de scope)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Profundidad de chain interno&lt;/td>
&lt;td>&lt;strong>Sí, requerido&lt;/strong>&lt;/td>
&lt;td>No (caja negra para AgentSight)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Reasoning loop detection&lt;/td>
&lt;td>Posible con plumbing&lt;/td>
&lt;td>&lt;strong>Sí, integrado&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Prompt injection en tiempo real&lt;/td>
&lt;td>Posible (post-procesado)&lt;/td>
&lt;td>&lt;strong>Sí, en stream&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La conclusión natural: &lt;strong>para apps propias, instrumentado; para binarios opacos o compliance, eBPF; para todo lo importante, ambos&lt;/strong>.&lt;/p>
&lt;h2 id="arquitectura-de-referencia-2026">Arquitectura de referencia 2026&lt;/h2>
&lt;p>Cuatro recetas que cubren el grueso de los casos reales:&lt;/p>
&lt;h3 id="setup-a--aplicación-propia-con-langchain-o-similar">Setup A — Aplicación propia con LangChain o similar&lt;/h3>
&lt;p>Necesidades: profundidad, evals, equipo cómodo con SDKs.&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Langfuse self-host&lt;/strong> o &lt;strong>LangSmith cloud&lt;/strong> como backend.&lt;/li>
&lt;li>&lt;strong>OpenLLMetry SDK&lt;/strong> o &lt;strong>LangSmith SDK&lt;/strong> instrumentando el código.&lt;/li>
&lt;li>&lt;strong>OpenTelemetry Collector&lt;/strong> entre la app y el backend para flexibilidad de routing (a Langfuse + Tempo + Loki por ejemplo).&lt;/li>
&lt;li>&lt;strong>Hubble&lt;/strong> para la capa de red en el cluster (latencia inter-pod, drop attribution).&lt;/li>
&lt;/ul>
&lt;h3 id="setup-b--productivizar-un-binario-opaco-claude-code-gemini-cli">Setup B — Productivizar un binario opaco (Claude Code, Gemini CLI)&lt;/h3>
&lt;p>Necesidades: observar sin tocar, auditar, controlar coste.&lt;/p>
&lt;ul>
&lt;li>&lt;strong>AgentSight&lt;/strong> desplegado como DaemonSet sobre el cluster (o standalone en el nodo).&lt;/li>
&lt;li>&lt;strong>Grafana con dashboards&lt;/strong> alimentados por las métricas de AgentSight.&lt;/li>
&lt;li>&lt;strong>Exportador OTLP&lt;/strong> de AgentSight a un backend OTel (Tempo, Jaeger). Los spans usarán las semantic conventions GenAI cuando se estandaricen del todo.&lt;/li>
&lt;li>&lt;strong>Tetragon&lt;/strong> opcional para política sobre qué puede ejecutar el agente (Sigkill si intenta &lt;code>rm -rf&lt;/code> o similar).&lt;/li>
&lt;/ul>
&lt;h3 id="setup-c--plataforma-multi-tenant-zero-trust">Setup C — Plataforma multi-tenant zero-trust&lt;/h3>
&lt;p>Necesidades: agentes de distintos clientes corriendo en el mismo cluster, auditoría obligatoria, ninguno confía en el otro.&lt;/p>
&lt;ul>
&lt;li>&lt;strong>AgentSight&lt;/strong> como capa de auditoría tamper-proof. Compliance lo requiere.&lt;/li>
&lt;li>&lt;strong>Langfuse multi-tenant&lt;/strong> para los clientes que sí instrumentan.&lt;/li>
&lt;li>&lt;strong>Tetragon&lt;/strong> con &lt;code>TracingPolicyNamespaced&lt;/code> por tenant (políticas distintas por namespace).&lt;/li>
&lt;li>&lt;strong>Hubble&lt;/strong> con flow logs persistentes para forensics.&lt;/li>
&lt;li>&lt;strong>Cilium NetworkPolicy&lt;/strong> para aislar tenants entre sí en red.&lt;/li>
&lt;/ul>
&lt;h3 id="setup-d--servidor-mcp-local-en-una-workstation">Setup D — Servidor MCP local en una workstation&lt;/h3>
&lt;p>Necesidades: ver qué hace un agente con un MCP server stdio.&lt;/p>
&lt;ul>
&lt;li>&lt;strong>AgentSight stdiocap&lt;/strong> apuntando al PID del cliente o del server.&lt;/li>
&lt;li>Captura JSON-RPC completo a fichero o a un endpoint OTLP.&lt;/li>
&lt;li>Visualización: Grafana o simplemente &lt;code>jq&lt;/code> sobre el log.&lt;/li>
&lt;/ul>
&lt;p>Caso de uso real: si estás integrando un MCP server propio y quieres ver qué tool calls hace un agente Claude Code o Cursor a tu server, &lt;code>stdiocap&lt;/code> es la forma más limpia. No necesitas modificar ni cliente ni server.&lt;/p>
&lt;h2 id="trampas-operativas">Trampas operativas&lt;/h2>
&lt;h3 id="datos-sensibles-en-prompts-instrumentado">Datos sensibles en prompts (instrumentado)&lt;/h3>
&lt;p>Por defecto, Langfuse, LangSmith y similares capturan &lt;strong>el contenido completo&lt;/strong> de prompts y completions. Si tu app procesa PII, secretos, datos médicos, &lt;strong>eso va a tu backend de observabilidad&lt;/strong>. Configurar &lt;strong>redacción&lt;/strong> o &lt;strong>content-opt-out&lt;/strong> antes de pasar a producción es obligado. OTel GenAI tiene flags específicos (&lt;code>OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT=false&lt;/code>) para evitarlo.&lt;/p>
&lt;h3 id="datos-sensibles-en-prompts-agentsight">Datos sensibles en prompts (AgentSight)&lt;/h3>
&lt;p>Mismo problema, peor: AgentSight captura &lt;strong>literalmente lo que va al cable&lt;/strong>, plaintext. Si el agente conversó con &lt;code>api.openai.com&lt;/code> con un prompt que contenía datos sensibles, AgentSight tiene ese plaintext. Hay que cifrar o redactar antes de almacenar.&lt;/p>
&lt;h3 id="certificados-pinned-o-tls-no-estándar">Certificados pinned o TLS no estándar&lt;/h3>
&lt;p>Algunas apps de seguridad alta hacen certificate pinning o usan implementaciones de TLS no convencionales (Go&amp;rsquo;s &lt;code>crypto/tls&lt;/code>, BoringSSL custom). En esos casos, las uprobes a &lt;code>libssl&lt;/code> no las cubren. AgentSight detecta cuándo no puede observar y reporta gap; igual hay que añadir hooks específicos al SDK alternativo.&lt;/p>
&lt;h3 id="volumen-de-tokens-y-storage">Volumen de tokens y storage&lt;/h3>
&lt;p>Una aplicación con tráfico medio puede generar &lt;strong>millones de tokens al día&lt;/strong>. Si los almacenas todos en Langfuse o Phoenix con retención largos, la base de datos crece deprisa. Estrategias: sampling agresivo, retención corta para sesiones normales y larga solo para errores/anomalías, redaction de contenido y guardar solo metadata.&lt;/p>
&lt;h3 id="tracing-con-sampling-y-consistencia">Tracing con sampling y consistencia&lt;/h3>
&lt;p>Para reducir coste, muchas instalaciones samplean: solo 1 de cada N traces se persiste. &lt;strong>Cuidado con el sampling no consistente&lt;/strong>: un trace puede llevar varios spans en múltiples servicios, y si la decisión de samplear se toma per-span, acabas con traces incompletos. OTel tiene &lt;strong>head sampling&lt;/strong> (en el SDK al principio) que es consistente, y &lt;strong>tail sampling&lt;/strong> (en el collector al final) que permite reglas más finas. Para LLM, el tail sampling es ideal: muestrea todo, descarta solo las traces &amp;ldquo;normales&amp;rdquo; y conserva las que tienen errores, latencia alta o cost alto.&lt;/p>
&lt;h3 id="multi-agent-y-trace-propagation">Multi-agent y trace propagation&lt;/h3>
&lt;p>Cuando agente A llama a agente B, hay que &lt;strong>propagar el trace context&lt;/strong> (W3C Trace Context headers) para que se vea como un árbol único. Si no lo haces, ves dos traces inconexos. Las plataformas modernas lo hacen automáticamente con &lt;code>inject&lt;/code>/&lt;code>extract&lt;/code>, pero si tu transport entre agentes es custom (vía Redis pub/sub, vía DB), tienes que propagar a mano.&lt;/p>
&lt;h3 id="coste-de-las-uprobes-en-bibliotecas-críticas">Coste de las uprobes en bibliotecas críticas&lt;/h3>
&lt;p>Hookear &lt;code>libssl&lt;/code> añade ~100 ns por invocación. En cargas de tráfico TLS extremo (decenas de miles de conexiones/s por core), eso suma. AgentSight lo mantiene por debajo de 3% en cargas típicas de agentes (que son chatty pero no networking-intensive). Si tu uso fuese sniffing de todo el HTTPS del nodo, podría doler más.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto-próxima-serie">Lo que no hemos cubierto (próxima serie)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>Evals&lt;/strong>: la siguiente capa después de tracing. Phoenix, Langfuse, LangSmith y compañía ofrecen evaluación de respuestas (judge LLM, datasets, regression). Es un mundo aparte.&lt;/li>
&lt;li>&lt;strong>Guardrails y safety&lt;/strong>: NeMo Guardrails, Llama Guard, Llama Prompt Guard, evaluadores específicos para prompt injection y jailbreaks.&lt;/li>
&lt;li>&lt;strong>MCP server observability profunda&lt;/strong>: cómo OpenTelemetry GenAI conventions están extendiéndose a MCP servers para trace-aware tools.&lt;/li>
&lt;li>&lt;strong>eBPF + on-device inference&lt;/strong>: cuando el LLM corre localmente vía vLLM o llama.cpp, las uprobes pueden ver la cola tokens-output ANTES de que vayan al cliente. Territorio nuevo.&lt;/li>
&lt;li>&lt;strong>Análisis estadístico de flows de agentes&lt;/strong>: detectar drift, outliers, patrones que indican degradación.&lt;/li>
&lt;/ul>
&lt;h2 id="cerrando-la-serie-ebpf">Cerrando la serie eBPF&lt;/h2>
&lt;p>Esta serie de cuatro artículos ha recorrido eBPF desde el primer principio hasta la frontera 2026:&lt;/p>
&lt;ol>
&lt;li>&lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a> — qué es eBPF, hooks de networking, cómo Cilium se salta la pila TCP/IP, BGP Control Plane v2.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon: seguridad de runtime&lt;/a> — observabilidad y enforcement de procesos en el kernel.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble: observabilidad de red&lt;/a> — flow logs L3-L7 y la frontera con los agentes IA.&lt;/li>
&lt;li>&lt;strong>Este&lt;/strong> — AgentSight, tracing de LLMs, instrumentado vs zero-instrumentation.&lt;/li>
&lt;/ol>
&lt;p>Si has llegado hasta aquí tienes el mapa para sentarte con un equipo de plataforma, de seguridad o de IA en 2026 y reconocer qué hace cada pieza, qué problema resuelve y por dónde empezar. Toda esa pila —Cilium para CNI y BGP, Tetragon para seguridad de runtime, Hubble para observabilidad de red, AgentSight para agentes IA— compartiendo eBPF como sustrato común, gobernanza Cloud Native y vocabulario OpenTelemetry. Es la arquitectura limpia que la industria pidió hace una década y por fin existe.&lt;/p>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>AgentSight:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://github.com/eunomia-bpf/agentsight">AgentSight GitHub (eunomia-bpf)&lt;/a> — el proyecto.&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2508.02736">AgentSight: System-Level Observability for AI Agents Using eBPF (arxiv 2508.02736)&lt;/a> — paper formal.&lt;/li>
&lt;li>&lt;a href="https://dl.acm.org/doi/10.1145/3766882.3767169">AgentSight ACM workshop publication&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://eunomia.dev/blog/2025/08/26/agentsight-keeping-your-ai-agents-under-control-with-ebpf-powered-system-observability/">AgentSight blog post (eunomia.dev)&lt;/a> — descripción accesible.&lt;/li>
&lt;/ul>
&lt;p>OpenTelemetry GenAI semantic conventions:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/">OpenTelemetry — Semantic conventions for generative AI systems&lt;/a> — referencia oficial.&lt;/li>
&lt;li>&lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/">Semantic conventions for generative client AI spans&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/">Semantic conventions for generative AI metrics&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://opentelemetry.io/blog/2026/genai-observability/">Inside the LLM Call: GenAI Observability with OpenTelemetry (OTel blog 2026)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://github.com/open-telemetry/semantic-conventions/issues/2664">Multi-agent Semantic Conventions (GitHub issue #2664)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Plataformas instrumentadas:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://langfuse.com/">Langfuse&lt;/a> — MIT, self-host + cloud.&lt;/li>
&lt;li>&lt;a href="https://www.langchain.com/langsmith">LangSmith&lt;/a> — LangChain team.&lt;/li>
&lt;li>&lt;a href="https://phoenix.arize.com/">Arize Phoenix&lt;/a> — OSS, OTel-native.&lt;/li>
&lt;li>&lt;a href="https://www.helicone.ai/">Helicone&lt;/a> — proxy simple.&lt;/li>
&lt;li>&lt;a href="https://github.com/traceloop/openllmetry">OpenLLMetry (Traceloop)&lt;/a> — Apache 2.0, SDK OTel.&lt;/li>
&lt;li>&lt;a href="https://pydantic.dev/docs/logfire/get-started/ai-observability/">Pydantic Logfire — AI observability&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Comparativas 2026:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://www.braintrust.dev/articles/langfuse-alternatives-2026">Langfuse alternatives 2026 (Braintrust)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.braintrust.dev/articles/best-llm-tracing-tools-2026">7 best LLM tracing tools for multi-agent AI systems (2026)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://medium.com/@kanerika/llmops-observability-langsmith-vs-arize-vs-langfuse-vs-w-b-f1baeabd1bbf">LLMOps Observability: LangSmith vs Arize vs Langfuse vs W&amp;amp;B&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.firecrawl.dev/blog/best-llm-observability-tools">Best LLM Observability Tools in 2026 (Firecrawl)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.spheron.network/blog/llm-observability-gpu-cloud-langfuse-arize-phoenix-helicone/">LLM Observability on GPU Cloud (Spheron 2026 guide)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Cross-references de la serie:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon: seguridad de runtime&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/hubble-observabilidad-ebpf/">Hubble: observabilidad de red&lt;/a>.&lt;/li>
&lt;li>Serie de inferencia LLM: &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache&lt;/a>, &lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en Kubernetes&lt;/a>, &lt;a href="https://blog.lo0.es/posts/pagedattention-deep-dive/">PagedAttention&lt;/a>, &lt;a href="https://blog.lo0.es/posts/operators-llm-kubernetes/">Operators LLM K8s&lt;/a>.&lt;/li>
&lt;/ul></description></item><item><title>Hubble: observabilidad de red en eBPF, estado del arte 2026 y la nueva frontera con los agentes IA</title><link>https://blog.lo0.es/posts/hubble-observabilidad-ebpf/</link><pubDate>Tue, 19 May 2026 06:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/hubble-observabilidad-ebpf/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>&lt;a href="https://github.com/cilium/hubble">Hubble&lt;/a> es &lt;strong>la observabilidad de red nativa de Cilium&lt;/strong>, construida sobre los mismos programas eBPF que Cilium usa para enforcement. No duplica datapath ni instrumenta el kernel a su manera: &lt;strong>escucha&lt;/strong> los hooks que Cilium ya tiene y produce &lt;strong>flow logs estructurados&lt;/strong> con contexto Kubernetes incluido —pod, namespace, labels, service, verdict de policy, payload L7 cuando aplica—. Es lo que pasa cuando alguien decide que &lt;code>tcpdump&lt;/code> con &lt;code>grep&lt;/code> no escala a 10 000 pods y construye un sistema distribuido propio (Hubble server por nodo + Hubble Relay como agregador + CLI + UI) con overhead &lt;strong>prácticamente cero&lt;/strong> porque la captura ya estaba ocurriendo. En 2026 está en &lt;strong>versión 1.19.3&lt;/strong> (abril 2026), con Cilium 1.19 marcando el décimo aniversario del proyecto; ha llegado el &lt;strong>tracing por IP options&lt;/strong>, el filtrado por estado de cifrado, el &lt;strong>drop event taggeado con la NetworkPolicy exacta que lo causó&lt;/strong> (atribución directa), el &lt;strong>field mask API&lt;/strong> estabilizado, y la primera oleada de &lt;strong>anomaly detection con ML aplicado a flows&lt;/strong> para predictive security en clusters IoT/5G. Y, lo más interesante para 2026: aparece una frontera nueva donde el mismo eBPF observa &lt;strong>agentes de IA&lt;/strong> —Claude Code, Gemini CLI, agentes MCP— interceptando SSL/TLS y stdio sin instrumentar el código, lo que convierte el stack Cilium + Hubble + Tetragon + &lt;strong>AgentSight&lt;/strong> en una pila completa para entender qué hace un sistema agentic dentro de un cluster.&lt;/p>
&lt;blockquote>
&lt;p>Este artículo es la &lt;strong>parte 3 de la serie sobre eBPF&lt;/strong>. Parte 1: &lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium: cómo el kernel aprendió a saltarse su propia pila TCP/IP&lt;/a>. Parte 2: &lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon: el primo de seguridad de Cilium que ve cada syscall en el kernel&lt;/a>. Aquí completamos el cuadrante de observabilidad: &lt;strong>red&lt;/strong> con Hubble, &lt;strong>proceso&lt;/strong> con Tetragon, &lt;strong>agente IA&lt;/strong> con AgentSight.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-tcpdump-que-habla-kubernetes">La analogía: tcpdump que habla Kubernetes&lt;/h2>
&lt;p>Si has administrado redes los últimos veinte años, &lt;code>tcpdump&lt;/code> y Wireshark han sido el pan nuestro de cada día. Capturan paquetes en una interfaz, los parsean, te dejan filtrar con &lt;code>tcp.port == 443 and host 10.0.0.5&lt;/code>. Funcionan, llevan funcionando desde los 90, y son lo primero que abres cuando algo huele raro.&lt;/p>
&lt;p>Ahora pega &lt;code>tcpdump&lt;/code> a un cluster Kubernetes de 10 000 pods. Los problemas saltan en orden:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Una sesión &lt;code>tcpdump&lt;/code> por nodo&lt;/strong>. Querías &amp;ldquo;ver el tráfico entre el frontend y la API&amp;rdquo;; necesitas SSH a cada nodo, tcpdump por cada NIC, sincronizar timestamps, agregar a mano.&lt;/li>
&lt;li>&lt;strong>No hay contexto K8s&lt;/strong>. Ves un paquete de &lt;code>10.244.5.7&lt;/code> a &lt;code>10.244.8.42&lt;/code>. ¿Qué pod era? ¿Qué namespace? ¿Qué label? Te toca correlar con &lt;code>kubectl get pod -A -o wide&lt;/code> cada vez.&lt;/li>
&lt;li>&lt;strong>Sin entender L7&lt;/strong>. Ves un POST a HTTPS, no puedes saber qué método y path porque está cifrado en el cable. Si hay mTLS entre pods, peor.&lt;/li>
&lt;li>&lt;strong>Coste alto&lt;/strong>: captura completa de paquetes con copia a userspace ralentiza el datapath. En tráfico denso, lo notas.&lt;/li>
&lt;/ol>
&lt;p>Hubble es &lt;strong>tcpdump rediseñado para todo eso&lt;/strong>. Reutiliza los programas eBPF que &lt;strong>ya están&lt;/strong> procesando cada paquete (Cilium los pone ahí para enforcement) y, mientras toman su decisión de allow/deny, &lt;strong>emiten un evento de flow&lt;/strong> con todo el contexto: identidad del pod origen y destino, namespace, labels, protocolo, verdict, y —si Cilium ha hecho parsing L7 vía Envoy— método HTTP, path, status code, DNS query, Kafka topic. Ese evento viaja por un ringbuffer a userspace, lo recibe el &lt;strong>Hubble server&lt;/strong> que vive dentro del agent Cilium del nodo, y lo expone vía gRPC. Un servicio aparte, &lt;strong>Hubble Relay&lt;/strong>, agrega los streams de todos los nodos y te da una única API cluster-wide. Por encima de eso: una CLI (&lt;code>hubble&lt;/code>) y una UI web con grafo de servicios en tiempo real.&lt;/p>
&lt;p>Cero copia adicional. Cero parsing duplicado. Y el resultado lo entiende cualquiera que sepa qué es un Pod.&lt;/p>
&lt;h2 id="arquitectura-cuatro-piezas-que-se-ven-desde-fuera">Arquitectura: cuatro piezas que se ven desde fuera&lt;/h2>
&lt;p>Hubble se compone de cuatro componentes lógicos, todos opcionales según lo que quieras hacer:&lt;/p>
&lt;h3 id="1-hubble-server-embedded-en-cada-agent-cilium">1. Hubble Server (embedded en cada agent Cilium)&lt;/h3>
&lt;p>Vive &lt;strong>dentro del proceso del agent Cilium&lt;/strong> (no es un binario aparte). Cada nodo expone localmente un endpoint gRPC en el socket Unix &lt;code>/var/run/cilium/hubble.sock&lt;/code>. El server escucha los eventos que los programas eBPF emiten al ringbuffer, los enriquece con metadata Kubernetes (que el agent ya tiene en memoria), y los pone disponibles para consumidores.&lt;/p>
&lt;p>Activación: &lt;code>--set hubble.enabled=true&lt;/code> en el chart Helm de Cilium. Por defecto, el server &lt;strong>solo es accesible localmente&lt;/strong>; si quieres consumirlo desde otro nodo, hace falta exponerlo (lo que hace Hubble Relay).&lt;/p>
&lt;h3 id="2-hubble-relay-agregador">2. Hubble Relay (agregador)&lt;/h3>
&lt;p>Es un Deployment aparte (típicamente 1 réplica, escalable) que &lt;strong>se conecta a todos los Hubble servers del cluster&lt;/strong> y &lt;strong>agrega sus streams en una única API&lt;/strong>. Cuando tu CLI o UI pide &amp;ldquo;los últimos 1000 flows del cluster&amp;rdquo;, la Relay los recoge en paralelo de todos los nodos y devuelve la unión.&lt;/p>
&lt;p>Activación: &lt;code>--set hubble.relay.enabled=true&lt;/code>. Sin la Relay, solo ves el tráfico del nodo donde estás conectado, lo que es útil para debug local pero no para visión cluster-wide.&lt;/p>
&lt;h3 id="3-hubble-cli-hubble">3. Hubble CLI (&lt;code>hubble&lt;/code>)&lt;/h3>
&lt;p>Un binario en Go que habla gRPC con la Relay (o con un Hubble server local). Soporta dos modos principales:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>hubble observe&lt;/code>&lt;/strong>: stream de flows en tiempo real, con filtros muy expresivos (por namespace, pod, port, verdict, protocolo, label).&lt;/li>
&lt;li>&lt;strong>&lt;code>hubble status&lt;/code>&lt;/strong>: estado del cluster Hubble (cuántos nodos conectados, lag, flow rate).&lt;/li>
&lt;/ul>
&lt;p>Y el equivalente a &lt;code>tcpdump&lt;/code>&amp;rsquo;s pcap dump: &lt;code>hubble observe --output jsonpb &amp;gt; flows.json&lt;/code> para procesar a posteriori con &lt;code>jq&lt;/code> u otras herramientas.&lt;/p>
&lt;h3 id="4-hubble-ui">4. Hubble UI&lt;/h3>
&lt;p>Frontend web que se conecta a Hubble Relay y muestra:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Grafo de servicios&lt;/strong> en tiempo real (qué Pod habla con qué Service, qué protocolos usa, qué verdict).&lt;/li>
&lt;li>&lt;strong>Lista de flows&lt;/strong> filtrable.&lt;/li>
&lt;li>&lt;strong>Detalles L7&lt;/strong> cuando los hay (HTTP method/path/status, DNS query/response).&lt;/li>
&lt;/ul>
&lt;p>Activación: &lt;code>--set hubble.ui.enabled=true&lt;/code>. Útil para presentaciones a equipos no-CLI; no sustituye a la CLI para debug serio.&lt;/p>
&lt;div class="diagram" style="max-width:720px;margin:1.5rem auto;">
&lt;svg viewBox="0 0 720 290" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Arquitectura de Hubble">
&lt;style>.title{font:600 13px sans-serif;fill:#222}.lbl{font:600 12px sans-serif;fill:#222}.sm{font:11px sans-serif;fill:#555}.box{stroke:#444;stroke-width:1.4}.k{fill:#ffe9d6}.s{fill:#d6eaff}.r{fill:#d9f5d6}.c{fill:#e9d6f5}.arr{stroke:#666;stroke-width:1.4;fill:none;marker-end:url(#hh)}&lt;/style>
&lt;defs>&lt;marker id="hh" viewBox="0 0 10 10" refX="9" refY="5" markerWidth="6" markerHeight="6" orient="auto">&lt;path d="M0,0 L10,5 L0,10 z" fill="#666"/>&lt;/marker>&lt;/defs>
&lt;text x="360" y="18" text-anchor="middle" class="title">Arquitectura Hubble: 4 piezas, eBPF como única fuente de datos&lt;/text>
&lt;rect x="30" y="40" width="200" height="50" rx="6" class="box k"/>
&lt;text x="130" y="60" text-anchor="middle" class="lbl">eBPF (kernel)&lt;/text>
&lt;text x="130" y="78" text-anchor="middle" class="sm">programs de Cilium&lt;/text>
&lt;rect x="30" y="115" width="200" height="50" rx="6" class="box s"/>
&lt;text x="130" y="135" text-anchor="middle" class="lbl">Hubble Server (nodo)&lt;/text>
&lt;text x="130" y="153" text-anchor="middle" class="sm">grpc local, dentro del agent&lt;/text>
&lt;rect x="270" y="115" width="180" height="50" rx="6" class="box s"/>
&lt;text x="360" y="135" text-anchor="middle" class="lbl">Hubble Server (nodo N)&lt;/text>
&lt;text x="360" y="153" text-anchor="middle" class="sm">uno por nodo&lt;/text>
&lt;rect x="490" y="115" width="200" height="50" rx="6" class="box s"/>
&lt;text x="590" y="135" text-anchor="middle" class="lbl">Hubble Server (nodo …)&lt;/text>
&lt;text x="590" y="153" text-anchor="middle" class="sm">N agents = N servers&lt;/text>
&lt;rect x="220" y="190" width="280" height="50" rx="6" class="box r"/>
&lt;text x="360" y="210" text-anchor="middle" class="lbl">Hubble Relay (Deployment)&lt;/text>
&lt;text x="360" y="228" text-anchor="middle" class="sm">agrega streams gRPC de todos los nodos&lt;/text>
&lt;rect x="80" y="245" width="160" height="35" rx="6" class="box c"/>
&lt;text x="160" y="266" text-anchor="middle" class="lbl">Hubble CLI&lt;/text>
&lt;rect x="290" y="245" width="160" height="35" rx="6" class="box c"/>
&lt;text x="370" y="266" text-anchor="middle" class="lbl">Hubble UI&lt;/text>
&lt;rect x="500" y="245" width="180" height="35" rx="6" class="box c"/>
&lt;text x="590" y="266" text-anchor="middle" class="lbl">Prometheus / OTLP&lt;/text>
&lt;path class="arr" d="M130,90 L130,115"/>
&lt;path class="arr" d="M130,165 L290,190"/>
&lt;path class="arr" d="M360,165 L360,190"/>
&lt;path class="arr" d="M590,165 L430,190"/>
&lt;path class="arr" d="M340,240 L200,245"/>
&lt;path class="arr" d="M360,240 L370,245"/>
&lt;path class="arr" d="M380,240 L560,245"/>
&lt;/svg>
&lt;/div>
&lt;h2 id="qué-se-ve-el-flow-log-de-hubble-por-dentro">Qué se ve: el flow log de Hubble por dentro&lt;/h2>
&lt;p>Un flow de Hubble en formato JSON tiene aproximadamente esta forma (simplificado):&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-json" data-lang="json">&lt;span class="line">&lt;span class="cl">&lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;time&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;2026-05-19T03:12:45.182Z&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;verdict&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;FORWARDED&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;source&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;ID&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">5482&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;identity&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">24871&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;namespace&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;prod-api&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;labels&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;app=checkout&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="s2">&amp;#34;team=payments&amp;#34;&lt;/span>&lt;span class="p">],&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;pod_name&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;checkout-7c9f-x8j2&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;workloads&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">[{&lt;/span>&lt;span class="nt">&amp;#34;name&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;checkout&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="nt">&amp;#34;kind&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;Deployment&amp;#34;&lt;/span>&lt;span class="p">}]&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="p">},&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;destination&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;ID&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">12041&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;identity&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">18356&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;namespace&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;prod-db&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;labels&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;app=postgres&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="s2">&amp;#34;tier=primary&amp;#34;&lt;/span>&lt;span class="p">],&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;pod_name&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;postgres-0&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="p">},&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;Type&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;L3_L4&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;l4&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;TCP&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;source_port&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">41982&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;destination_port&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">5432&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;flags&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>&lt;span class="nt">&amp;#34;SYN&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="kc">true&lt;/span>&lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="p">},&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;node_name&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;rke2-worker-03&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;Summary&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;TCP Flags: SYN&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cuando hay parsing L7 activo (vía Envoy embebido o el parser ligero de Hubble), el mismo flujo añade:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-json" data-lang="json">&lt;span class="line">&lt;span class="cl">&lt;span class="s2">&amp;#34;l7&amp;#34;&lt;/span>&lt;span class="err">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;type&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;REQUEST&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;http&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">{&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;code&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="mi">200&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;method&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;GET&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;url&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;/api/v1/cart/items&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;protocol&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;HTTP/1.1&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="nt">&amp;#34;headers&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="p">[{&lt;/span>&lt;span class="nt">&amp;#34;key&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;user-agent&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="nt">&amp;#34;value&amp;#34;&lt;/span>&lt;span class="p">:&lt;/span> &lt;span class="s2">&amp;#34;checkout/1.4.2&amp;#34;&lt;/span>&lt;span class="p">}]&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="p">}&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Los protocolos soportados nativamente para parsing L7:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>HTTP/1.1 y HTTP/2&lt;/strong> (incluyendo gRPC sobre HTTP/2).&lt;/li>
&lt;li>&lt;strong>DNS&lt;/strong> (queries y responses, con domains, tipos, response codes).&lt;/li>
&lt;li>&lt;strong>Kafka&lt;/strong> (topics, API keys).&lt;/li>
&lt;li>&lt;strong>TLS handshake&lt;/strong> (SNI, no el payload cifrado por defecto).&lt;/li>
&lt;li>&lt;strong>MySQL, Cassandra&lt;/strong> (con módulos opcionales).&lt;/li>
&lt;/ul>
&lt;p>Para HTTP y gRPC, Cilium puede activar el proxy Envoy embebido para los flujos que quieras inspeccionar (no todos; selectivo via &lt;code>CiliumNetworkPolicy&lt;/code> con reglas L7). Sin Envoy hay parsing ligero pero menos detallado.&lt;/p>
&lt;h2 id="verdict-y-atribución-de-drops">Verdict y atribución de drops&lt;/h2>
&lt;p>Cada flow tiene un &lt;code>verdict&lt;/code>: &lt;code>FORWARDED&lt;/code>, &lt;code>DROPPED&lt;/code>, &lt;code>ERROR&lt;/code>, &lt;code>AUDIT&lt;/code>, &lt;code>REDIRECTED&lt;/code>, &lt;code>TRACED&lt;/code>, &lt;code>TRANSLATED&lt;/code>. Para el caso &lt;code>DROPPED&lt;/code>, Hubble incluye una &lt;strong>razón estructurada&lt;/strong> (&lt;code>drop_reason&lt;/code>) y, desde Cilium 1.19, &lt;strong>la NetworkPolicy exacta&lt;/strong> que lo causó.&lt;/p>
&lt;p>Esto último cambia la operativa. Antes, cuando un pod no podía hablar con otro, el flujo de debug era:&lt;/p>
&lt;ol>
&lt;li>Ver el flow dropeado en Hubble.&lt;/li>
&lt;li>Mirar todas las CiliumNetworkPolicy del namespace.&lt;/li>
&lt;li>Razonar a mano cuál de ellas, con cuáles labels, lo está bloqueando.&lt;/li>
&lt;/ol>
&lt;p>Con la atribución de Cilium 1.19, el campo &lt;code>policy_match_info&lt;/code> te dice directamente &amp;ldquo;lo dropeó la policy &lt;code>frontend-egress&lt;/code>, regla 3&amp;rdquo;. Pasas de &amp;ldquo;Sherlock Holmes durante 20 minutos&amp;rdquo; a &amp;ldquo;kubectl get -o yaml de esa policy concreta&amp;rdquo;.&lt;/p>
&lt;h2 id="métricas-prometheus-y-dashboards-grafana">Métricas Prometheus y dashboards Grafana&lt;/h2>
&lt;p>Hubble también expone &lt;strong>métricas agregadas&lt;/strong> en formato Prometheus, separadas del stream gRPC de flows. Activación: &lt;code>--set hubble.metrics.enabled=true&lt;/code> (Helm) y enumeración del set que quieres exportar.&lt;/p>
&lt;p>Los grupos de métricas habituales:&lt;/p>
&lt;ul>
&lt;li>&lt;code>flow&lt;/code>: total flows por verdict, source/dest, protocolo.&lt;/li>
&lt;li>&lt;code>http&lt;/code>: requests por método, código de respuesta, latencia (histograma).&lt;/li>
&lt;li>&lt;code>dns&lt;/code>: queries, response codes, dominios top-N.&lt;/li>
&lt;li>&lt;code>tcp&lt;/code>: handshakes, retransmisiones, ventana congestion.&lt;/li>
&lt;li>&lt;code>drop&lt;/code>: drops por razón, con NetworkPolicy attribution.&lt;/li>
&lt;li>&lt;code>port-distribution&lt;/code>: histograma de ports activos.&lt;/li>
&lt;li>&lt;code>policy&lt;/code>: hits por policy y verdict.&lt;/li>
&lt;/ul>
&lt;p>Estas métricas tienen labels K8s ricos (&lt;code>source_workload&lt;/code>, &lt;code>destination_workload&lt;/code>, &lt;code>namespace&lt;/code>, etc.) que las hacen pivotables en Grafana. Hay &lt;a href="https://grafana.com/grafana/dashboards/?search=hubble">dashboards prebuilt en Grafana Labs&lt;/a> que cubren los casos comunes; importar uno y tener visión inmediata cuesta cinco minutos.&lt;/p>
&lt;p>Coste: las métricas con muchos labels K8s pueden &lt;strong>explotar la cardinalidad&lt;/strong> en Prometheus. Para clusters grandes (&amp;gt;1 000 pods), conviene revisar qué set exportas y usar &lt;strong>drop rules&lt;/strong> en Prometheus para limitar.&lt;/p>
&lt;h2 id="despliegue-helm-en-una-pantalla">Despliegue: Helm en una pantalla&lt;/h2>
&lt;p>Instalación canónica de Cilium con Hubble completo:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="c"># values.yaml&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">hubble&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">metrics&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">dns:query;ignoreAAAA&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">drop&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">tcp&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">flow&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">port-distribution&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">icmp&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">httpV2:exemplars=true;labelsContext=source_ip,source_namespace,source_workload,destination_ip,destination_namespace,destination_workload,traffic_direction&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">serviceMonitor&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># auto-discover por kube-prometheus-stack&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">relay&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">rollOutPods&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">ui&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">rollOutPods&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">ingress&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">enabled&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">className&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">hosts&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="l">hubble.example.local&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Y la instalación:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">helm upgrade --install cilium cilium/cilium -n kube-system -f values.yaml
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Tras la instalación, valida con &lt;code>cilium status&lt;/code> (CLI de Cilium) que la sección Hubble muestra OK, y prueba el primer flow con:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">cilium hubble observe --namespace prod-api --pod checkout-7c9f-x8j2
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;h2 id="estado-del-arte-en-2026">Estado del arte en 2026&lt;/h2>
&lt;p>&lt;a href="https://www.infoq.com/news/2026/02/cilium-119/">Cilium 1.19 se publicó en febrero de 2026&lt;/a> marcando el décimo aniversario del proyecto. Hubble alcanzó la versión 1.19.3 el 22 de abril de 2026. Las novedades relevantes:&lt;/p>
&lt;h3 id="atribución-directa-de-drops-a-networkpolicy">Atribución directa de drops a NetworkPolicy&lt;/h3>
&lt;p>Ya cubierta arriba; es probablemente el cambio operacional más valioso del release. Cualquier flow dropeado lleva el nombre, namespace y regla específica de la policy responsable. Aplicable también vía métricas Prometheus, lo que permite alertas tipo &amp;ldquo;policy X está dropping &amp;gt;N peticiones/segundo&amp;rdquo;.&lt;/p>
&lt;h3 id="tracing-con-ip-options">Tracing con IP options&lt;/h3>
&lt;p>Hubble puede ahora &lt;strong>trazar paquetes individuales con IP options&lt;/strong> activado. Es un mecanismo similar al traceroute pero a nivel L3: pones una marca en el paquete y Cilium la reporta cada vez que el paquete atraviesa un nodo o una decisión de eBPF. Útil para debug de paths multi-cluster, fabric mesh, o NetworkPolicy que se aplican en distintas capas.&lt;/p>
&lt;h3 id="filtrado-por-estado-de-cifrado">Filtrado por estado de cifrado&lt;/h3>
&lt;p>Nuevo flag en CLI: &lt;code>hubble observe --encryption-status=encrypted&lt;/code> (o &lt;code>unencrypted&lt;/code>). Útil para validar despliegues con WireGuard o IPsec activado pod-a-pod: confirmas que el tráfico que &lt;strong>debería&lt;/strong> estar cifrado lo está, y detectas regresiones rápidamente.&lt;/p>
&lt;h3 id="hubble-field-mask-api-estabilizado">Hubble field mask API estabilizado&lt;/h3>
&lt;p>El &lt;code>field_mask&lt;/code> permite pedir solo las partes del flow que te interesan, reduciendo enormemente el ancho de banda y el procesamiento cuando solo necesitas, por ejemplo, source/dest y verdict. Antes era experimental, ahora está estable y es &lt;strong>default-on&lt;/strong> en la CLI.&lt;/p>
&lt;h3 id="ai-driven-anomaly-detection-predictive-security">AI-driven anomaly detection (predictive security)&lt;/h3>
&lt;p>Esta es la incorporación más comentada de 2026. Cilium 1.19 añade hooks para que un consumer externo —típicamente un sistema ML— procese los flows en streaming y detecte anomalías estadísticas: pods que de pronto hablan con destinos nuevos, picos de latencia en una API, secuencias raras de DNS. La parte de &lt;strong>detección&lt;/strong> ocurre fuera del agent Cilium (no se quiere ML pesado en el datapath), pero Cilium expone los flows con las features pre-calculadas que el modelo necesita. Los casos de uso publicados se enfocan en &lt;strong>IoT y 5G&lt;/strong> donde el tráfico es alto en volumen y bajo en variedad, condiciones ideales para anomaly detection.&lt;/p>
&lt;h3 id="escala-a-10-000-pods">Escala a 10 000+ pods&lt;/h3>
&lt;p>Cilium 1.19 ha hecho trabajo serio en escalabilidad: Hubble Relay puede ahora agregar streams de cientos de nodos sin saturar; el field_mask por defecto reduce el ancho de banda inter-nodo; y los flows pueden samplearse en alta carga si tu uso es análisis estadístico (no debug forense).&lt;/p>
&lt;h3 id="cilium-120-en-desarrollo">Cilium 1.20 en desarrollo&lt;/h3>
&lt;p>&lt;a href="https://docs.cilium.io/en/latest/operations/upgrade/">Cilium 1.20&lt;/a> está en branch de desarrollo. Lo más relevante para Hubble:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Unificación de &lt;code>preferIpv6&lt;/code>&lt;/strong>: el flag &lt;code>hubble.preferIpv6&lt;/code> se deprecó en favor del global &lt;code>preferIpv6&lt;/code> aplicable a todos los componentes Cilium.&lt;/li>
&lt;li>&lt;strong>&lt;code>tetragon-python&lt;/code> SDK&lt;/strong>: aunque es de Tetragon, no de Hubble, marca tendencia: políticas eBPF escritas en Python en lugar de YAML. Probablemente Hubble seguirá camino similar.&lt;/li>
&lt;/ul>
&lt;h2 id="la-nueva-frontera-ebpf-y-los-agentes-de-ia">La nueva frontera: eBPF y los agentes de IA&lt;/h2>
&lt;p>Hasta aquí el contenido clásico de Hubble. Pero hay un giro 2026 que merece la pena cubrir porque cierra el círculo con la otra serie de este blog.&lt;/p>
&lt;p>Cuando un cluster Kubernetes empieza a ejecutar &lt;strong>agentes de IA&lt;/strong> —Claude Code, Gemini CLI, agentes basados en LangGraph que llaman APIs y MCP servers—, el problema de observabilidad cambia de forma. Ya no basta con saber &amp;ldquo;qué pod habló con qué pod&amp;rdquo; (eso es Hubble) ni &amp;ldquo;qué proceso ejecutó qué&amp;rdquo; (eso es Tetragon). Necesitas saber:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>A qué APIs externas está llamando el agente&lt;/strong> y con qué prompts.&lt;/li>
&lt;li>&lt;strong>Qué herramientas MCP está invocando&lt;/strong>, con qué argumentos.&lt;/li>
&lt;li>&lt;strong>Cuántos tokens consume&lt;/strong>, qué modelo elige, cuánto cuesta.&lt;/li>
&lt;li>&lt;strong>Si el agente se desvía&lt;/strong> del comportamiento esperado (out-of-policy queries, intentos de jailbreak, leakage de secretos).&lt;/li>
&lt;/ul>
&lt;p>Las soluciones tradicionales —instrumentar el código del agente con OpenTelemetry, parsear logs estructurados— no funcionan bien cuando el agente es un binario de terceros (Claude Code de Anthropic, Gemini CLI de Google) o cuando los MCP servers viven en otros lenguajes con stdio como transport.&lt;/p>
&lt;h3 id="agentsight-zero-instrumentation-para-agentes-llm">AgentSight: zero-instrumentation para agentes LLM&lt;/h3>
&lt;p>&lt;a href="https://github.com/eunomia-bpf/agentsight">&lt;strong>AgentSight&lt;/strong>&lt;/a> (proyecto del grupo &lt;code>eunomia-bpf&lt;/code>, mismo ecosistema de varios runtimes eBPF de alto perfil) ataca este problema con la misma filosofía que Hubble: &lt;strong>no instrumentes; escucha&lt;/strong>. Pone hooks eBPF en dos puntos críticos:&lt;/p>
&lt;ol>
&lt;li>
&lt;p>&lt;strong>uprobes en bibliotecas SSL/TLS&lt;/strong> (&lt;code>libssl&lt;/code>, &lt;code>boringssl&lt;/code>, &lt;code>rustls&lt;/code>). Captura el plaintext &lt;strong>antes&lt;/strong> del cifrado en send y &lt;strong>después&lt;/strong> del descifrado en recv. Para una llamada HTTP a &lt;code>https://api.anthropic.com/v1/messages&lt;/code>, AgentSight ve el JSON completo del prompt y la respuesta &lt;strong>sin descifrar nada en transit&lt;/strong>, simplemente porque ha llegado al nivel del syscall antes de que la TLS layer haga su trabajo.&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>&lt;code>stdiocap&lt;/code> BPF&lt;/strong>: captura &lt;code>read&lt;/code>, &lt;code>write&lt;/code>, &lt;code>dup&lt;/code> sobre los file descriptors de stdin/stdout/stderr de un proceso. Esto es lo que permite observar &lt;strong>MCP servers que hablan stdio&lt;/strong> con su cliente —el patrón habitual de los servers MCP locales—. Capturas el JSON-RPC que va y viene sin que ni el cliente ni el server lo sepan.&lt;/p>
&lt;/li>
&lt;/ol>
&lt;p>Sobrecarga reportada: &lt;strong>&amp;lt;3% CPU&lt;/strong>, comparable a Hubble en su régimen.&lt;/p>
&lt;h3 id="cómo-encaja-con-hubble-y-tetragon">Cómo encaja con Hubble y Tetragon&lt;/h3>
&lt;p>Los tres se complementan limpiamente:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Hubble&lt;/strong> te dice: &amp;ldquo;el pod del agente abrió conexión TCP a &lt;code>api.anthropic.com:443&lt;/code> con verdict ALLOW&amp;rdquo;.&lt;/li>
&lt;li>&lt;strong>Tetragon&lt;/strong> te dice: &amp;ldquo;el proceso &lt;code>claude-code&lt;/code> con PID 1843 hizo &lt;code>connect()&lt;/code> a esa IP&amp;rdquo; (más el binario, los argumentos, el namespace de pod).&lt;/li>
&lt;li>&lt;strong>AgentSight&lt;/strong> te dice: &amp;ldquo;el contenido HTTPS de esa conexión era un prompt &lt;code>messages=[{role:'user', content:'analyze this repo and modify the firewall config'}]&lt;/code> y la respuesta incluyó una tool call a &lt;code>read_file&lt;/code> con argument &lt;code>/etc/passwd&lt;/code>&amp;rdquo;.&lt;/li>
&lt;/ul>
&lt;p>Es la diferencia entre &lt;strong>flujo, proceso y semántica&lt;/strong>. Para un equipo de seguridad que quiera vigilar agentes de IA en producción, los tres son necesarios. Para alguien que quiera entender el coste, los tres son útiles (Hubble para latencia de red, Tetragon para uso de recursos, AgentSight para tokens y modelo elegido).&lt;/p>
&lt;h3 id="casos-de-uso-emergentes">Casos de uso emergentes&lt;/h3>
&lt;p>Los patrones que se están consolidando en 2026:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Audit trail de agentes&lt;/strong>: registrar cada llamada a LLM y cada tool call para compliance (sobre todo en sectores regulados).&lt;/li>
&lt;li>&lt;strong>Detección de jailbreak y prompt injection&lt;/strong>: aplicar reglas sobre los prompts capturados por AgentSight (similar a las TracingPolicy de Tetragon, pero sobre contenido semántico).&lt;/li>
&lt;li>&lt;strong>Cost accountability&lt;/strong>: ver qué team/agente consume qué tokens, sin instrumentar.&lt;/li>
&lt;li>&lt;strong>Replay y debug&lt;/strong>: reproducir el reasoning de un agente en producción sin pedirle que vuelva a ejecutar (que es no-determinístico).&lt;/li>
&lt;/ul>
&lt;p>Es un campo joven —AgentSight tiene meses, no años— pero el patrón &amp;ldquo;eBPF como observabilidad zero-instrumentation&amp;rdquo; está clarísimamente extendiéndose más allá de red y proceso. El próximo año va a ver consolidación y, probablemente, integración nativa con Hubble.&lt;/p>
&lt;h2 id="casos-de-uso-habituales-de-hubble">Casos de uso habituales de Hubble&lt;/h2>
&lt;p>Volviendo a Hubble propiamente, los casos en los que cualquier organización lo despliega:&lt;/p>
&lt;h3 id="1-debug-de-networkpolicy">1. Debug de NetworkPolicy&lt;/h3>
&lt;p>El uso clásico: &amp;ldquo;este pod no llega a este Service&amp;rdquo;. Sin Hubble, tocaba SSH, tcpdump, comparar reglas. Con Hubble:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">hubble observe --from-pod prod-api/checkout --to-pod prod-db/postgres --verdict DROPPED
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Si hay drops, ves la policy responsable (Cilium 1.19+). Si no hay drops, el problema no es policy: es DNS, routing o el target service.&lt;/p>
&lt;h3 id="2-audit-de-comunicación-inter-namespace">2. Audit de comunicación inter-namespace&lt;/h3>
&lt;p>Para compliance: validar que namespaces aislados no están comunicándose contra lo declarado.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">hubble observe --from-namespace prod-payments --to-namespace &lt;span class="s1">&amp;#39;NOT prod-db&amp;#39;&lt;/span> --output json
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;h3 id="3-detección-de-exfiltración">3. Detección de exfiltración&lt;/h3>
&lt;p>Tráfico saliente a destinos públicos sospechosos. Hubble los detecta por IP/SNI, no por payload (que está cifrado):&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">hubble observe --to-fqdn &lt;span class="s1">&amp;#39;NOT *.example.com&amp;#39;&lt;/span> --to-fqdn &lt;span class="s1">&amp;#39;NOT *.internal&amp;#39;&lt;/span> --protocol tcp
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Combinado con métricas Prometheus y alertas en Grafana, esto da un radar de exfiltración a coste cero.&lt;/p>
&lt;h3 id="4-slo-de-servicio-en-tiempo-real">4. SLO de servicio en tiempo real&lt;/h3>
&lt;p>Métricas &lt;code>hubble:http:response_time_seconds&lt;/code> con labels &lt;code>source_workload&lt;/code>, &lt;code>destination_workload&lt;/code>, &lt;code>method&lt;/code>, &lt;code>status_code&lt;/code> permiten dashboards SLO sin necesidad de instrumentar las apps. El SRE ve la latencia p95 de &lt;code>checkout → catalog&lt;/code> directamente.&lt;/p>
&lt;h3 id="5-performance-debugging">5. Performance debugging&lt;/h3>
&lt;p>&lt;code>hubble:tcp:retransmissions_total&lt;/code> y &lt;code>hubble:tcp:flags_total{flag=&amp;quot;RST&amp;quot;}&lt;/code> son señales tempranas de problemas de red. Una subida correlada con regresión de latencia te apunta a algo en infraestructura (NIC, switch, MTU) antes de bajar a investigar la app.&lt;/p>
&lt;h3 id="6-forensics-post-incidente">6. Forensics post-incidente&lt;/h3>
&lt;p>Configurar Hubble para exportar flows a almacenamiento persistente (vía OTLP a Tempo/Loki, o &lt;code>hubble observe --output jsonpb&lt;/code> a S3) te da capacidad forense: si en T+30 días detectas que algo iba mal en T, puedes reconstruir el tráfico.&lt;/p>
&lt;h2 id="hubble-y-el-resto-del-stack-de-observabilidad">Hubble y el resto del stack de observabilidad&lt;/h2>
&lt;p>Hubble no reemplaza Prometheus, Loki, Tempo ni Jaeger; los complementa:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Prometheus&lt;/strong>: recibe las métricas agregadas de Hubble. Hubble exporta endpoint Prometheus nativo.&lt;/li>
&lt;li>&lt;strong>Loki&lt;/strong>: recibe los flow logs estructurados si los exportas como logs. Hubble no tiene exporter nativo a Loki, pero un Fluent Bit con plugin OTLP o uno custom hace el puente fácilmente.&lt;/li>
&lt;li>&lt;strong>Tempo / Jaeger&lt;/strong>: el Cilium Operator tiene exportador OTLP de flows en formato traces (cada flujo HTTP/gRPC es un span). Integra con Tempo o cualquier otro tracing backend OTLP.&lt;/li>
&lt;li>&lt;strong>Grafana&lt;/strong>: ya hay dashboards públicos de Hubble. Combinados con Prometheus, Loki y Tempo, te dan un panel unificado: métricas, logs, traces, todo correlado por labels K8s.&lt;/li>
&lt;/ul>
&lt;p>La pila full-stack que se ve en producción 2026 (descrita en &lt;a href="https://dev.to/x4nent/building-a-production-ebpf-observability-security-stack-for-kubernetes-in-2026-5051">Building a Production eBPF Observability &amp;amp; Security Stack for Kubernetes in 2026&lt;/a>):&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Datos&lt;/strong>: Cilium + Hubble (red), Tetragon (proceso), AgentSight (agente IA).&lt;/li>
&lt;li>&lt;strong>Pipeline&lt;/strong>: OTLP Collector como router único.&lt;/li>
&lt;li>&lt;strong>Almacenamiento&lt;/strong>: Prometheus (métricas), Loki (logs), Tempo (traces).&lt;/li>
&lt;li>&lt;strong>UI&lt;/strong>: Grafana con dashboards específicos por dominio.&lt;/li>
&lt;li>&lt;strong>Alerting&lt;/strong>: AlertManager con reglas sobre las métricas Hubble + Tetragon.&lt;/li>
&lt;/ul>
&lt;h2 id="comparativa-con-alternativas">Comparativa con alternativas&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Sistema&lt;/th>
&lt;th>Capa&lt;/th>
&lt;th>Foco&lt;/th>
&lt;th>Modelo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Hubble&lt;/strong>&lt;/td>
&lt;td>L3-L7 red&lt;/td>
&lt;td>Cluster K8s con Cilium&lt;/td>
&lt;td>eBPF, pull metrics, push flows gRPC&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>GKE Dataplane v2 obs&lt;/strong>&lt;/td>
&lt;td>L3-L7 red&lt;/td>
&lt;td>GKE managed&lt;/td>
&lt;td>eBPF (Cilium-based, gestionado)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tigera Calico Whisker&lt;/strong>&lt;/td>
&lt;td>L3-L7 red&lt;/td>
&lt;td>Cluster con Calico&lt;/td>
&lt;td>eBPF + pcap, UI propia&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tetragon&lt;/strong>&lt;/td>
&lt;td>Proceso/syscall&lt;/td>
&lt;td>Cluster K8s&lt;/td>
&lt;td>eBPF, push events gRPC&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Falco&lt;/strong>&lt;/td>
&lt;td>Proceso/syscall&lt;/td>
&lt;td>Cluster K8s&lt;/td>
&lt;td>eBPF en userspace o módulo kernel&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AgentSight&lt;/strong>&lt;/td>
&lt;td>Agente LLM&lt;/td>
&lt;td>Sistemas agentic&lt;/td>
&lt;td>eBPF (SSL uprobes + stdio)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Beyla&lt;/strong> (Grafana)&lt;/td>
&lt;td>Aplicación&lt;/td>
&lt;td>App L7 + tracing&lt;/td>
&lt;td>eBPF (uprobes en libs)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Pixie&lt;/strong>&lt;/td>
&lt;td>App + sistema&lt;/td>
&lt;td>Visibilidad cluster amplia&lt;/td>
&lt;td>eBPF + script PXL&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Parca&lt;/strong>&lt;/td>
&lt;td>Profiling CPU/mem&lt;/td>
&lt;td>Performance&lt;/td>
&lt;td>eBPF profile sampling&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Si tu CNI es Cilium, &lt;strong>Hubble es el punto de entrada natural&lt;/strong> y no compite con los demás: complementa. Para clusters Calico, Whisker es el equivalente. Para profiling, Parca. Para agentes IA, AgentSight. La era del &amp;ldquo;una herramienta para todo&amp;rdquo; está pasando: la pila moderna combina varias piezas especializadas, todas basadas en eBPF, expuestas vía OTLP.&lt;/p>
&lt;h2 id="trampas-operativas">Trampas operativas&lt;/h2>
&lt;h3 id="cardinalidad-en-prometheus">Cardinalidad en Prometheus&lt;/h3>
&lt;p>Las métricas Hubble con todos los labels K8s pueden explotar Prometheus. &lt;strong>Mide la cardinalidad antes de exportar todo&lt;/strong>. Las métricas más prolíficas son &lt;code>flow&lt;/code> y &lt;code>httpV2&lt;/code>; empieza por &lt;code>drop&lt;/code> y &lt;code>port-distribution&lt;/code> y añade el resto incrementalmente.&lt;/p>
&lt;h3 id="l7-visibility-cuesta-cpu">L7 visibility cuesta CPU&lt;/h3>
&lt;p>Activar parsing L7 vía Envoy embebido añade carga al agent (no al datapath base, pero sí al envoy proxy del nodo). Para tráfico HTTP intenso, mide. Para flujos donde solo necesitas L4, deja Envoy desactivado.&lt;/p>
&lt;h3 id="hubble-relay-sin-ha">Hubble Relay sin HA&lt;/h3>
&lt;p>Una sola réplica de Relay es un single point of failure para CLI y UI (no para el agent local, que sigue funcionando). Para producción, deploy con &lt;code>replicas: 2+&lt;/code> y &lt;code>topologySpreadConstraints&lt;/code> para que no caigan ambas.&lt;/p>
&lt;h3 id="encryption-status-reporting-depende-de-cilium-config">Encryption status reporting depende de Cilium config&lt;/h3>
&lt;p>El nuevo filtro &lt;code>--encryption-status&lt;/code> solo da datos reales si Cilium tiene encryption activado (WireGuard o IPsec). Sin esto, todo es &lt;code>unencrypted&lt;/code> y el filtro no aporta.&lt;/p>
&lt;h3 id="ui-expuesta-sin-auth">UI expuesta sin auth&lt;/h3>
&lt;p>Hubble UI no tiene auth nativa. Si la expones por Ingress, &lt;strong>delante tiene que haber autenticación&lt;/strong>: OIDC vía oauth2-proxy, mTLS, IP allowlist. No es opcional.&lt;/p>
&lt;h3 id="storage-no-escalado">Storage no escalado&lt;/h3>
&lt;p>Si guardas flows durante días para forensics, el volumen es serio. Para un cluster de 100 pods activos, fácilmente 1-10 GB/día de flow logs. Plantea el ciclo de vida (compactación, retención, cold storage) antes de habilitarlo.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto">Lo que no hemos cubierto&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>Mesh / multi-cluster Hubble&lt;/strong>: agregar flows de varios clusters Cilium en una sola Relay. Caso de uso: visión cross-cluster, debug de service mesh distribuido.&lt;/li>
&lt;li>&lt;strong>&lt;code>hubble export&lt;/code>&lt;/strong>: persistencia local en disco del agent para forensics con baja retención.&lt;/li>
&lt;li>&lt;strong>Anomaly detection con modelos propios&lt;/strong>: cómo conectar el stream gRPC a un consumer ML personalizado.&lt;/li>
&lt;li>&lt;strong>AgentSight en profundidad&lt;/strong>: el proyecto merece su propio artículo. Próxima entrega.&lt;/li>
&lt;li>&lt;strong>eBPF para profiling de LLM serving&lt;/strong>: cómo medir TTFT, TPOT y throughput de vLLM sin instrumentar, usando uprobes en libcudart.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>Hubble y Cilium:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://github.com/cilium/hubble">Hubble GitHub&lt;/a> — repo principal.&lt;/li>
&lt;li>&lt;a href="https://docs.cilium.io/en/stable/observability/hubble/">Hubble — Network Observability (Cilium docs)&lt;/a> — referencia oficial.&lt;/li>
&lt;li>&lt;a href="https://www.infoq.com/news/2026/02/cilium-119/">Cilium 1.19 release notes (InfoQ, feb 2026)&lt;/a> — décimo aniversario y novedades 1.19.&lt;/li>
&lt;li>&lt;a href="https://github.com/cilium/cilium/releases">Cilium releases&lt;/a> — todos los releases.&lt;/li>
&lt;li>&lt;a href="https://grafana.com/grafana/dashboards/19423-hubble-l7-http-metrics-by-workload/">Hubble L7 HTTP Metrics — Grafana dashboard 19423&lt;/a> — listo para importar.&lt;/li>
&lt;li>&lt;a href="https://cloud-cod.com/index.php/2026/03/03/end-to-end-l7-visibility-with-cilium-hubble/">End‑to‑end L7 Visibility with Cilium Hubble (cloud-cod.com, mar 2026)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.youngju.dev/blog/cilium/cilium_hubble_observability.en">Cilium Hubble Observability Platform Internal Analysis (Young-ju)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://johal.in/ciliumnetworkpolicy-python-hubble-l7-visibility-2026/">CiliumNetworkPolicy Python Hubble: L7 Visibility 2026&lt;/a> — uno de los hilos del SDK Python.&lt;/li>
&lt;/ul>
&lt;p>Estado del arte 2026 y stack completo:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://dev.to/x4nent/building-a-production-ebpf-observability-security-stack-for-kubernetes-in-2026-5051">Building a Production eBPF Observability &amp;amp; Security Stack for Kubernetes in 2026 (DEV)&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://www.cloudraft.io/blog/ebpf-based-network-observability-using-cilium-hubble">eBPF-Based Network Observability: Exploring Cilium Hubble and Alternatives (CloudRaft)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>eBPF + agentes IA:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://github.com/eunomia-bpf/agentsight">AgentSight (GitHub eunomia-bpf)&lt;/a> — el proyecto referenciado.&lt;/li>
&lt;li>&lt;a href="https://klizosolutions.medium.com/harnessing-ebpf-for-high-performance-llm-workloads-a-cloud-native-guide-efb7d73e19ed">Harnessing eBPF for High‑Performance LLM Workloads (Klizo Solutions)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Cross-references:&lt;/p>
&lt;ul>
&lt;li>Parte 1: &lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium&lt;/a>.&lt;/li>
&lt;li>Parte 2: &lt;a href="https://blog.lo0.es/posts/tetragon-runtime-security/">Tetragon: el primo de seguridad de Cilium&lt;/a>.&lt;/li>
&lt;li>Serie de inferencia LLM: &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache&lt;/a>, &lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en K8s&lt;/a>, &lt;a href="https://blog.lo0.es/posts/pagedattention-deep-dive/">PagedAttention&lt;/a>, &lt;a href="https://blog.lo0.es/posts/operators-llm-kubernetes/">Operators LLM K8s&lt;/a> — donde el tráfico que Hubble observa lleva los prompts que AgentSight inspecciona.&lt;/li>
&lt;/ul></description></item><item><title>Tetragon: el primo de seguridad de Cilium que ve cada syscall en el kernel</title><link>https://blog.lo0.es/posts/tetragon-runtime-security/</link><pubDate>Tue, 19 May 2026 05:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/tetragon-runtime-security/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>&lt;a href="https://tetragon.io/">Tetragon&lt;/a> es el motor de &lt;strong>seguridad y observabilidad de runtime&lt;/strong> que el proyecto Cilium publicó como complemento al CNI. Su trabajo no es enrutar paquetes —para eso ya está Cilium— sino &lt;strong>observar lo que pasa dentro de los procesos del nodo en tiempo real&lt;/strong>: qué binario se ejecuta en cada pod, qué archivos abre, qué syscalls invoca, qué capabilities pide, qué conexiones de red establece, qué módulos del kernel se cargan. Lo hace cargando programas eBPF en los &lt;strong>hook points&lt;/strong> del kernel (kprobes, tracepoints, uprobes, LSM hooks) y filtrando los eventos relevantes &lt;strong>dentro del propio kernel&lt;/strong> con un lenguaje declarativo expresado como CRD (&lt;code>TracingPolicy&lt;/code> y &lt;code>TracingPolicyNamespaced&lt;/code>). El resultado es un flujo de eventos enriquecidos con metadata Kubernetes (pod, namespace, labels) que cuesta &lt;strong>menos del 1% de CPU&lt;/strong> y, lo que diferencia a Tetragon de la competencia, puede &lt;strong>bloquear acciones dentro del kernel&lt;/strong> —matar el proceso con &lt;code>SIGKILL&lt;/code> o sobrescribir el retorno de un syscall— &lt;strong>antes de que terminen de ejecutarse&lt;/strong>, sin race conditions. Frente a Falco (que parsea syscalls en userspace, 5-10% overhead, detection-only), Tetragon es &amp;ldquo;más barato y con enforcement&amp;rdquo;; frente al kernel desnudo, es &amp;ldquo;una capa declarativa que tu compañero de operaciones puede leer&amp;rdquo;. Este artículo es la introducción extensa que necesitas para abordarlo en serio: arquitectura, todos los hooks y selectors, los modos de operación, una guía de casos de uso (auditoría de exec, acceso a archivos sensibles, container escape, cryptomining, detección de rootkits, observabilidad de red) y las trampas que se ven en producción.&lt;/p>
&lt;blockquote>
&lt;p>Este artículo es la &lt;strong>parte 2 de la serie sobre eBPF&lt;/strong>. La parte 1 —&lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium: cómo el kernel aprendió a saltarse su propia pila TCP/IP&lt;/a>— cubrió eBPF básico, los hooks de networking (XDP, TC, sock_ops), cómo Cilium implementa el datapath y los CRDs del BGP Control Plane v2. Aquí cogemos esos mismos hooks de eBPF y los usamos para algo distinto: &lt;strong>observar y, si hace falta, frenar&lt;/strong> lo que hacen los procesos del cluster.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-auditd-con-esteroides-en-ebpf">La analogía: auditd con esteroides en eBPF&lt;/h2>
&lt;p>Quien lleve unos años administrando Linux ha usado &lt;code>auditd&lt;/code>. Es el subsistema clásico del kernel para auditar syscalls: configuras una regla con &lt;code>auditctl&lt;/code> (por ejemplo, &amp;ldquo;monitoriza cualquier &lt;code>open&lt;/code> sobre &lt;code>/etc/shadow&lt;/code>&amp;rdquo;) y el kernel envía eventos a un daemon en userspace que los persiste. Funciona, pero tiene dos limitaciones que pesan en clusters Kubernetes modernos:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Sin contexto Kubernetes.&lt;/strong> auditd reporta procesos por PID y UID. Saber qué pod, qué namespace, qué imagen, qué labels —la información que de verdad importa para responder a un incidente— requiere correlar a posteriori con datos de cri-o o containerd. Es operacionalmente miserable.&lt;/li>
&lt;li>&lt;strong>Sin enforcement granular.&lt;/strong> auditd puede generar eventos, pero no puede tomar la decisión de matar el proceso ofensor antes de que termine la syscall. Eso lo dejas a una capa superior que lee los eventos, los procesa y mata el proceso… si llega a tiempo. Carrera por design.&lt;/li>
&lt;/ol>
&lt;p>Tetragon es &lt;strong>auditd con esteroides&lt;/strong>: las mismas ideas conceptuales —hooks en syscalls, eventos a userspace— pero implementadas con eBPF moderno, con filtrado dentro del kernel para no pagar el coste de despertar el daemon por cada syscall irrelevante, con metadata Kubernetes inyectada por un agente que conoce el cluster, y con &lt;strong>acciones que se ejecutan dentro del propio kernel&lt;/strong> sin esperar a que userspace decida. Si la regla dice &amp;ldquo;mata cualquier proceso que abra &lt;code>/etc/shadow&lt;/code> desde el namespace &lt;code>prod&lt;/code>&amp;rdquo;, la decisión se toma en el kprobe del kernel y &lt;code>SIGKILL&lt;/code> se entrega antes de que el &lt;code>open&lt;/code> se complete. No hay race; no hay ventana entre detección y acción.&lt;/p>
&lt;h2 id="qué-es-tetragon-arquitectónicamente">Qué es Tetragon, arquitectónicamente&lt;/h2>
&lt;p>Tetragon es &lt;strong>un agent&lt;/strong> que se despliega como &lt;code>DaemonSet&lt;/code> (un pod por nodo) y &lt;strong>un conjunto de CRDs&lt;/strong> que definen las políticas a aplicar. El agent tiene cuatro responsabilidades:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Cargar programas eBPF&lt;/strong> en los hook points que las TracingPolicies activas demanden.&lt;/li>
&lt;li>&lt;strong>Mantener un cache de metadata Kubernetes&lt;/strong> (pods, namespaces, labels) leyendo el API server, para poder enriquecer cada evento con el contexto correcto.&lt;/li>
&lt;li>&lt;strong>Recolectar los eventos&lt;/strong> que los programas eBPF emiten (vía ring buffers) y serializarlos.&lt;/li>
&lt;li>&lt;strong>Exportar los eventos&lt;/strong> a destinos configurables: &lt;code>stdout&lt;/code> JSON (típico en sidecars o agentes log-collection), gRPC streaming (para consumirlos desde Hubble u otro consumer), archivo, o Fluentd/Loki/SIEM.&lt;/li>
&lt;/ol>
&lt;p>Los programas eBPF no son escritos por el usuario. Tetragon genera el bytecode a partir de las TracingPolicies: lee la política declarativa, decide qué hooks atacar, qué argumentos leer del kernel, qué filtros aplicar en línea y qué acciones ejecutar. El usuario solo escribe &lt;strong>YAML&lt;/strong>.&lt;/p>
&lt;div class="diagram" style="max-width:720px;margin:1.5rem auto;">
&lt;svg viewBox="0 0 720 280" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Arquitectura de Tetragon">
&lt;style>.title{font:600 13px sans-serif;fill:#222}.lbl{font:600 12px sans-serif;fill:#222}.sm{font:11px sans-serif;fill:#555}.box{stroke:#444;stroke-width:1.4}.k{fill:#ffe9d6}.u{fill:#d6eaff}.p{fill:#d9f5d6}.api{fill:#e9d6f5}.arr{stroke:#666;stroke-width:1.4;fill:none;marker-end:url(#h)}&lt;/style>
&lt;defs>&lt;marker id="h" viewBox="0 0 10 10" refX="9" refY="5" markerWidth="6" markerHeight="6" orient="auto">&lt;path d="M0,0 L10,5 L0,10 z" fill="#666"/>&lt;/marker>&lt;/defs>
&lt;text x="360" y="20" text-anchor="middle" class="title">Tetragon: planos de control y datos en un nodo&lt;/text>
&lt;rect x="40" y="50" width="200" height="70" rx="6" class="box k"/>
&lt;text x="140" y="70" text-anchor="middle" class="lbl">Programas eBPF&lt;/text>
&lt;text x="140" y="90" text-anchor="middle" class="sm">kprobes, tracepoints,&lt;/text>
&lt;text x="140" y="105" text-anchor="middle" class="sm">uprobes, LSM&lt;/text>
&lt;rect x="40" y="160" width="200" height="60" rx="6" class="box u"/>
&lt;text x="140" y="183" text-anchor="middle" class="lbl">Tetragon agent&lt;/text>
&lt;text x="140" y="203" text-anchor="middle" class="sm">recibe eventos del ring buffer&lt;/text>
&lt;rect x="290" y="160" width="180" height="60" rx="6" class="box api"/>
&lt;text x="380" y="183" text-anchor="middle" class="lbl">Kubernetes API&lt;/text>
&lt;text x="380" y="203" text-anchor="middle" class="sm">pods, namespaces, labels&lt;/text>
&lt;rect x="510" y="50" width="180" height="70" rx="6" class="box p"/>
&lt;text x="600" y="70" text-anchor="middle" class="lbl">TracingPolicy CRDs&lt;/text>
&lt;text x="600" y="90" text-anchor="middle" class="sm">YAML declarativo&lt;/text>
&lt;text x="600" y="105" text-anchor="middle" class="sm">cluster o namespaced&lt;/text>
&lt;rect x="510" y="160" width="180" height="60" rx="6" class="box u"/>
&lt;text x="600" y="183" text-anchor="middle" class="lbl">Exporters&lt;/text>
&lt;text x="600" y="203" text-anchor="middle" class="sm">stdout, gRPC, file, SIEM&lt;/text>
&lt;path class="arr" d="M510,80 L240,80"/>
&lt;text x="375" y="74" text-anchor="middle" class="sm">policies → bytecode&lt;/text>
&lt;path class="arr" d="M140,120 L140,160"/>
&lt;text x="160" y="143" text-anchor="middle" class="sm">eventos&lt;/text>
&lt;path class="arr" d="M290,190 L240,190"/>
&lt;text x="265" y="184" text-anchor="middle" class="sm">enrich&lt;/text>
&lt;path class="arr" d="M240,180 L510,180"/>
&lt;text x="375" y="174" text-anchor="middle" class="sm">eventos enriquecidos&lt;/text>
&lt;text x="360" y="255" text-anchor="middle" class="sm">Las flechas muestran flujo de datos. Las TracingPolicies se compilan en programas eBPF;&lt;/text>
&lt;text x="360" y="270" text-anchor="middle" class="sm">los eventos viajan kernel → agent → exporter, decorados con metadata K8s por el camino.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>Esta separación &lt;strong>policy declarativa → bytecode eBPF generado&lt;/strong> es lo que hace a Tetragon usable. Escribir programas eBPF a mano es trabajo de un especialista; escribir una &lt;code>TracingPolicy&lt;/code> es trabajo de un SRE con un buen ejemplo a la vista.&lt;/p>
&lt;h2 id="los-dos-crds-tracingpolicy-y-tracingpolicynamespaced">Los dos CRDs: TracingPolicy y TracingPolicyNamespaced&lt;/h2>
&lt;p>Tetragon expone exactamente &lt;strong>dos CRDs principales&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>TracingPolicy&lt;/code>&lt;/strong> (cluster-scoped, &lt;code>cilium.io/v1alpha1&lt;/code>): se aplica a &lt;strong>todo el cluster&lt;/strong>, todos los nodos, todos los pods. Adecuada para políticas de plataforma (todo el cluster debe ser auditado igual): por ejemplo, &amp;ldquo;registra todo &lt;code>execve&lt;/code> en todos los pods&amp;rdquo; o &amp;ldquo;mata cualquier proceso que intente cargar un módulo del kernel&amp;rdquo;.&lt;/li>
&lt;li>&lt;strong>&lt;code>TracingPolicyNamespaced&lt;/code>&lt;/strong> (namespaced, mismo grupo y versión): se define dentro de un namespace y &lt;strong>solo se aplica a los pods de ese namespace&lt;/strong>. Adecuada para políticas con autonomía por tenant: por ejemplo, &amp;ldquo;en el namespace &lt;code>prod-payments&lt;/code>, mata cualquier &lt;code>connect&lt;/code> saliente a una IP fuera del rango corporativo&amp;rdquo;.&lt;/li>
&lt;/ul>
&lt;p>Ambos CRDs tienen exactamente la misma estructura interna. La diferencia es de scope. La distinción se introdujo precisamente para permitir multi-tenancy: que el equipo de seguridad central defina políticas &lt;code>TracingPolicy&lt;/code> cluster-wide y que cada tenant pueda añadir las suyas con &lt;code>TracingPolicyNamespaced&lt;/code> sin necesitar permisos cluster-admin.&lt;/p>
&lt;h2 id="anatomía-de-una-tracingpolicy">Anatomía de una TracingPolicy&lt;/h2>
&lt;p>Una política se compone de:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Hook points&lt;/strong>: qué eventos del kernel observar.&lt;/li>
&lt;li>&lt;strong>Argumentos&lt;/strong>: qué datos leer cuando el hook se dispara.&lt;/li>
&lt;li>&lt;strong>Selectors&lt;/strong>: filtros que se evalúan &lt;strong>dentro del kernel&lt;/strong> para descartar eventos no relevantes y, opcionalmente, ejecutar acciones cuando coinciden.&lt;/li>
&lt;/ol>
&lt;h3 id="hook-points-soportados">Hook points soportados&lt;/h3>
&lt;p>La documentación oficial enumera cinco familias de hook points:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>kprobes&lt;/code>&lt;/strong>: hookean una función del kernel. Las syscalls son un caso particular (cuando &lt;code>syscall: true&lt;/code>) porque su ABI es distinta del de las funciones internas. Ejemplos típicos: &lt;code>sys_open&lt;/code>, &lt;code>sys_openat&lt;/code>, &lt;code>sys_connect&lt;/code>, &lt;code>tcp_connect&lt;/code>, &lt;code>do_mount&lt;/code>, &lt;code>commit_creds&lt;/code>. Es el hook más versátil y el que se usa el 80% del tiempo.&lt;/li>
&lt;li>&lt;strong>&lt;code>tracepoints&lt;/code>&lt;/strong>: hookean tracepoints estáticos compilados en el kernel. Más estables entre versiones de kernel que los kprobes (no dependen de nombres de funciones que pueden cambiar). Ejemplos: &lt;code>syscalls/sys_enter_openat&lt;/code>, &lt;code>sched/sched_process_exec&lt;/code>.&lt;/li>
&lt;li>&lt;strong>&lt;code>uprobes&lt;/code>&lt;/strong>: hookean funciones de bibliotecas o binarios en userspace. Sirven para observar primitivas de runtime como funciones de libssl, libc, Go runtime, JVM.&lt;/li>
&lt;li>&lt;strong>&lt;code>tracepoints&lt;/code> USDT&lt;/strong> (User Statically Defined Tracepoints): tracepoints estáticos definidos en binarios userspace (como los que MySQL, PostgreSQL, OpenJDK exponen). Útiles para observabilidad de aplicaciones.&lt;/li>
&lt;li>&lt;strong>&lt;code>lsmHooks&lt;/code>&lt;/strong> (LSM, Linux Security Module): hooks del subsistema LSM, donde se enchufa SELinux/AppArmor. Permiten políticas de seguridad muy similares a las de MAC tradicional pero programables con eBPF. Ejemplo: &lt;code>file_open&lt;/code>, &lt;code>inode_unlink&lt;/code>, &lt;code>socket_bind&lt;/code>.&lt;/li>
&lt;/ul>
&lt;h3 id="argumentos">Argumentos&lt;/h3>
&lt;p>Cada hook puede leer los argumentos de la función a la que está atado. Los tipos soportados cubren los primitivos (&lt;code>int&lt;/code>, &lt;code>uint64&lt;/code>, &lt;code>bool&lt;/code>, &lt;code>string&lt;/code>, &lt;code>char_buf&lt;/code>) y abstracciones más altas (&lt;code>file&lt;/code>, &lt;code>path&lt;/code>, &lt;code>sock&lt;/code>, &lt;code>linux_binprm&lt;/code>, &lt;code>capability&lt;/code>, &lt;code>bpf_attr&lt;/code>, &lt;code>cred&lt;/code>). Los tipos altos son punteros a estructuras del kernel que Tetragon sabe parsear; en lugar de tener que leer un offset, escribes &lt;code>type: file&lt;/code> y Tetragon te da el path completo del archivo del descriptor.&lt;/p>
&lt;p>Hay un detalle importante de capacidad: en kernels &lt;strong>≥ 5.4&lt;/strong>, Tetragon puede leer &lt;strong>hasta 327 360 bytes&lt;/strong> de un argumento si se activa el flag de buffers grandes. Es la diferencia entre poder auditar &lt;code>execve&lt;/code> con todos sus argv largos completos vs truncarlos a 256 bytes y perder contexto.&lt;/p>
&lt;h3 id="selectors-filtrado-en-el-kernel">Selectors: filtrado en el kernel&lt;/h3>
&lt;p>Los selectors son lo que hace a Tetragon barato. Sin ellos, &lt;strong>cada syscall&lt;/strong> del nodo dispararía un evento que viajaría kernel → ring buffer → agent → procesado → filtrado → descartado. Con selectors, el filtrado ocurre &lt;strong>dentro del propio programa eBPF, en el kernel&lt;/strong>, y solo los eventos que importan llegan al userspace.&lt;/p>
&lt;p>Los selectors disponibles incluyen:&lt;/p>
&lt;ul>
&lt;li>&lt;code>matchArgs&lt;/code>: filtra por el valor de un argumento. Operadores: &lt;code>Equal&lt;/code>, &lt;code>NotEqual&lt;/code>, &lt;code>Prefix&lt;/code>, &lt;code>Postfix&lt;/code>, &lt;code>GreaterThan&lt;/code>, &lt;code>LessThan&lt;/code>, &lt;code>Mask&lt;/code>, &lt;code>SPort&lt;/code> (source port), &lt;code>DPort&lt;/code> (dest port), &lt;code>Family&lt;/code> (AF_INET vs AF_INET6), &lt;code>State&lt;/code> (estado del socket).&lt;/li>
&lt;li>&lt;code>matchPIDs&lt;/code>: filtra por PID; útil para targeted observation.&lt;/li>
&lt;li>&lt;code>matchBinaries&lt;/code>: filtra por el binario que ejecuta el syscall (path absoluto), con &lt;code>Operator: In&lt;/code>, &lt;code>NotIn&lt;/code>, &lt;code>Prefix&lt;/code>. Imprescindible para evitar el ruido de procesos legítimos del sistema.&lt;/li>
&lt;li>&lt;code>matchNamespaces&lt;/code>: filtra por namespace Linux (Pid, Mnt, Net, Ipc, Cgroup, User). Permite políticas específicas para procesos en contenedores vs el host.&lt;/li>
&lt;li>&lt;code>matchCapabilities&lt;/code>: filtra por capabilities efectivas del proceso. Bloquear acciones que requieran &lt;code>CAP_SYS_ADMIN&lt;/code> que se ejecuten en pods que no deberían tenerlas.&lt;/li>
&lt;li>&lt;code>matchNamespaceChanges&lt;/code>: detecta cambios de namespace (típico de container escape).&lt;/li>
&lt;li>&lt;code>matchCapabilityChanges&lt;/code>: detecta cambios de capabilities (escalada de privilegios).&lt;/li>
&lt;li>&lt;code>matchActions&lt;/code>: las acciones que se ejecutan cuando todos los matchers anteriores aciertan.&lt;/li>
&lt;/ul>
&lt;h3 id="acciones-del-simple-post-al-sigkill">Acciones: del simple Post al Sigkill&lt;/h3>
&lt;p>Cuando un selector matchea, se ejecuta una &lt;code>action&lt;/code>. Tetragon define varias:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>Post&lt;/code>&lt;/strong>: emite un evento al userspace (el caso de observability). Soporta &lt;code>rateLimit&lt;/code> para evitar inundar el agent si la condición se dispara mil veces por segundo. La sintaxis acepta &lt;code>5&lt;/code> para 5 segundos, &lt;code>5m&lt;/code> para 5 minutos, &lt;code>1h&lt;/code> para 1 hora.&lt;/li>
&lt;li>&lt;strong>&lt;code>Sigkill&lt;/code>&lt;/strong>: envía &lt;code>SIGKILL&lt;/code> al proceso ofensor desde dentro del kernel, &lt;strong>antes de que la syscall complete&lt;/strong>. Esto es lo único que garantiza enforcement sin race.&lt;/li>
&lt;li>&lt;strong>&lt;code>Override&lt;/code>&lt;/strong>: sobrescribe el valor de retorno del syscall. Útil para hacer creer al proceso que el syscall falló (&lt;code>Override -EPERM&lt;/code>) sin matarlo. Mejor experiencia para apps que pueden manejar errores; peor para apps que asumen éxito.&lt;/li>
&lt;li>&lt;strong>&lt;code>Signal&lt;/code>&lt;/strong>: envía cualquier señal arbitraria (no solo &lt;code>SIGKILL&lt;/code>).&lt;/li>
&lt;li>&lt;strong>&lt;code>NoPost&lt;/code>&lt;/strong>: no emite evento, útil cuando se combina con otro selector que sí emite y solo quieres acción sin telemetría duplicada.&lt;/li>
&lt;li>&lt;strong>&lt;code>FollowFD&lt;/code> y &lt;code>UnfollowFD&lt;/code>&lt;/strong>: marcan un file descriptor para seguir su ciclo de vida y enriquecer eventos siguientes con el path original. Útil para audit de &amp;ldquo;qué proceso leyó este archivo después de abrirlo&amp;rdquo;.&lt;/li>
&lt;li>&lt;strong>&lt;code>TrackSock&lt;/code>&lt;/strong> y &lt;strong>&lt;code>UntrackSock&lt;/code>&lt;/strong>: idem para sockets.&lt;/li>
&lt;li>&lt;strong>&lt;code>GetUrl&lt;/code> y &lt;code>DnsLookup&lt;/code>&lt;/strong>: hacen peticiones HTTP o resoluciones DNS desde el kernel. Pensado para integraciones con sistemas externos (webhooks de seguridad, lookups de reputación de IP).&lt;/li>
&lt;li>&lt;strong>&lt;code>NotifyEnforcer&lt;/code>&lt;/strong> y &lt;strong>&lt;code>CleanupEnforcerNotification&lt;/code>&lt;/strong>: comunicación con el subsistema de enforcement de Tetragon para acciones complejas.&lt;/li>
&lt;/ul>
&lt;h2 id="modos-detection-vs-enforcement">Modos: detection vs enforcement&lt;/h2>
&lt;p>Una política se puede declarar en uno de dos &lt;strong>modos&lt;/strong> explícitos:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>&lt;code>enforce&lt;/code>&lt;/strong>: las acciones de enforcement (&lt;code>Sigkill&lt;/code>, &lt;code>Override&lt;/code>, &lt;code>Signal&lt;/code>) están activas. Esto es producción.&lt;/li>
&lt;li>&lt;strong>&lt;code>monitoring&lt;/code>&lt;/strong>: las acciones de enforcement son ignoradas; solo se emiten eventos &lt;code>Post&lt;/code>. Esto es el modo &amp;ldquo;vamos a ver qué pasaría si esto estuviese activado&amp;rdquo;, crítico para probar políticas sin romper aplicaciones.&lt;/li>
&lt;/ul>
&lt;p>El control se hace con el campo &lt;code>spec.options[].name: policy-mode&lt;/code> y &lt;code>value: monitoring&lt;/code> o &lt;code>enforce&lt;/code>. Es la mejor práctica: empezar en &lt;code>monitoring&lt;/code>, recolectar eventos durante días, ajustar los selectors hasta que no salgan falsos positivos, &lt;strong>y entonces&lt;/strong> cambiar a &lt;code>enforce&lt;/code>.&lt;/p>
&lt;h2 id="ejemplo-completo-bloquear-escrituras-a-etcpasswd-en-namespace-prod">Ejemplo completo: bloquear escrituras a &lt;code>/etc/passwd&lt;/code> en namespace prod&lt;/h2>
&lt;p>Una política realista, comentada línea a línea:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicyNamespaced&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">block-passwd-write&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">prod&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;fd_install&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># función del kernel, no syscall&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># file descriptor&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;file&amp;#34;&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># struct file*&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;Equal&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/etc/passwd&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Sigkill &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># mata el proceso&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">rateLimit&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;1m&amp;#34;&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># max una vez por minuto&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">options&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">policy-mode&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">value&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">enforce &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># modo enforcement activo&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>&lt;code>fd_install&lt;/code> se ejecuta cada vez que un proceso obtiene un nuevo file descriptor; el segundo argumento es la struct &lt;code>file&lt;/code> del archivo. Tetragon sabe resolverla a su path absoluto. El &lt;code>matchArgs&lt;/code> compara ese path con &lt;code>/etc/passwd&lt;/code>. Si matchea, &lt;code>Sigkill&lt;/code> mata el proceso antes de que el descriptor llegue siquiera a ser usable. &lt;code>rateLimit: 1m&lt;/code> impide que el agent se sature si una aplicación malintencionada lo intenta en bucle.&lt;/p>
&lt;h2 id="casos-de-uso-habituales">Casos de uso habituales&lt;/h2>
&lt;p>Vamos al uso real. Estos son los seis casos que aparecen en cualquier despliegue serio de Tetragon en 2026.&lt;/p>
&lt;h3 id="1-auditoría-de-ejecución-execve">1. Auditoría de ejecución (&lt;code>execve&lt;/code>)&lt;/h3>
&lt;p>El caso de uso más básico y, sin embargo, el más valioso. ¿Qué binarios se están ejecutando en cada pod? En un container que se supone que corre solo &lt;code>nginx&lt;/code>, ver de pronto un &lt;code>sh&lt;/code> o un &lt;code>wget&lt;/code> es bandera roja casi siempre.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">audit-execve&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">tracepoints&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">subsystem&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sched&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">event&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sched_process_exec&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">4&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">linux_binprm &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># struct linux_binprm*&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># solo eventos, no enforcement&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Sin filtros: cada &lt;code>execve&lt;/code> del cluster genera un evento. Con metadata K8s, el evento incluye pod, namespace, container, imagen, labels. Lo conviertes en flujo de eventos hacia tu SIEM y montas reglas: &amp;ldquo;alerta si veo &lt;code>sh&lt;/code>, &lt;code>bash&lt;/code>, &lt;code>nc&lt;/code>, &lt;code>curl&lt;/code>, &lt;code>wget&lt;/code>, &lt;code>python&lt;/code> ejecutándose en cualquier pod del namespace &lt;code>prod-api&lt;/code>&amp;rdquo;.&lt;/p>
&lt;p>Variación con enforcement: en lugar de &lt;code>Post&lt;/code>, usar &lt;code>matchBinaries&lt;/code> con &lt;code>Operator: NotIn&lt;/code> y una whitelist, y &lt;code>Sigkill&lt;/code> si el binario no está en la lista. Caja muy rígida pero efectiva en pods que son &amp;ldquo;single-binary&amp;rdquo; (como un microservicio Go).&lt;/p>
&lt;h3 id="2-acceso-a-archivos-sensibles">2. Acceso a archivos sensibles&lt;/h3>
&lt;p>Detectar (o bloquear) lecturas y escrituras a archivos críticos: &lt;code>/etc/shadow&lt;/code>, &lt;code>/etc/kubernetes/&lt;/code>, montajes de Secrets, &lt;code>/var/run/docker.sock&lt;/code>, &lt;code>/proc/*/cmdline&lt;/code>.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">sensitive-file-access&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;security_file_open&amp;#34;&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># LSM-ish via kprobe&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;file&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;Prefix&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/etc/shadow&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/var/run/secrets/&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/var/run/docker.sock&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchBinaries&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;NotIn&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/usr/bin/kubelet&amp;#34;&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># acceso legítimo de kubelet&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>El &lt;code>matchBinaries: NotIn&lt;/code> es importante: kubelet y otros agentes legítimos del nodo acceden a estos paths constantemente y generarían ruido. Filtramos esos en el kernel.&lt;/p>
&lt;p>En enforcement: cambiar &lt;code>Post&lt;/code> por &lt;code>Override&lt;/code> con &lt;code>argError: -1&lt;/code> (&lt;code>EPERM&lt;/code>), de modo que la apertura falle pero el proceso ofensor siga vivo y produzca el error para que las herramientas de tracing lo recojan.&lt;/p>
&lt;h3 id="3-conexiones-de-red-salientes-no-autorizadas">3. Conexiones de red salientes no autorizadas&lt;/h3>
&lt;p>Detectar conexiones outbound a destinos fuera del rango corporativo. Útil para detectar exfiltración de datos o command-and-control de malware.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicyNamespaced&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">block-external-egress&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">prod&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;tcp_connect&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sock&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;NotDAddr&amp;#34;&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># destino NO en estos CIDRs&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;10.0.0.0/8&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;192.168.0.0/16&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;172.16.0.0/12&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Sigkill&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">options&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">policy-mode&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">value&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">enforce&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Esto mata cualquier intento de conexión TCP a una IP que no esté en los CIDRs corporativos, en namespace &lt;code>prod&lt;/code>. Cilium ya hace esto con NetworkPolicy, pero Tetragon tiene dos ventajas complementarias:&lt;/p>
&lt;ul>
&lt;li>Te da el &lt;strong>proceso&lt;/strong> que intentó la conexión, no solo &amp;ldquo;el pod X intentó conectar a Y&amp;rdquo;.&lt;/li>
&lt;li>Funciona también para protocolos exóticos donde NetworkPolicy es menos expresiva.&lt;/li>
&lt;/ul>
&lt;h3 id="4-detección-de-container-escape">4. Detección de container escape&lt;/h3>
&lt;p>Container escape es la pesadilla operacional: un proceso dentro de un contenedor consigue romper el aislamiento (vía un kernel exploit, una capability mal puesta, un mount &lt;code>hostPath&lt;/code> mal configurado) y obtener acceso al host. Tres señales típicas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Cambio de namespace&lt;/strong> del proceso (sale del namespace &lt;code>pid&lt;/code> del contenedor).&lt;/li>
&lt;li>&lt;strong>&lt;code>setns&lt;/code> o &lt;code>unshare&lt;/code>&lt;/strong> en procesos no-init.&lt;/li>
&lt;li>&lt;strong>Acceso a &lt;code>/proc/1/root&lt;/code> o &lt;code>/dev/&lt;/code>&lt;/strong> desde un contenedor.&lt;/li>
&lt;/ul>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">detect-container-escape&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;__x64_sys_setns&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchNamespaces&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Pid&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">NotIn&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;host_ns&amp;#34;&lt;/span>&lt;span class="p">]&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># solo procesos NO en pid namespace del host&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Sigkill&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;__x64_sys_unshare&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchNamespaceChanges&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">unshare&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>&lt;code>__x64_sys_setns&lt;/code> con destino el namespace del host desde un proceso en contenedor es prácticamente siempre malicioso (los containers legítimos no necesitan esto en runtime).&lt;/p>
&lt;h3 id="5-cryptomining">5. Cryptomining&lt;/h3>
&lt;p>Los procesos de minería tienen perfiles bastante reconocibles:&lt;/p>
&lt;ul>
&lt;li>Procesos con nombres como &lt;code>xmrig&lt;/code>, &lt;code>minerd&lt;/code>, &lt;code>cgminer&lt;/code>, o procesos legítimos como &lt;code>python&lt;/code> ejecutando scripts con uso intensivo de CPU.&lt;/li>
&lt;li>Conexiones outbound a pools de minería conocidas (lista pública de IPs y dominios).&lt;/li>
&lt;li>Uso anómalo de &lt;code>/dev/cpu_dma_latency&lt;/code> para evitar throttling.&lt;/li>
&lt;/ul>
&lt;p>Una política combinada:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">detect-cryptomining&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">tracepoints&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">subsystem&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sched&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">event&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sched_process_exec&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">4&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">linux_binprm&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">4&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;Postfix&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/xmrig&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/minerd&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/cgminer&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Sigkill&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;tcp_connect&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;sock&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;DPort&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;3333&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;5555&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;7777&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;14444&amp;#34;&lt;/span>&lt;span class="p">]&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># puertos comunes de pools&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># solo registra&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>La doble política: matar binarios con nombres clásicos (cinturón) y registrar conexiones a puertos de pools (tirantes), para alertar también cuando alguien renombre &lt;code>xmrig&lt;/code> a &lt;code>nginx-helper&lt;/code> o use puertos exóticos.&lt;/p>
&lt;h3 id="6-detección-de-rootkits-y-módulos-del-kernel-sospechosos">6. Detección de rootkits y módulos del kernel sospechosos&lt;/h3>
&lt;p>Los rootkits modernos cargan módulos del kernel para parchear funciones (hide procesos, hide conexiones de red, esconder archivos). Detectarlos:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">kernel-module-load&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;do_init_module&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;string&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;security_kernel_read_file&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">false&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;file&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchArgs&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;Equal&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;READING_MODULE&amp;#34;&lt;/span>&lt;span class="p">]&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>En un cluster Kubernetes &amp;ldquo;bien configurado&amp;rdquo; no se cargan módulos nuevos del kernel en runtime; cualquier evento aquí es altamente sospechoso. Combina con enforcement para máquinas donde los módulos deberían estar fijos: &lt;code>Sigkill&lt;/code> al que intenta cargar uno.&lt;/p>
&lt;h3 id="bonus-detección-de-modificación-de-ebpf-maps-por-terceros">Bonus: detección de modificación de eBPF maps por terceros&lt;/h3>
&lt;p>Como tendencia 2025-2026: cargar programas eBPF maliciosos para esconder presencia. Tetragon puede observar el bpf syscall:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">cilium.io/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">TracingPolicy&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">audit-bpf-syscalls&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">kprobes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">call&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;__x64_sys_bpf&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">syscall&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">int &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># bpf cmd&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">index&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">bpf_attr&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selectors&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">matchBinaries&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;NotIn&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">values&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/usr/bin/cilium-agent&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/usr/bin/tetragon&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="s2">&amp;#34;/usr/bin/bpftool&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchActions&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">action&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Post&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cualquier proceso que &lt;strong>no sea&lt;/strong> uno de los agentes legítimos cargando programas eBPF: te interesa saberlo.&lt;/p>
&lt;h2 id="comparativa-con-falco">Comparativa con Falco&lt;/h2>
&lt;p>&lt;a href="https://falco.org/">Falco&lt;/a> es el competidor más cercano: también es &lt;strong>runtime security para Kubernetes&lt;/strong>, también basado originalmente en eBPF (y antes en kernel modules), también con políticas declarativas. Tres años atrás eran funcionalmente parecidos. En 2026 la divergencia es clara:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Dimensión&lt;/th>
&lt;th>Tetragon&lt;/th>
&lt;th>Falco&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Filosofía&lt;/td>
&lt;td>Cilium-native, integrado&lt;/td>
&lt;td>Standalone, genérico&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Filtrado&lt;/td>
&lt;td>En el kernel (eBPF)&lt;/td>
&lt;td>Parsing en userspace&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Overhead típico&lt;/td>
&lt;td>&lt;strong>&amp;lt;1% CPU&lt;/strong>&lt;/td>
&lt;td>5-10% CPU&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Enforcement&lt;/td>
&lt;td>&lt;strong>Sí, in-kernel (Sigkill, Override)&lt;/strong>&lt;/td>
&lt;td>No nativo (depende de plugins)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Race conditions&lt;/td>
&lt;td>No (acción atómica con syscall)&lt;/td>
&lt;td>Sí en enforcement vía plugins&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Detección de falsos positivos&lt;/td>
&lt;td>Baja (contexto K8s en kernel)&lt;/td>
&lt;td>Más alta (parsing posterior)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Latencia de detección&lt;/td>
&lt;td>5-26 ms&lt;/td>
&lt;td>~10 ms (más constante)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Madurez del ecosistema&lt;/td>
&lt;td>Joven, en crecimiento&lt;/td>
&lt;td>Maduro, mucho material&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Comunidad&lt;/td>
&lt;td>Cilium / CNCF Incubating&lt;/td>
&lt;td>CNCF Graduated&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Integraciones&lt;/td>
&lt;td>Hubble nativo&lt;/td>
&lt;td>Falcosidekick, muchas&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CRDs por política&lt;/td>
&lt;td>TracingPolicy / Namespaced&lt;/td>
&lt;td>Sin CRDs; reglas en YAML&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Cuándo elegir cada uno&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Tetragon&lt;/strong> si ya usas Cilium, si necesitas enforcement en el kernel (no detection-only), si el overhead te importa (cargas con muchas syscalls), y si valoras la integración con Hubble. Detección de container escape y cryptomining es donde más se mide su ventaja sobre Falco.&lt;/li>
&lt;li>&lt;strong>Falco&lt;/strong> si quieres una herramienta independiente del CNI, si necesitas el catálogo de reglas pre-hechas y la comunidad amplia, si tu cluster no es Cilium, o si la integración con SIEMs y notificadores ya hechos (Falcosidekick) te ahorra trabajo.&lt;/li>
&lt;li>&lt;strong>Los dos&lt;/strong> si la organización es grande: Falco para amplitud de detección, Tetragon para enforcement quirúrgico en cargas críticas. Es lo que más se ve en empresas que llevan años con Falco y añaden Tetragon para casos específicos.&lt;/li>
&lt;/ul>
&lt;h2 id="hubble--tetragon-observabilidad-unificada">Hubble + Tetragon: observabilidad unificada&lt;/h2>
&lt;p>&lt;a href="https://docs.cilium.io/en/stable/observability/hubble/">Hubble&lt;/a> es el componente de observabilidad de tráfico de Cilium: muestra flow logs L3-L7 con cero impacto en latencia. Tetragon expone sus eventos por &lt;strong>gRPC&lt;/strong> con el mismo formato y vocabulario que Hubble, lo que permite:&lt;/p>
&lt;ul>
&lt;li>Verlos en la misma UI (Hubble UI muestra eventos Tetragon como una &amp;ldquo;capa&amp;rdquo; más).&lt;/li>
&lt;li>Correlar eventos de red (Hubble) con eventos de proceso (Tetragon) en el mismo timeline.&lt;/li>
&lt;li>Exportarlos juntos a Loki/Tempo/SIEM como un flujo único.&lt;/li>
&lt;/ul>
&lt;p>La sinergia clave: Hubble te dice &amp;ldquo;este pod hizo una conexión TCP a 1.2.3.4:80&amp;rdquo;. Tetragon te dice &amp;ldquo;este pod ejecutó &lt;code>curl 1.2.3.4&lt;/code> desde un binario &lt;code>bash&lt;/code> lanzado por &lt;code>pid 1234&lt;/code>&amp;rdquo;. Juntos te dan la historia completa.&lt;/p>
&lt;h2 id="despliegue-y-operación">Despliegue y operación&lt;/h2>
&lt;h3 id="helm">Helm&lt;/h3>
&lt;p>Instalación canónica con Helm:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">helm repo add cilium https://helm.cilium.io
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">helm install tetragon cilium/tetragon &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="se">&lt;/span> --namespace kube-system &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="se">&lt;/span> --set tetragon.exportFilename&lt;span class="o">=&lt;/span>/var/log/tetragon/tetragon.log &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="se">&lt;/span> --set tetragon.exportFileMaxSizeMB&lt;span class="o">=&lt;/span>&lt;span class="m">50&lt;/span> &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="se">&lt;/span> --set tetragon.exportFileRotationInterval&lt;span class="o">=&lt;/span>24h
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Tetragon despliega su &lt;code>DaemonSet&lt;/code>, sus CRDs y un service para Hubble. Por defecto, expone los eventos en &lt;code>stdout&lt;/code> del pod del agent (los recoge cualquier log aggregator del cluster).&lt;/p>
&lt;h3 id="cli-tetra">CLI &lt;code>tetra&lt;/code>&lt;/h3>
&lt;p>Tetragon trae una CLI llamada &lt;code>tetra&lt;/code> para investigación interactiva:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># stream en tiempo real de eventos del nodo&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">tetra getevents -o compact --pods &amp;lt;pod-name&amp;gt;
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># events JSON estructurado para procesar con jq&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">tetra getevents -o json --since 5m --namespace prod
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># ver políticas cargadas&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">tetra tracingpolicy list
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Es la mejor herramienta para depurar políticas en &lt;code>monitoring&lt;/code> antes de pasarlas a &lt;code>enforce&lt;/code>.&lt;/p>
&lt;h3 id="exportar-a-siem">Exportar a SIEM&lt;/h3>
&lt;p>Tres rutas habituales:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>stdout + log aggregator&lt;/strong>: el agent escribe JSON al stdout, Fluent Bit/Vector lo recoge y lo envía a Splunk/Datadog/Elastic. Simple, funciona con cualquier infraestructura de logging.&lt;/li>
&lt;li>&lt;strong>gRPC streaming&lt;/strong>: para integraciones de baja latencia. Un consumer gRPC propio o Hubble Relay.&lt;/li>
&lt;li>&lt;strong>Archivo + rotación&lt;/strong>: para entornos air-gapped o auditorías regulatorias que exigen logs persistentes con rotación controlada.&lt;/li>
&lt;/ul>
&lt;h3 id="performance">Performance&lt;/h3>
&lt;p>Los benchmarks publicados consistentemente sitúan a Tetragon en &lt;strong>&amp;lt;1% de CPU&lt;/strong> del nodo en cargas reales, comparado con &lt;strong>5-10% de Falco&lt;/strong> en las mismas cargas. La razón es la separación arquitectónica: Tetragon filtra en el kernel y solo lleva a userspace los eventos que realmente importan; Falco lleva todos los syscalls a userspace y los filtra allí. En clusters con miles de pods haciendo cientos de miles de syscalls por segundo, la diferencia se nota en la factura.&lt;/p>
&lt;h2 id="trampas-operativas-comunes">Trampas operativas comunes&lt;/h2>
&lt;h3 id="monitoring-permanente">&lt;code>monitoring&lt;/code> permanente&lt;/h3>
&lt;p>La mayor trampa es &lt;strong>no llegar nunca a &lt;code>enforce&lt;/code>&lt;/strong>: empezar bien con políticas en monitoring, recolectar eventos, ajustar selectors, y luego nunca conmutar. Resultado: tienes detection sin prevention, exactamente lo que Falco te daba sin pagar la complejidad de Tetragon. Si vas a usar Tetragon, planifica el camino a enforce de las políticas críticas.&lt;/p>
&lt;h3 id="selectors-demasiado-laxos">Selectors demasiado laxos&lt;/h3>
&lt;p>Una política con un único &lt;code>matchActions: Post&lt;/code> sin selectors específicos genera eventos por &lt;strong>cada&lt;/strong> syscall del hook elegido. En un nodo serio son &lt;strong>decenas de miles por segundo&lt;/strong>, que llenan logs, saturan exporters y esconden la señal en el ruido. Empieza siempre con filtros estrictos (&lt;code>matchBinaries&lt;/code>, &lt;code>matchNamespaces&lt;/code>, &lt;code>matchPIDs&lt;/code>) y abre cuando sepas qué buscas.&lt;/p>
&lt;h3 id="kernel-demasiado-viejo">Kernel demasiado viejo&lt;/h3>
&lt;p>Tetragon necesita features de eBPF modernas. Kernels &amp;lt; 5.4 no tienen el soporte de buffers grandes (necesario para &lt;code>execve&lt;/code> con argv completos). Kernels &amp;lt; 5.10 no tienen muchos de los hooks LSM. &lt;strong>Kernel 5.15+ es el mínimo recomendado para producción&lt;/strong> y 6.1+ para tener todas las features.&lt;/p>
&lt;h3 id="hooks-en-funciones-del-kernel-renombradas">Hooks en funciones del kernel renombradas&lt;/h3>
&lt;p>Los kprobes están atados a nombres de funciones del kernel que &lt;strong>pueden cambiar entre versiones&lt;/strong>. Una política que use &lt;code>__x64_sys_setns&lt;/code> puede fallar silenciosamente en un kernel donde la función se llama &lt;code>__do_sys_setns&lt;/code>. Soluciones: usar tracepoints estáticos cuando estén disponibles (más estables), o tener políticas alternativas con varios &lt;code>call&lt;/code> por compatibilidad.&lt;/p>
&lt;h3 id="sigkill-en-namespaces-críticos">&lt;code>Sigkill&lt;/code> en namespaces críticos&lt;/h3>
&lt;p>Aplicar &lt;code>Sigkill&lt;/code> a procesos en &lt;code>kube-system&lt;/code> o &lt;code>cilium-system&lt;/code> puede romper el cluster. Las políticas de enforcement deben &lt;strong>excluir explícitamente&lt;/strong> los namespaces de plataforma con &lt;code>matchNamespaces&lt;/code> Operator: &lt;code>NotIn&lt;/code>, o limitar el scope con &lt;code>TracingPolicyNamespaced&lt;/code> para asegurar que no acciona en sistemas que no debe.&lt;/p>
&lt;h3 id="ratelimit-ausente">&lt;code>rateLimit&lt;/code> ausente&lt;/h3>
&lt;p>Una política sin rateLimit en &lt;code>Post&lt;/code> puede sufrir un fan-out catastrófico si la condición se cumple millones de veces en un instante (típico en bucles de ataque o en bugs de aplicación). El agent se satura, los eventos se pierden, los logs se desbordan. &lt;strong>Pon siempre &lt;code>rateLimit&lt;/code> sensato en políticas de detección&lt;/strong>, especialmente en hooks de alta frecuencia como &lt;code>tcp_connect&lt;/code> o &lt;code>execve&lt;/code>.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto-próximos-artículos">Lo que no hemos cubierto (próximos artículos)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>eBPF LSM hooks&lt;/strong> en profundidad: cómo se relacionan con SELinux/AppArmor y cuándo Tetragon es la herramienta correcta vs MAC clásico.&lt;/li>
&lt;li>&lt;strong>Hubble UI con Tetragon overlay&lt;/strong>: configuración de la UI para mostrar la observabilidad de proceso y la de red en el mismo timeline.&lt;/li>
&lt;li>&lt;strong>Integración con OPA/Kyverno&lt;/strong>: cómo Tetragon complementa policy engines de admission (Kyverno valida en admission; Tetragon valida en runtime).&lt;/li>
&lt;li>&lt;strong>Forensics con eBPF&lt;/strong>: combinando Tetragon con herramientas como Beyla u OpenTelemetry para trazar la cadena completa de un incidente desde la conexión inicial hasta la syscall final.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>Documentación oficial (mayo 2026):&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://tetragon.io/">Tetragon — sitio oficial&lt;/a> — punto de entrada.&lt;/li>
&lt;li>&lt;a href="https://tetragon.io/docs/concepts/tracing-policy/">Tetragon docs — Tracing Policy&lt;/a> — referencia conceptual.&lt;/li>
&lt;li>&lt;a href="https://tetragon.io/docs/concepts/tracing-policy/hooks/">Tetragon docs — Hook points&lt;/a> — kprobes, tracepoints, uprobes, LSM, USDT.&lt;/li>
&lt;li>&lt;a href="https://tetragon.io/docs/concepts/tracing-policy/selectors/">Tetragon docs — Selectors&lt;/a> — referencia completa de filtros.&lt;/li>
&lt;li>&lt;a href="https://tetragon.io/docs/concepts/tracing-policy/mode/">Tetragon docs — Enforcement Mode&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://tetragon.io/docs/concepts/tracing-policy/k8s-filtering/">Tetragon docs — Kubernetes Identity Aware Policies&lt;/a> — &lt;code>TracingPolicyNamespaced&lt;/code>.&lt;/li>
&lt;li>&lt;a href="https://github.com/cilium/tetragon">Tetragon GitHub&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Comparativas y análisis:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://www.scitepress.org/Papers/2025/142727/142727.pdf">Comparative Analysis of eBPF-Based Runtime Security Monitoring (paper SciTePress 2025)&lt;/a> — benchmark con números independientes.&lt;/li>
&lt;li>&lt;a href="https://www.armosec.io/blog/best-ebpf-security-solutions-runtime-protection/">Best eBPF Security Solutions for Kubernetes (ARMO, 2026)&lt;/a> — comparativa Falco vs Tetragon vs KubeArmor.&lt;/li>
&lt;li>&lt;a href="https://medium.com/@mughal.asim/falco-vs-tetragon-a-runtime-security-showdown-for-kubernetes-a0e9fb9f30a0">Falco vs. Tetragon (Asim Mirza, Medium)&lt;/a> — análisis con casos de uso.&lt;/li>
&lt;li>&lt;a href="https://asecurityengineer.com/posts/deep-dive-into-tetragon/">Deep Dive into Tetragon (A Security Engineer)&lt;/a> — recorrido por dentro del agente.&lt;/li>
&lt;li>&lt;a href="https://medium.com/@mughal.asim/tetragon-series-part-2-enforcing-sensitive-file-access-with-a-namespaced-tracingpolicy-3c2f617ec912">Tetragon Series, Part 2: Enforcing Sensitive File Access (Medium)&lt;/a>.&lt;/li>
&lt;/ul>
&lt;p>Ecosistema:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://docs.cilium.io/en/stable/observability/hubble/">Cilium Hubble — observabilidad de red&lt;/a>.&lt;/li>
&lt;li>&lt;a href="https://falco.org/">Falco — sitio oficial&lt;/a> — el otro grande del campo.&lt;/li>
&lt;li>&lt;a href="https://kubearmor.io/">KubeArmor&lt;/a> — la tercera opción, con AppArmor + eBPF.&lt;/li>
&lt;/ul>
&lt;p>Cross-references:&lt;/p>
&lt;ul>
&lt;li>Parte 1 de la serie: &lt;a href="https://blog.lo0.es/posts/ebpf-cilium-tcp-ip-bypass/">eBPF de cero a Cilium: cómo el kernel aprendió a saltarse su propia pila TCP/IP&lt;/a> — los fundamentos de eBPF que aquí damos por leídos.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/rke2-cilium-bgp/">Kubernetes con Cilium BGP: servicios accesibles sin Ingress&lt;/a> — punto de partida del ecosistema Cilium en este blog.&lt;/li>
&lt;/ul></description></item></channel></rss>