IA | lo0 — Blog Técnico

IA es la vertical más extensa del blog. Cubre lo que un equipo necesita para llevar modelos generativos (LLM) a producción en sistemas soberanos: el pipeline LLMOps completo, los motores de inferencia, los datos, el entrenamiento y la observabilidad.

👉 Empieza aquí: Anatomía de una petición LLM en producción — el tour completo de una sola request real atravesando las seis etapas del pipeline LLMOps. Si sólo lees un post de esta vertical, lee ese. Sirve como mapa mental de todo el resto.

Cómo se organiza la vertical

Los posts se agrupan por sub-tema (visible vía tags):

llmops — pipeline de seis etapas, anatomías de petición, panoramas, catálogos OSS vs hyperscalers.
inferencia-llm — KV cache, PagedAttention, disaggregated serving, vLLM en Kubernetes, cluster GPU multi-tenant.
datos-llm — ingestión con PostgreSQL + Qdrant, RAG sobre Kafka, data versioning con DVC y lakeFS.
entrenamiento-llm — fine-tuning continuo con LoRA, retrain cíclico, prompt versioning.
evals y safety — golden sets, judge LLM, jailbreak resistance, PII, prompt injection.
observabilidad-llm — tracing OTel, MCP observability, eBPF para drift detection.

Por dónde empezar

Si no has trabajado nunca con LLMs en producción, arranca por MLOps específico para LLMs en 2026 y luego El pipeline LLMOps de seis etapas. Si ya operas un sistema LLM, salta directamente al recorrido forense de una request real: Anatomía de una petición LLM en producción.

Para la decisión OSS vs cloud, los dos catálogos complementarios: OSS vs hyperscalers (AWS, GCP, Azure) y El catálogo OSS ficha por ficha.

Para ingenieros de plataforma

Varios posts cubren la parte de infraestructura GPU + Kubernetes que sostiene la inferencia LLM: vLLM en Kubernetes, Operators LLM en K8s y Cluster GPU multi-tenant. Estos posts viven en IA pero llevan tag kubernetes y por tanto también aparecen al filtrar por esa etiqueta.

2026

Volcano y Kueue: gang scheduling, colas y cuotas GPU para cargas distribuidas en Kubernetes

16 jun. 2026

El harness reproducible: medir coste, rendimiento y energía en un solo experimento auditable

16 jun. 2026

Del SLO al número de GPUs: cómo dimensionar y justificar la inversión en hardware de inferencia

16 jun. 2026

Energía en el TCO y en la regulación: coste, PUE, CSRD y la nueva obligación europea de reporte para centros de datos

16 jun. 2026

Palancas para gastar menos vatios por token: catálogo cuantificado para inferencia LLM

16 jun. 2026

Del vatio al carbono, honestamente: PUE, intensidad del grid y gCO₂ por token

16 jun. 2026

Sesgo de medición y reproducibilidad: por qué dos benchmarks del mismo modelo dan cifras que difieren hasta 7×

16 jun. 2026

TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud

16 jun. 2026

Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)

16 jun. 2026

Leaderboards de energía de LLM: cómo comparar modelos por Wh/token y elegir por eficiencia

16 jun. 2026

Benchmarks de calidad de LLM: la trampa de la contaminación y las herramientas OSS para no mentirse

16 jun. 2026

Comparativa de motores de serving LLM en frontera de Pareto: vLLM, SGLang, TRT-LLM y Dynamo

16 jun. 2026

MLPerf Power: el benchmark estándar de eficiencia energética para sistemas ML on-premise

15 jun. 2026

GPU idle: el coste que no aparece en ninguna factura pero lo paga todo el TCO

15 jun. 2026

Chargeback y showback de GPU en multi-tenancy: cómo repartir el coste del cluster entre equipos

15 jun. 2026

GenAI-Perf a fondo: perfilado de inferencia LLM con datos reales

15 jun. 2026

On-premise soberano vs hyperscalers: el caso con datos (coste, energía, rendimiento y soberanía)

14 jun. 2026

Medir la energía en producción: Kepler, DCGM y el stack práctico (precisión y overhead)

14 jun. 2026

GuideLLM a fondo: validar el SLO bajo carga y dimensionar desde el codo

14 jun. 2026

El segundo vector de coste de los agentes IA: durable execution con Temporal

14 jun. 2026

Del GPU-hora al coste por token: la métrica que compara on-prem y cloud

14 jun. 2026

Energía por token en España: metodología, el mercado eléctrico y los casos de especulación

14 jun. 2026

Kubecost vs OpenCost vs alternativas: qué añade el comercial y cuándo merece pagarlo

14 jun. 2026

OpenCost a fondo: cómo se asigna el coste de GPU en Kubernetes

14 jun. 2026

Catálogo de herramientas de benchmark LLM: ficha práctica a fondo

14 jun. 2026

Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une

13 jun. 2026

FinOps de GPU/LLM: frameworks, métricas y estado del arte (ficha a ficha)

13 jun. 2026

Benchmarking de inferencia LLM: frameworks, métricas y estado del arte (ficha a ficha)

13 jun. 2026

Benchmarking de energía en IA: frameworks, métricas y estado del arte (ficha a ficha)

13 jun. 2026

Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura

12 jun. 2026

Acelerar el cold start de modelos: de minutos a segundos

11 jun. 2026

FinOps y multi-tenancy del cluster GPU: quién paga qué

11 jun. 2026

Multimodal on-premise: servir un VLM con vLLM (visión + lenguaje)

11 jun. 2026

Hardening y secretos del stack LLM soberano: defensa en profundidad

11 jun. 2026

GitOps del stack de inferencia con Flux: operar el asistente como código

11 jun. 2026

Servir embeddings y rerankers con TEI en producción

11 jun. 2026

Ingesta documental end-to-end: del PDF al chunk indexado

11 jun. 2026

Llevar el RAG a la CPU: separar el plano de datos del plano de generación

11 jun. 2026

Servir varios modelos en una sola GPU: co-residencia, model-swapping y sleep mode

11 jun. 2026

Compartir una GPU entre varias cargas: time-slicing, MPS y MIG

11 jun. 2026

Runbook: enjaular al agente de IA — bubblewrap en el cliente, Tetragon en el cluster

9 jun. 2026

El contratista con la llave maestra: aislar agentes de IA del workstation al cluster

9 jun. 2026

Runbook QLoRA: del dataset al adapter servido en multi-LoRA (procedimiento operativo)

9 jun. 2026

QLoRA y multi-LoRA al límite en modelos pequeños

9 jun. 2026

RAG agresivo en modelos pequeños: compensar parámetros con recuperación

9 jun. 2026

Cuantización agresiva (estado del arte): del 4-bit al ternario

9 jun. 2026

Test-time quantization: cuantizar en caliente sin dataset de calibración

9 jun. 2026

Arquitecturas nativas para device: MoE de grano fino y pre-attention router

9 jun. 2026

Self-speculative decoding: el modelo que se adelanta a sí mismo

9 jun. 2026

El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento

9 jun. 2026

Los pasillos y el guardia de seguridad: topología PCIe, GPUDirect P2P y ACS

8 jun. 2026

El especialista del plato estrella: el backend de atención de vLLM (FlashAttention, FlashInfer y la asimetría prefill/decode)

8 jun. 2026

La despensa por casilleros: PagedAttention y el block manager de vLLM

8 jun. 2026

El pase: el jefe de sala que arma cada ronda — el scheduler step de vLLM

8 jun. 2026

El jefe que canta cada comanda: SMs, CUDA streams y CUDA graphs, o por qué la GPU se aburre generando tokens

7 jun. 2026

El montacargas de la despensa: del disco a la HBM, o por qué la cocina abre tarde

7 jun. 2026

La puerta de la cocina que el maître no miró: NUMA de red, Cilium eBPF y DRANET, la cuarta pata del pinning

6 jun. 2026

Elegir la centralita: qué gateway OSS poner por delante, y por qué la licencia decide antes que las features

6 jun. 2026

El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE2

6 jun. 2026

La planta de al lado: NUMA, hugepages y aislamiento de CPU, o por qué tu GPU espera al kernel

6 jun. 2026

La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel

6 jun. 2026

Langfuse por dentro: el centro de clasificación que no debe convertirse en el cuello de botella que vino a observar

6 jun. 2026

Una réplica grande o muchas pequeñas: la decisión que define tu plataforma

5 jun. 2026

Prefix cache: ingeniería del hit rate para pasar del 15% al 75%

5 jun. 2026

Poda de modelos LLM: eliminar sin amputar

5 jun. 2026

Optimizando el prefill en vLLM: los knobs que tu TTFT no perdona

5 jun. 2026

Optimizando el decode en vLLM: exprimir cada token en hardware pequeño

5 jun. 2026

Knowledge Distillation: enseñar a un modelo pequeño a pensar como uno grande

5 jun. 2026

Instrumentar vLLM con OTel: medir lo que las optimizaciones realmente hacen

5 jun. 2026

FP8 end-to-end: activar, medir calidad y decidir con datos

5 jun. 2026

Batch sizing en vLLM: el grid search de dos horas que vale semanas de hardware

5 jun. 2026

Debezium y CDC: el notario que escucha los cambios antes de que nadie los pida

4 jun. 2026

Function calling y tool-augmented retrieval: el detective que sabe qué archivo pedir

4 jun. 2026

Evaluar un RAG sin engañarse: RAGAS, el golden dataset y las cuatro métricas que importan

4 jun. 2026

Semantic cache en RAG: el recepcionista con memoria fotográfica

4 jun. 2026

PostgreSQL + Qdrant en la ingestión RAG: el cartero que sincroniza dos mundos

4 jun. 2026

Ontologías y knowledge graphs en LLMOps: la nomenclatura linneana que sostiene las seis etapas del pipeline

3 jun. 2026

Embeddings en 2026: las tres familias (denso, esparso, multi-vector), el zoo de modelos y la decisión que importa en producción

3 jun. 2026

Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep

2 jun. 2026

Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal

2 jun. 2026

Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-2026

2 jun. 2026

El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer

2 jun. 2026

Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO

1 jun. 2026

Autoscaling de inferencia LLM en Kubernetes: HPA con custom metrics y KEDA para vLLM

1 jun. 2026

Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción

1 jun. 2026

Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO

1 jun. 2026

Controles técnicos: el mapeo cruzado ENS × ISO 42001 × EU AI Act sobre la arquitectura LLM on-premise

1 jun. 2026

ISO/IEC 42001: el manual de operaciones del sistema de IA — cómo encaja el AIMS sobre la plataforma LLM on-premise descrita en el blog

1 jun. 2026

EU AI Act: el expediente técnico artículo por artículo sobre la arquitectura LLM on-premise del blog

1 jun. 2026

LLM Guard: el traductor jurado con cuaderno de equivalencias — anatomía, scanners y su integración con Langfuse, vLLM y LiteLLM

1 jun. 2026

Guardrails y safety en LLMs: las cuatro líneas de defensa del request en producción

31 may. 2026

Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo

31 may. 2026

Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM

31 may. 2026

Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask

30 may. 2026

Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput

30 may. 2026

Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras

30 may. 2026

Multi-LoRA serving: el traductor único con mil glosarios — base compartido, miles de adapters concurrentes y el kernel SGMV

30 may. 2026

MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V3

30 may. 2026

FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell

29 may. 2026

Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 2026

29 may. 2026

Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo

27 may. 2026

Tracing LLM con OpenTelemetry GenAI: la caja negra del avión que el campo estabilizó en 2026

27 may. 2026

LLM-as-judge: el corrector de oposiciones que evalúa a otros modelos sin convertirse en oráculo

27 may. 2026

Alignment moderno: DPO, KTO, ORPO y SimPO — el sumiller que aprende sin recibir reward model

27 may. 2026

Reranker y hybrid retrieval: el comité que decide los 5 chunks que el LLM va a leer de verdad

25 may. 2026

RAG corpus curation: el bibliotecario activo que decide qué entra, qué sale y qué firma

25 may. 2026

Evals para LLMs: la capa después del tracing que decide si tu modelo rinde o sólo parece rendir

25 may. 2026

El catálogo OSS para LLMOps en seis etapas: ficha por ficha, qué hace cada herramienta y cuándo elegirla

23 may. 2026

El catálogo paralelo: las seis etapas LLMOps en open source y en los hyperscalers (AWS, GCP, Azure)

23 may. 2026

Anatomía de una petición LLM en producción, mayo 2026: tour por las seis etapas siguiendo una sola request

22 may. 2026

Data versioning para LLMOps: DVC, lakeFS y el reto del golden dataset reproducible

22 may. 2026

Retrain: cerrar el bucle entre el incidente en producción y el adapter que lo arregla

22 may. 2026

Prompt versioning: el contrato que evita que un cambio de cinco palabras hunda tu sistema

22 may. 2026

Disaggregated serving: prefill y decode en pods especializados

22 may. 2026

Fine-tuning continuo en producción: del tráfico real al adapter desplegado

21 may. 2026

El cluster GPU como plataforma: cómo convertir un cluster compartido en un servicio multi-tenant que tus equipos puedan consumir

21 may. 2026

El pipeline LLMOps de seis etapas: arquitectura global y deep dive en cada componente

21 may. 2026

RAG sobre Kafka: arquitectura técnica de referencia para datalakes en streaming, con embeddings frescos y vector stores siempre al día

21 may. 2026

MLOps específico para LLMs en 2026: el panorama de tres modalidades, seis etapas y diez herramientas que las hacen funcionar

21 may. 2026

eBPF en inferencia local y detección estadística de drift: el cierre del ciclo de observabilidad LLM en 2026

20 may. 2026

MCP por dentro y su observabilidad profunda: el LSP de los agentes IA y cómo verlo todo con OpenTelemetry

20 may. 2026

AgentSight y el nuevo tracing de LLMs: zero-instrumentation con eBPF frente a Langfuse, LangSmith, Phoenix y compañía

19 may. 2026

Hubble: observabilidad de red en eBPF, estado del arte 2026 y la nueva frontera con los agentes IA

19 may. 2026

Tetragon: el primo de seguridad de Cilium que ve cada syscall en el kernel

19 may. 2026

eBPF de cero a Cilium: cómo el kernel aprendió a saltarse su propia pila TCP/IP

19 may. 2026

Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d

18 may. 2026

vLLM en Kubernetes: la pieza de inferencia LLM que sí escala

18 may. 2026

KV cache: la memoria de trabajo que sostiene la inferencia LLM

18 may. 2026

Bienvenidos al blog de lo0

12 mar. 2026

Kubernetes con Cilium BGP: servicios accesibles sin Ingress

8 mar. 2026