Volcano y Kueue: gang scheduling, colas y cuotas GPU para cargas distribuidas en Kubernetes16 jun. 2026
El harness reproducible: medir coste, rendimiento y energía en un solo experimento auditable16 jun. 2026
Del SLO al número de GPUs: cómo dimensionar y justificar la inversión en hardware de inferencia16 jun. 2026
Energía en el TCO y en la regulación: coste, PUE, CSRD y la nueva obligación europea de reporte para centros de datos16 jun. 2026
Sesgo de medición y reproducibilidad: por qué dos benchmarks del mismo modelo dan cifras que difieren hasta 7×16 jun. 2026
TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud16 jun. 2026
Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)16 jun. 2026
Leaderboards de energía de LLM: cómo comparar modelos por Wh/token y elegir por eficiencia16 jun. 2026
Benchmarks de calidad de LLM: la trampa de la contaminación y las herramientas OSS para no mentirse16 jun. 2026
Comparativa de motores de serving LLM en frontera de Pareto: vLLM, SGLang, TRT-LLM y Dynamo16 jun. 2026
Chargeback y showback de GPU en multi-tenancy: cómo repartir el coste del cluster entre equipos15 jun. 2026
On-premise soberano vs hyperscalers: el caso con datos (coste, energía, rendimiento y soberanía)14 jun. 2026
Energía por token en España: metodología, el mercado eléctrico y los casos de especulación14 jun. 2026
Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une13 jun. 2026
Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura12 jun. 2026
El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento9 jun. 2026
El especialista del plato estrella: el backend de atención de vLLM (FlashAttention, FlashInfer y la asimetría prefill/decode)8 jun. 2026
El jefe que canta cada comanda: SMs, CUDA streams y CUDA graphs, o por qué la GPU se aburre generando tokens7 jun. 2026
La puerta de la cocina que el maître no miró: NUMA de red, Cilium eBPF y DRANET, la cuarta pata del pinning6 jun. 2026
Elegir la centralita: qué gateway OSS poner por delante, y por qué la licencia decide antes que las features6 jun. 2026
El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE26 jun. 2026
La planta de al lado: NUMA, hugepages y aislamiento de CPU, o por qué tu GPU espera al kernel6 jun. 2026
La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel6 jun. 2026
Langfuse por dentro: el centro de clasificación que no debe convertirse en el cuello de botella que vino a observar6 jun. 2026
Ontologías y knowledge graphs en LLMOps: la nomenclatura linneana que sostiene las seis etapas del pipeline3 jun. 2026
Embeddings en 2026: las tres familias (denso, esparso, multi-vector), el zoo de modelos y la decisión que importa en producción3 jun. 2026
Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep2 jun. 2026
Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal2 jun. 2026
Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-20262 jun. 2026
El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer2 jun. 2026
Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO1 jun. 2026
Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción1 jun. 2026
Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026
Controles técnicos: el mapeo cruzado ENS × ISO 42001 × EU AI Act sobre la arquitectura LLM on-premise1 jun. 2026
ISO/IEC 42001: el manual de operaciones del sistema de IA — cómo encaja el AIMS sobre la plataforma LLM on-premise descrita en el blog1 jun. 2026
EU AI Act: el expediente técnico artículo por artículo sobre la arquitectura LLM on-premise del blog1 jun. 2026
LLM Guard: el traductor jurado con cuaderno de equivalencias — anatomía, scanners y su integración con Langfuse, vLLM y LiteLLM1 jun. 2026
Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo31 may. 2026
Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM31 may. 2026
Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask30 may. 2026
Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput30 may. 2026
Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras30 may. 2026
Multi-LoRA serving: el traductor único con mil glosarios — base compartido, miles de adapters concurrentes y el kernel SGMV30 may. 2026
MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V330 may. 2026
FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell29 may. 2026
Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 202629 may. 2026
Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo27 may. 2026
Tracing LLM con OpenTelemetry GenAI: la caja negra del avión que el campo estabilizó en 202627 may. 2026
LLM-as-judge: el corrector de oposiciones que evalúa a otros modelos sin convertirse en oráculo27 may. 2026
Alignment moderno: DPO, KTO, ORPO y SimPO — el sumiller que aprende sin recibir reward model27 may. 2026
Reranker y hybrid retrieval: el comité que decide los 5 chunks que el LLM va a leer de verdad25 may. 2026
Evals para LLMs: la capa después del tracing que decide si tu modelo rinde o sólo parece rendir25 may. 2026
El catálogo OSS para LLMOps en seis etapas: ficha por ficha, qué hace cada herramienta y cuándo elegirla23 may. 2026
El catálogo paralelo: las seis etapas LLMOps en open source y en los hyperscalers (AWS, GCP, Azure)23 may. 2026
Anatomía de una petición LLM en producción, mayo 2026: tour por las seis etapas siguiendo una sola request22 may. 2026
Prompt versioning: el contrato que evita que un cambio de cinco palabras hunda tu sistema22 may. 2026
El cluster GPU como plataforma: cómo convertir un cluster compartido en un servicio multi-tenant que tus equipos puedan consumir21 may. 2026
RAG sobre Kafka: arquitectura técnica de referencia para datalakes en streaming, con embeddings frescos y vector stores siempre al día21 may. 2026
MLOps específico para LLMs en 2026: el panorama de tres modalidades, seis etapas y diez herramientas que las hacen funcionar21 may. 2026
eBPF en inferencia local y detección estadística de drift: el cierre del ciclo de observabilidad LLM en 202620 may. 2026
MCP por dentro y su observabilidad profunda: el LSP de los agentes IA y cómo verlo todo con OpenTelemetry20 may. 2026
AgentSight y el nuevo tracing de LLMs: zero-instrumentation con eBPF frente a Langfuse, LangSmith, Phoenix y compañía19 may. 2026
Hubble: observabilidad de red en eBPF, estado del arte 2026 y la nueva frontera con los agentes IA19 may. 2026
Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d18 may. 2026