El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento9 jun. 2026
El especialista del plato estrella: el backend de atención de vLLM (FlashAttention, FlashInfer y la asimetría prefill/decode)8 jun. 2026
El jefe que canta cada comanda: SMs, CUDA streams y CUDA graphs, o por qué la GPU se aburre generando tokens7 jun. 2026
La puerta de la cocina que el maître no miró: NUMA de red, Cilium eBPF y DRANET, la cuarta pata del pinning6 jun. 2026
Elegir la centralita: qué gateway OSS poner por delante, y por qué la licencia decide antes que las features6 jun. 2026
El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE26 jun. 2026
La planta de al lado: NUMA, hugepages y aislamiento de CPU, o por qué tu GPU espera al kernel6 jun. 2026
La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel6 jun. 2026
Langfuse por dentro: el centro de clasificación que no debe convertirse en el cuello de botella que vino a observar6 jun. 2026
Ontologías y knowledge graphs en LLMOps: la nomenclatura linneana que sostiene las seis etapas del pipeline3 jun. 2026
Embeddings en 2026: las tres familias (denso, esparso, multi-vector), el zoo de modelos y la decisión que importa en producción3 jun. 2026
Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep2 jun. 2026
Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal2 jun. 2026
Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-20262 jun. 2026
El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer2 jun. 2026
Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO1 jun. 2026
Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción1 jun. 2026
Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026
Controles técnicos: el mapeo cruzado ENS × ISO 42001 × EU AI Act sobre la arquitectura LLM on-premise1 jun. 2026
ISO/IEC 42001: el manual de operaciones del sistema de IA — cómo encaja el AIMS sobre la plataforma LLM on-premise descrita en el blog1 jun. 2026
EU AI Act: el expediente técnico artículo por artículo sobre la arquitectura LLM on-premise del blog1 jun. 2026
LLM Guard: el traductor jurado con cuaderno de equivalencias — anatomía, scanners y su integración con Langfuse, vLLM y LiteLLM1 jun. 2026
Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo31 may. 2026
Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM31 may. 2026
Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask30 may. 2026
Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput30 may. 2026
Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras30 may. 2026
Multi-LoRA serving: el traductor único con mil glosarios — base compartido, miles de adapters concurrentes y el kernel SGMV30 may. 2026
MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V330 may. 2026
FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell29 may. 2026
Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 202629 may. 2026
Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo27 may. 2026
Tracing LLM con OpenTelemetry GenAI: la caja negra del avión que el campo estabilizó en 202627 may. 2026
LLM-as-judge: el corrector de oposiciones que evalúa a otros modelos sin convertirse en oráculo27 may. 2026
Alignment moderno: DPO, KTO, ORPO y SimPO — el sumiller que aprende sin recibir reward model27 may. 2026
Reranker y hybrid retrieval: el comité que decide los 5 chunks que el LLM va a leer de verdad25 may. 2026
Evals para LLMs: la capa después del tracing que decide si tu modelo rinde o sólo parece rendir25 may. 2026
El catálogo OSS para LLMOps en seis etapas: ficha por ficha, qué hace cada herramienta y cuándo elegirla23 may. 2026
El catálogo paralelo: las seis etapas LLMOps en open source y en los hyperscalers (AWS, GCP, Azure)23 may. 2026
Anatomía de una petición LLM en producción, mayo 2026: tour por las seis etapas siguiendo una sola request22 may. 2026
Prompt versioning: el contrato que evita que un cambio de cinco palabras hunda tu sistema22 may. 2026
MLOps específico para LLMs en 2026: el panorama de tres modalidades, seis etapas y diez herramientas que las hacen funcionar21 may. 2026