Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep2 jun. 2026
Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal2 jun. 2026
Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-20262 jun. 2026
El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer2 jun. 2026
Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO1 jun. 2026
Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción1 jun. 2026
Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026