Operaciones | lo0 — Blog Técnico

2026

Elegir la centralita: qué gateway OSS poner por delante, y por qué la licencia decide antes que las features

6 jun. 2026

Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep

2 jun. 2026

Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal

2 jun. 2026

Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-2026

2 jun. 2026

El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer

2 jun. 2026

Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO

1 jun. 2026

Autoscaling de inferencia LLM en Kubernetes: HPA con custom metrics y KEDA para vLLM

1 jun. 2026

Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción

1 jun. 2026

Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO

1 jun. 2026