Volcano y Kueue: gang scheduling, colas y cuotas GPU para cargas distribuidas en Kubernetes16 jun. 2026
Del SLO al número de GPUs: cómo dimensionar y justificar la inversión en hardware de inferencia16 jun. 2026
El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE26 jun. 2026
Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción1 jun. 2026
Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026
Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo31 may. 2026
Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM31 may. 2026
El cluster GPU como plataforma: cómo convertir un cluster compartido en un servicio multi-tenant que tus equipos puedan consumir21 may. 2026