Gpu | lo0 — Blog Técnico

2026

Volcano y Kueue: gang scheduling, colas y cuotas GPU para cargas distribuidas en Kubernetes

16 jun. 2026

Del SLO al número de GPUs: cómo dimensionar y justificar la inversión en hardware de inferencia

16 jun. 2026

Kubecost vs OpenCost vs alternativas: qué añade el comercial y cuándo merece pagarlo

14 jun. 2026

OpenCost a fondo: cómo se asigna el coste de GPU en Kubernetes

14 jun. 2026

FinOps de GPU/LLM: frameworks, métricas y estado del arte (ficha a ficha)

13 jun. 2026

FinOps y multi-tenancy del cluster GPU: quién paga qué

11 jun. 2026

El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE2

6 jun. 2026

Autoscaling de inferencia LLM en Kubernetes: HPA con custom metrics y KEDA para vLLM

1 jun. 2026

Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción

1 jun. 2026

Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO

1 jun. 2026

Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo

31 may. 2026

Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM

31 may. 2026

El cluster GPU como plataforma: cómo convertir un cluster compartido en un servicio multi-tenant que tus equipos puedan consumir

21 may. 2026

vLLM en Kubernetes: la pieza de inferencia LLM que sí escala

18 may. 2026