TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud16 jun. 2026
La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel6 jun. 2026
Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026
FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell29 may. 2026
El cluster GPU como plataforma: cómo convertir un cluster compartido en un servicio multi-tenant que tus equipos puedan consumir21 may. 2026