Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une13 jun. 2026
Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura12 jun. 2026
El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento9 jun. 2026
Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput30 may. 2026
Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras30 may. 2026
MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V330 may. 2026
Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 202629 may. 2026
Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo27 may. 2026
Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d18 may. 2026