Vllm | lo0 — Blog Técnico

2026

Comparativa de motores de serving LLM en frontera de Pareto: vLLM, SGLang, TRT-LLM y Dynamo

16 jun. 2026

GenAI-Perf a fondo: perfilado de inferencia LLM con datos reales

15 jun. 2026

GuideLLM a fondo: validar el SLO bajo carga y dimensionar desde el codo

14 jun. 2026

El segundo vector de coste de los agentes IA: durable execution con Temporal

14 jun. 2026

Catálogo de herramientas de benchmark LLM: ficha práctica a fondo

14 jun. 2026

Benchmarking de inferencia LLM: frameworks, métricas y estado del arte (ficha a ficha)

13 jun. 2026

Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura

12 jun. 2026

Acelerar el cold start de modelos: de minutos a segundos

11 jun. 2026

Multimodal on-premise: servir un VLM con vLLM (visión + lenguaje)

11 jun. 2026

Servir varios modelos en una sola GPU: co-residencia, model-swapping y sleep mode

11 jun. 2026

Runbook QLoRA: del dataset al adapter servido en multi-LoRA (procedimiento operativo)

9 jun. 2026

El especialista del plato estrella: el backend de atención de vLLM (FlashAttention, FlashInfer y la asimetría prefill/decode)

8 jun. 2026

La despensa por casilleros: PagedAttention y el block manager de vLLM

8 jun. 2026

El pase: el jefe de sala que arma cada ronda — el scheduler step de vLLM

8 jun. 2026

El jefe que canta cada comanda: SMs, CUDA streams y CUDA graphs, o por qué la GPU se aburre generando tokens

7 jun. 2026

El montacargas de la despensa: del disco a la HBM, o por qué la cocina abre tarde

7 jun. 2026

La planta de al lado: NUMA, hugepages y aislamiento de CPU, o por qué tu GPU espera al kernel

6 jun. 2026

La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel

6 jun. 2026

Una réplica grande o muchas pequeñas: la decisión que define tu plataforma

5 jun. 2026

Prefix cache: ingeniería del hit rate para pasar del 15% al 75%

5 jun. 2026

Optimizando el prefill en vLLM: los knobs que tu TTFT no perdona

5 jun. 2026

Optimizando el decode en vLLM: exprimir cada token en hardware pequeño

5 jun. 2026

Instrumentar vLLM con OTel: medir lo que las optimizaciones realmente hacen

5 jun. 2026

FP8 end-to-end: activar, medir calidad y decidir con datos

5 jun. 2026

Batch sizing en vLLM: el grid search de dos horas que vale semanas de hardware

5 jun. 2026

Function calling y tool-augmented retrieval: el detective que sabe qué archivo pedir

4 jun. 2026

Embeddings en 2026: las tres familias (denso, esparso, multi-vector), el zoo de modelos y la decisión que importa en producción

3 jun. 2026

Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-2026

2 jun. 2026

Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO

1 jun. 2026

Autoscaling de inferencia LLM en Kubernetes: HPA con custom metrics y KEDA para vLLM

1 jun. 2026

Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción

1 jun. 2026

Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO

1 jun. 2026

LLM Guard: el traductor jurado con cuaderno de equivalencias — anatomía, scanners y su integración con Langfuse, vLLM y LiteLLM

1 jun. 2026

Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask

30 may. 2026

Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput

30 may. 2026

Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras

30 may. 2026

Multi-LoRA serving: el traductor único con mil glosarios — base compartido, miles de adapters concurrentes y el kernel SGMV

30 may. 2026

MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V3

30 may. 2026

FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell

29 may. 2026

Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 2026

29 may. 2026

Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo

27 may. 2026

El catálogo OSS para LLMOps en seis etapas: ficha por ficha, qué hace cada herramienta y cuándo elegirla

23 may. 2026

Disaggregated serving: prefill y decode en pods especializados

22 may. 2026

Fine-tuning continuo en producción: del tráfico real al adapter desplegado

21 may. 2026

eBPF en inferencia local y detección estadística de drift: el cierre del ciclo de observabilidad LLM en 2026

20 may. 2026

Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d

18 may. 2026

vLLM en Kubernetes: la pieza de inferencia LLM que sí escala

18 may. 2026

KV cache: la memoria de trabajo que sostiene la inferencia LLM

18 may. 2026