Benchmarking de inferencia LLM: frameworks, métricas y estado del arte (ficha a ficha)

Sat, 13 Jun 2026 02:30:00 +0200

Qué cubre esta introducción

Tercer artículo de la serie de datos. Inventario del tooling de benchmarking de rendimiento de inferencia LLM: qué se mide, cómo difieren las herramientas por arquitectura, y la ficha de cada framework. Sin recomendaciones; solo datos y metodología.

Métricas de rendimiento

Métrica	Definición	Unidad
TTFT (Time To First Token)	latencia hasta el primer token (domina el prefill)	ms
TPOT / ITL (Time Per Output Token / Inter-Token Latency)	tiempo entre tokens de salida (domina el decode)	ms/token
Throughput	tokens (o peticiones) por segundo del sistema	tok/s, req/s
Goodput	throughput que cumple el SLO (no el bruto)	tok/s útiles
P50 / P95 / P99	percentiles de latencia, no la media	ms

La latencia total de una petición de salida (N) tokens se descompone:

$$\text{latencia} \approx \text{TTFT} + (N-1)\times \text{TPOT}$$

Por eso TTFT y TPOT se reportan por separado: una misma media esconde perfiles muy distintos (prefill caro vs decode caro).

La diferencia que sesga los datos: mono-proceso vs multi-proceso

Las herramientas se dividen en dos clases por arquitectura del cliente, y eso determina si la medida es fiable a alta concurrencia:

Micro-bench mono-proceso (vLLM bench, SGLang bench, genai-perf): cliente Python asyncio de un proceso. Útiles para experimentos rápidos sobre un motor concreto, pero la arquitectura mono-proceso introduce un cuello de botella en el lado cliente que sesga los datos a alta concurrencia (Medium · genAI-perf y vLLM).
Carga multi-proceso (GuideLLM, AIPerf): generan carga real distribuida, evitando ese límite del cliente. Son la clase que ha emergido para medir a escala.

Frameworks, ficha a ficha

Herramienta	Clase	Qué mide	Mantenedor	Notas
vLLM bench	micro mono-proceso	TTFT, TPOT, throughput del motor vLLM	vLLM (OSS)	Rápido para tunear vLLM; sesga a alta concurrencia
SGLang bench	micro mono-proceso	métricas del motor SGLang	SGLang (OSS)	Equivalente para SGLang
AIPerf (ex genai-perf)	carga multi-proceso	TTFT, ITL, throughput; perfiles	NVIDIA (OSS)	NVIDIA jubiló genai-perf y creó AIPerf el 15-abr-2026
GuideLLM	carga multi-proceso	SLO bajo carga, sweep de concurrencia	OSS (Red Hat/Neural Magic)	Encuentra el punto de saturación
LLMPerf	carga	throughput y latencia a nivel inferencia	Anyscale/Ray (OSS)	Clásico para validación de endpoints
MLPerf Inference	suite estándar	escenarios server/offline normalizados	MLCommons	Comparabilidad cross-vendor; v5.x

Estado del arte 2026

Migración genai-perf → AIPerf: NVIDIA jubiló genai-perf el 15 de abril de 2026 y lo sustituyó por AIPerf, multi-proceso (arXiv · Measurement Bias).
Sesgo de medición documentado: dos herramientas pueden reportar resultados muy distintos para el mismo sistema; el sesgo sistemático de medición en benchmarks de producción está caracterizado en la literatura (arXiv 2605.24217). Corolario: un benchmark sin metodología publicada no es comparable.
MLPerf Inference v5.x (MLCommons) sigue siendo el estándar para comparabilidad entre fabricantes; sus escenarios (server/offline) y reglas acotan el resultado.
Rendimiento ≠ calidad: estas herramientas miden velocidad/throughput, no acierto. La calidad se mide con otra familia (lm-evaluation-harness, HELM), que es otro eje del cuadro de mando (artículo B7).

Este tooling alimenta el dimensionamiento (capacity planning) y la medición del efecto de optimizaciones como decode y prefill en vLLM.

Fuentes

Medium · LLM Inference Benchmarking — genAI-perf y vLLM — https://kchandan.medium.com/llm-inference-benchmarking-genai-perf-and-vllm-5dd06b57428e
arXiv 2605.24217 · Systemic Measurement Bias in Production LLM Inference Benchmarks — https://arxiv.org/html/2605.24217
MLCommons · MLPerf Inference — https://mlcommons.org/benchmarks/inference-datacenter/
BentoML · LLM performance benchmarks — https://bentoml.com/llm/inference-optimization/llm-performance-benchmarks