Benchmarking de inferencia LLM: frameworks, métricas y estado del arte (ficha a ficha)
Qué cubre esta introducción
Tercer artículo de la serie de datos. Inventario del tooling de benchmarking de rendimiento de inferencia LLM: qué se mide, cómo difieren las herramientas por arquitectura, y la ficha de cada framework. Sin recomendaciones; solo datos y metodología.
Métricas de rendimiento
| Métrica | Definición | Unidad |
|---|---|---|
| TTFT (Time To First Token) | latencia hasta el primer token (domina el prefill) | ms |
| TPOT / ITL (Time Per Output Token / Inter-Token Latency) | tiempo entre tokens de salida (domina el decode) | ms/token |
| Throughput | tokens (o peticiones) por segundo del sistema | tok/s, req/s |
| Goodput | throughput que cumple el SLO (no el bruto) | tok/s útiles |
| P50 / P95 / P99 | percentiles de latencia, no la media | ms |
La latencia total de una petición de salida (N) tokens se descompone:
$$\text{latencia} \approx \text{TTFT} + (N-1)\times \text{TPOT}$$
Por eso TTFT y TPOT se reportan por separado: una misma media esconde perfiles muy distintos (prefill caro vs decode caro).
La diferencia que sesga los datos: mono-proceso vs multi-proceso
Las herramientas se dividen en dos clases por arquitectura del cliente, y eso determina si la medida es fiable a alta concurrencia:
- Micro-bench mono-proceso (vLLM bench, SGLang bench, genai-perf): cliente Python asyncio de un proceso. Útiles para experimentos rápidos sobre un motor concreto, pero la arquitectura mono-proceso introduce un cuello de botella en el lado cliente que sesga los datos a alta concurrencia (Medium · genAI-perf y vLLM).
- Carga multi-proceso (GuideLLM, AIPerf): generan carga real distribuida, evitando ese límite del cliente. Son la clase que ha emergido para medir a escala.
Frameworks, ficha a ficha
| Herramienta | Clase | Qué mide | Mantenedor | Notas |
|---|---|---|---|---|
| vLLM bench | micro mono-proceso | TTFT, TPOT, throughput del motor vLLM | vLLM (OSS) | Rápido para tunear vLLM; sesga a alta concurrencia |
| SGLang bench | micro mono-proceso | métricas del motor SGLang | SGLang (OSS) | Equivalente para SGLang |
| AIPerf (ex genai-perf) | carga multi-proceso | TTFT, ITL, throughput; perfiles | NVIDIA (OSS) | NVIDIA jubiló genai-perf y creó AIPerf el 15-abr-2026 |
| GuideLLM | carga multi-proceso | SLO bajo carga, sweep de concurrencia | OSS (Red Hat/Neural Magic) | Encuentra el punto de saturación |
| LLMPerf | carga | throughput y latencia a nivel inferencia | Anyscale/Ray (OSS) | Clásico para validación de endpoints |
| MLPerf Inference | suite estándar | escenarios server/offline normalizados | MLCommons | Comparabilidad cross-vendor; v5.x |
Estado del arte 2026
- Migración genai-perf → AIPerf: NVIDIA jubiló genai-perf el 15 de abril de 2026 y lo sustituyó por AIPerf, multi-proceso (arXiv · Measurement Bias).
- Sesgo de medición documentado: dos herramientas pueden reportar resultados muy distintos para el mismo sistema; el sesgo sistemático de medición en benchmarks de producción está caracterizado en la literatura (arXiv 2605.24217). Corolario: un benchmark sin metodología publicada no es comparable.
- MLPerf Inference v5.x (MLCommons) sigue siendo el estándar para comparabilidad entre fabricantes; sus escenarios (server/offline) y reglas acotan el resultado.
- Rendimiento ≠ calidad: estas herramientas miden velocidad/throughput, no acierto. La calidad se mide con otra familia (lm-evaluation-harness, HELM), que es otro eje del cuadro de mando (artículo B7).
Este tooling alimenta el dimensionamiento (capacity planning) y la medición del efecto de optimizaciones como decode y prefill en vLLM.
Fuentes
- Medium · LLM Inference Benchmarking — genAI-perf y vLLM — https://kchandan.medium.com/llm-inference-benchmarking-genai-perf-and-vllm-5dd06b57428e
- arXiv 2605.24217 · Systemic Measurement Bias in Production LLM Inference Benchmarks — https://arxiv.org/html/2605.24217
- MLCommons · MLPerf Inference — https://mlcommons.org/benchmarks/inference-datacenter/
- BentoML · LLM performance benchmarks — https://bentoml.com/llm/inference-optimization/llm-performance-benchmarks