Benchmarking de inferencia LLM: frameworks, métricas y estado del arte (ficha a ficha)

Qué cubre esta introducción

Tercer artículo de la serie de datos. Inventario del tooling de benchmarking de rendimiento de inferencia LLM: qué se mide, cómo difieren las herramientas por arquitectura, y la ficha de cada framework. Sin recomendaciones; solo datos y metodología.


Métricas de rendimiento

MétricaDefiniciónUnidad
TTFT (Time To First Token)latencia hasta el primer token (domina el prefill)ms
TPOT / ITL (Time Per Output Token / Inter-Token Latency)tiempo entre tokens de salida (domina el decode)ms/token
Throughputtokens (o peticiones) por segundo del sistematok/s, req/s
Goodputthroughput que cumple el SLO (no el bruto)tok/s útiles
P50 / P95 / P99percentiles de latencia, no la mediams

La latencia total de una petición de salida (N) tokens se descompone:

$$\text{latencia} \approx \text{TTFT} + (N-1)\times \text{TPOT}$$

Por eso TTFT y TPOT se reportan por separado: una misma media esconde perfiles muy distintos (prefill caro vs decode caro).


La diferencia que sesga los datos: mono-proceso vs multi-proceso

Las herramientas se dividen en dos clases por arquitectura del cliente, y eso determina si la medida es fiable a alta concurrencia:

  • Micro-bench mono-proceso (vLLM bench, SGLang bench, genai-perf): cliente Python asyncio de un proceso. Útiles para experimentos rápidos sobre un motor concreto, pero la arquitectura mono-proceso introduce un cuello de botella en el lado cliente que sesga los datos a alta concurrencia (Medium · genAI-perf y vLLM).
  • Carga multi-proceso (GuideLLM, AIPerf): generan carga real distribuida, evitando ese límite del cliente. Son la clase que ha emergido para medir a escala.
Mono-proceso (vLLM bench, SGLang bench, genai-perf)1 cliente asynciocuello clientesesga a alta conc.motor (vLLM…)Multi-proceso (GuideLLM, AIPerf)N procesos de carga(carga real)motor (vLLM…)mide el motor,no el cliente

Frameworks, ficha a ficha

HerramientaClaseQué mideMantenedorNotas
vLLM benchmicro mono-procesoTTFT, TPOT, throughput del motor vLLMvLLM (OSS)Rápido para tunear vLLM; sesga a alta concurrencia
SGLang benchmicro mono-procesométricas del motor SGLangSGLang (OSS)Equivalente para SGLang
AIPerf (ex genai-perf)carga multi-procesoTTFT, ITL, throughput; perfilesNVIDIA (OSS)NVIDIA jubiló genai-perf y creó AIPerf el 15-abr-2026
GuideLLMcarga multi-procesoSLO bajo carga, sweep de concurrenciaOSS (Red Hat/Neural Magic)Encuentra el punto de saturación
LLMPerfcargathroughput y latencia a nivel inferenciaAnyscale/Ray (OSS)Clásico para validación de endpoints
MLPerf Inferencesuite estándarescenarios server/offline normalizadosMLCommonsComparabilidad cross-vendor; v5.x

Estado del arte 2026

  • Migración genai-perf → AIPerf: NVIDIA jubiló genai-perf el 15 de abril de 2026 y lo sustituyó por AIPerf, multi-proceso (arXiv · Measurement Bias).
  • Sesgo de medición documentado: dos herramientas pueden reportar resultados muy distintos para el mismo sistema; el sesgo sistemático de medición en benchmarks de producción está caracterizado en la literatura (arXiv 2605.24217). Corolario: un benchmark sin metodología publicada no es comparable.
  • MLPerf Inference v5.x (MLCommons) sigue siendo el estándar para comparabilidad entre fabricantes; sus escenarios (server/offline) y reglas acotan el resultado.
  • Rendimiento ≠ calidad: estas herramientas miden velocidad/throughput, no acierto. La calidad se mide con otra familia (lm-evaluation-harness, HELM), que es otro eje del cuadro de mando (artículo B7).

Este tooling alimenta el dimensionamiento (capacity planning) y la medición del efecto de optimizaciones como decode y prefill en vLLM.

Fuentes