Benchmarks de calidad de LLM: la trampa de la contaminación y las herramientas OSS para no mentirse
Notación: importes en euros (N €), decimales con coma. No se usa el símbolo de dólar (en este sitio es delimitador de fórmula).
Post B7 del track de benchmarking. La introducción B1 fijó la distinción entre los tres ejes (rendimiento, calidad, energía). El catálogo de herramientas B2 cubrió el eje de rendimiento (TTFT, ITL, goodput). Este artículo cubre el eje de calidad: qué mide cada benchmark, cómo se ejecuta, y por qué los números del leaderboard no siempre dicen lo que parecen. El pipeline de evals LLMOps y el LLM-as-judge cubren la capa de evaluación interna del sistema; este artículo cubre la evaluación del modelo base con benchmarks académicos estándar.
TL;DR
Un motor de inferencia con TTFT de 80 ms que sirve un modelo de baja calidad no sirve de nada: el Pareto de la plataforma tiene dos ejes independientes. En 2025–2026, los benchmarks estáticos más usados —MMLU, HumanEval— han cruzado el umbral de saturación (HumanEval > 93% en modelos frontier, MMLU-Pro > 75% en los top-5), lo que invalida su capacidad de diferenciar en la zona alta. La causa principal no es que los modelos sean mejores: es contaminación de datos, con solapamiento n-gram del 18% detectado en Llama-2-70B sobre datasets de evaluación. Las herramientas OSS activas en 2026 son lm-evaluation-harness (EleutherAI, MIT, 60+ tareas, motor de facto del ecosistema), HELM (Stanford, Apache 2.0, en mantenimiento desde junio 2026), LiveBench (MIT, 1.000 preguntas renovadas mensualmente para evitar contaminación), lighteval (Hugging Face, MIT, 1.000+ tareas, soporte vLLM), y LMArena/Chatbot Arena (Bradley-Terry sobre millones de comparaciones humanas). El OpenLLM Leaderboard v2 fue archivado en 2025 y sustituido por el ecosistema OpenEvals (200+ leaderboards especializados). Reproducir un número de eval requiere pinear: versión del harness, del modelo, de la plantilla de prompt y del número de shots.
Calidad ≠ rendimiento: el eje Pareto independiente
El eje de rendimiento (TTFT, ITL, throughput) mide cuánto tarda el motor en producir tokens. El eje de calidad mide qué tan correctos son esos tokens. Son ortogonales: un modelo pequeño servido con vLLM a 3.000 tok/s puede sacar 42% en MMLU-Pro; un modelo frontier puede necesitar 4× más GPU y sacar 72%. El producto throughput × calidad es el único número que importa para una plataforma en producción.
La consecuencia operativa: seleccionar modelo y motor primero por calidad (¿supera el umbral mínimo para la tarea?) y luego por rendimiento (¿cumple el SLO dentro del presupuesto de GPU?). Invertir el orden —elegir el motor más rápido y encajar el modelo— es el error más frecuente en el dimensionamiento inicial.
Benchmarks de referencia: qué mide cada uno
La tabla siguiente recoge los benchmarks académicos estándar en 2026, la capacidad que mide cada uno, su tamaño de test set y el nivel de saturación actual en modelos frontier.
| Benchmark | Capacidad medida | Formato | Test set | Saturación frontier 2026 |
|---|---|---|---|---|
| MMLU | Conocimiento multidisciplinar (57 materias) | 4-choice MCQ | 14.079 | Alta: top-5 > 88%; diferencia insuficiente |
| MMLU-Pro | MMLU con 10 opciones, razonamiento multistep | 10-choice MCQ | 12.032 | Media: top-5 entre 72–77%; aún diferencia |
| GSM8K | Razonamiento matemático nivel primaria (problemas de enunciado) | generación de respuesta | 1.319 | Muy alta: top modelos > 97% |
| MATH | Matemáticas de competición (álgebra, geometría, cálculo, etc.) | generación LaTeX | 5.000 | Media-alta: top modelos 85–92% |
| GPQA Diamond | Razonamiento científico PhD (biología, física, química) | 4-choice MCQ | 198 | Emergente: top > 90% en 2026; aún diferencia en 60–90% |
| BBH (BIG-Bench Hard) | 23 tareas donde modelos anteriores caían por debajo del humano | generación | 6.511 | Media: útil para razonamiento complejo |
| IFEval | Seguimiento de instrucciones verifiable (format, longitud, idioma) | generación + reglas | 541 | Baja: diferencia notable entre modelos |
| HumanEval | Generación de código Python (164 problemas con signatura) | generación + ejecución | 164 | Muy alta: top > 93%; saturado |
| MBPP | Generación de código (500 problemas sin signatura de función) | generación + ejecución | 500 | Alta: top modelos 85–92% |
| MuSR | Razonamiento multistep sobre textos largos | generación | ~1.000 | Baja: útil para razonamiento extenso |
| TruthfulQA | Veracidad: resistencia a afirmar mitos populares | generación + MCQ | 817 | Media: diferencia visible entre familias |
Nota sobre saturación: un benchmark saturado no distingue modelos en la zona alta; sólo tiene valor como floor check (confirmar que el modelo no regresa al nivel de hace 3 años). Para la zona frontier, los benchmarks útiles en 2026 son MMLU-Pro, GPQA Diamond, IFEval y MuSR.
Herramientas OSS de evaluación: fichas
lm-evaluation-harness (EleutherAI)
| Campo | Dato |
|---|---|
| Repositorio | github.com/EleutherAI/lm-evaluation-harness |
| Licencia | MIT |
| Mantenedor | EleutherAI |
| Versión activa (jun-2026) | 0.4.x (rama main) |
| Tareas disponibles | 60+ benchmarks, cientos de subtareas y variantes |
| Backends soportados | Hugging Face Transformers, vLLM, litellm, API OpenAI-compatible, GGUF |
| Formato de tareas | YAML + Python; cada tarea define dataset, plantilla, métrica y número de shots |
| Qué mide | Precisión en MCQ, exact match, pass@k en código, perplexity, BLEU/ROUGE |
| Cómo se invoca | lm_eval --model hf --model_args pretrained=<modelo> --tasks mmlu,gsm8k --num_fewshot 5 --output_path resultados/ |
| Salida | JSON con métricas por tarea + metadatos de configuración |
| Uso en el ecosistema | Motor oficial del OpenLLM Leaderboard (v1 y v2); referencia de facto en investigación |
El harness es el estándar de la industria para evaluación reproducible. Su fortaleza es la amplitud de tareas y la normalización del formato de prompt. Su limitación: las tareas son estáticas — los datasets no cambian entre versiones del harness, lo que lo expone al problema de contaminación si el modelo fue entrenado con los mismos datos.
Invocación completa con vLLM como backend:
lm_eval \
--model vllm \
--model_args pretrained=meta-llama/Llama-3.1-70B-Instruct,dtype=bfloat16 \
--tasks mmlu_pro,gpqa_diamond,ifeval,humaneval \
--num_fewshot 5 \
--batch_size auto \
--output_path ./eval_results/ \
--log_samples
HELM (Stanford CRFM)
| Campo | Dato |
|---|---|
| Repositorio | github.com/stanford-crfm/helm |
| Sitio oficial | crfm.stanford.edu/helm |
| Licencia | Apache 2.0 |
| Mantenedor | Stanford CRFM |
| Estado (jun-2026) | Modo mantenimiento desde 1 de junio de 2026 |
| Qué mide | Precisión, calibración, robustez, fairness, toxicidad, eficiencia (latencia/coste) |
| Formato de tareas | Python + YAML; escenarios con métricas múltiples simultáneas |
| Backends soportados | API (OpenAI, Anthropic, Cohere, etc.) + modelos locales vía Hugging Face |
| Variantes activas | HELM Classic, HELM Capabilities, HELM Lite, MedHELM, HELM Safety |
| Instalación | pip install crfm-helm |
| Cómo se invoca | helm-run --conf-paths run_specs.conf --suite v1 --max-eval-instances 1000 |
| Salida | JSON + UI web con leaderboard reproducible y transparencia por prompt |
HELM es la herramienta que introdujo la evaluación holística (múltiples métricas sobre el mismo escenario en lugar de un único número). En 2026, con HELM en modo mantenimiento, el ecosistema ha fragmentado en leaderboards especializados; pero HELM sigue siendo la referencia metodológica para evaluaciones que necesitan fairness y toxicidad además de precisión.
HELM Capabilities (publicado marzo 2025): leaderboard activo con transparencia total de prompt, reproducible con el framework HELM. Disponible en crfm.stanford.edu/helm/capabilities.
LiveBench
| Campo | Dato |
|---|---|
| Repositorio | github.com/LiveBench/LiveBench |
| Sitio oficial | livebench.ai |
| Licencia | MIT |
| Mantenedor | NYU, UT Austin, UC Santa Barbara |
| Paper | arXiv:2406.19314 |
| Tamaño | 1.000 preguntas activas (renovación mensual, mismo tamaño total) |
| Categorías | 6: math, coding, reasoning, language, instruction following, data analysis |
| Tareas | 18 subtareas |
| Qué mide | Capacidades generales sobre preguntas con respuesta verificable objetivamente |
| Anticontaminación | Preguntas generadas desde fuentes recientes: papers arXiv, noticias, IMDb, datasets nuevos |
| Scoring | Sin LLM-as-judge: respuesta verificable automáticamente (ground truth exacto) |
| Periodicidad | Nuevas preguntas mensualmente; las antiguas se retiran para evitar acumulación de memorización |
LiveBench es la respuesta arquitectural al problema de contaminación: si el benchmark cambia cada mes con preguntas basadas en fuentes publicadas después del cutoff del modelo evaluado, la memorización del training set no puede inflar el resultado. La limitación es el tamaño (1.000 preguntas) y que no cubre todos los dominios con la misma profundidad que MMLU.
Ejecución:
git clone https://github.com/LiveBench/LiveBench
cd LiveBench
pip install -e .
python livebench/gen_model_answer.py \
--model-path meta-llama/Llama-3.1-70B-Instruct \
--model-id llama3-70b
python livebench/gen_ground_truth_judgment.py \
--model-id llama3-70b
python livebench/show_livebench_result.py
lighteval (Hugging Face)
| Campo | Dato |
|---|---|
| Repositorio | github.com/huggingface/lighteval |
| Licencia | MIT |
| Mantenedor | Hugging Face (Leaderboard & Evals Team) |
| Tareas disponibles | 1.000+ tareas en múltiples dominios e idiomas |
| Backends soportados | Hugging Face Accelerate (CPU/GPU/multi-GPU), Nanotron, vLLM, TGI, endpoints OpenAI-compatible |
| Qué mide | Accuracy, BERT score, BLEU, exact match; ídem al harness + tareas propias de HF |
| Diferenciador | Diseñado para ser el motor de los leaderboards de HF; fácil extensión con tareas custom |
| Instalación | pip install lighteval |
| Cómo se invoca | `lighteval accelerate –model_args “pretrained= |
| Salida | JSON + integración directa con Hugging Face Hub para publicar resultados |
lighteval es el sucesor interno de lm-evaluation-harness en el ecosistema HF: más moderno, mejor soporte de vLLM y de backends distribuidos, y diseñado para poder correr sin salir del stack HF. Para equipos que ya usan el Hub para gestionar modelos, es la opción con menos fricción.
OpenLLM Leaderboard v2 (archivado 2025) → OpenEvals
El OpenLLM Leaderboard v2 evaluó más de 13.000 modelos entre junio de 2024 y su cierre en 2025, usando seis benchmarks fijos: IFEval, MuSR, GPQA, MATH, BBH y MMLU-Pro, todos ejecutados con lm-evaluation-harness. Su cierre fue consecuencia directa del problema de saturación y gaming: a medida que los benchmarks se conocían, los modelos se optimizaban para ellos.
Sucesor: OpenEvals (huggingface.co/spaces/OpenEvals/find-a-leaderboard)
| Aspecto | OpenLLM Leaderboard v2 | OpenEvals |
|---|---|---|
| Arquitectura | Único leaderboard centralizado | +200 leaderboards especializados de la comunidad |
| Benchmarks | Fijos (6 tareas) | Variables por leaderboard (math, code, médico, seguridad, etc.) |
| Modelos evaluados | 13.000+ | Distribuido por leaderboard |
| Motor de eval | lm-evaluation-harness | lighteval (mayoría) o harness |
| Estado | Archivado con UI actualizada (mar-2025) | Activo; se puede crear leaderboard propio |
| Ventaja | Consistencia histórica | Especialización, velocidad de adaptación |
La colección archivada está disponible como referencia en huggingface.co/collections/OpenEvals/archived-open-llm-leaderboard-2024-2025.
LMArena / Chatbot Arena
| Campo | Dato |
|---|---|
| Sitio | lmarena.ai (rebrand de LMSys Chatbot Arena, enero 2026) |
| Metodología | Comparaciones pareadas anónimas: el usuario vota qué respuesta prefiere sin saber el modelo |
| Modelo estadístico | Bradley-Terry (máxima verosimilitud sobre historial completo de enfrentamientos; sustituyó al Elo clásico por mayor estabilidad) |
| Votos acumulados | > 6 millones (jun-2026) |
| Variantes | Overall, Coding, Math, Hard Prompts, Multimodal — las especializadas son más fiables |
| Licencia/acceso | Gratuito (web); datos de votos disponibles bajo licencia CC |
| Limitaciones | Overall sesgado por disclosure selectiva de labs y gaming de formato; Bradley-Terry se recalibró en mid-2025 (Style Control), desplazando ±20–40 Elo en algunos modelos |
LMArena es el único benchmark basado en preferencia humana a escala. Su ventaja: captura calidad percibida real, no solo exactitud en MCQ. Su limitación: es difícil reproducirlo on-premise (requiere interfaz de usuario y panel de votantes humanos). Útil como señal de validación externa, no como gate de CI.
Tabla de decisión: qué herramienta para cada objetivo
| Objetivo | Herramienta | Por qué |
|---|---|---|
| Reproducir una eval académica estándar | lm-evaluation-harness | Motor de facto; máxima compatibilidad con papers |
| Evaluación holística (accuracy + fairness + toxicidad) | HELM (+ HELM Capabilities) | El único framework que mide todos los ejes a la vez |
| Evitar contaminación con preguntas recientes | LiveBench | Renovación mensual; respuesta verificable sin judge |
| Integración nativa con HF Hub y vLLM | lighteval | Backend vLLM, 1.000+ tareas, publicación directa en Hub |
| Comparar con el estado del arte público (OSS) | OpenEvals + lighteval | Ecosistema sucesor del OpenLLM Leaderboard |
| Preferencia humana a escala | LMArena | Bradley-Terry sobre millones de comparaciones reales |
| Eval de dominio personalizado (médico, legal, etc.) | lighteval con tarea custom | Extensión más sencilla que el harness |
| CI gate rápido (<10 min) | lm-eval harness (subset) | Tareas individuales con --tasks ifeval,gpqa + batching vLLM |
La trampa de la contaminación de datos
Qué es
Un modelo que ha visto durante preentrenamiento los datos de test de un benchmark memoriza respuestas en lugar de generalizar. El benchmark mide memorización, no capacidad. Esto se denomina data contamination o benchmark leakage.
Escala del problema (datos 2024–2025)
| Hallazgo | Fuente | Dato |
|---|---|---|
| N-gram overlap en Llama-2-70B | “Data Contamination or Genuine Generalization?” (2025) | 18,1% de solapamiento con datasets de eval |
| Caída out-of-distribution en modelos grandes contaminados | Ibíd. | −9,4 pp en prompts reformulados vs test original |
| HumanEval saturado | Artificial Analysis / múltiples reportes 2026 | Top modelos > 93%; diferencia ≤ 2 pp entre los 5 mejores |
| GPQA Diamond: aparición de contaminación indirecta | mindstudio.ai analysis 2026 | “Data laundering”: preguntas filtradas vía foros online |
Mecanismos de detección
1. N-gram overlap (método clásico)
Calcula la fracción de n-gramas del test set que aparecen en el corpus de preentrenamiento del modelo. Un umbral práctico: si más del 13% de los 8-gramas del test coinciden con el corpus, el resultado está comprometido.
[ \text{ratio contaminación} = \frac{|{g \in \text{n-gramas test}} \cap {g \in \text{n-gramas train}}|}{|\text{n-gramas test}|} ]
Límite: sólo funciona si tienes acceso al corpus de preentrenamiento. Para modelos cerrados, no es aplicable.
2. Canary strings (inserción de señuelos)
Se insertan cadenas únicas y aleatorias en el dataset de evaluación durante su creación. Si el modelo reproduce esas cadenas sin haberlas visto en contexto, se confirma que las memorizó del preentrenamiento. Técnica propuesta en “Extracting Training Data from Large Language Models” (Carlini et al., 2021) y adoptada en benchmarks recientes.
3. Perturbación y reformulación
Se generan variantes semánticas equivalentes del test (paraphrasing, cambio de nombres propios, traducción y retradución). Un modelo que generaliza mantiene el accuracy; un modelo que memoriza cae. La caída promedio detectada en modelos contaminados es de 9–15 pp sobre prompts reformulados equivalentes.
4. LiveBench (renovación mensual)
La solución arquitectural: si las preguntas se generan de fuentes publicadas después del cutoff del modelo (papers arXiv recientes, noticias, datos nuevos), la memorización del preentrenamiento no puede ayudar. El modelo debe razonar sobre información que nunca pudo ver.
5. Análisis de divergencia de kernel (Savelka et al., 2025)
Método estadístico más sofisticado: compara la distribución de embeddings del conjunto de test con la distribución del corpus de entrenamiento. Una divergencia anormalmente baja indica que el benchmark y el corpus de entrenamiento provienen de la misma fuente.
Por qué los leaderboards estáticos se saturan
El ciclo es predecible:
- Se publica un benchmark nuevo (MMLU en 2021, GPQA en 2023).
- Los labs lo usan como evaluation target durante el preentrenamiento y fine-tuning.
- El rendimiento en ese benchmark sube rápido —más rápido que la capacidad real.
- El benchmark deja de discriminar en la zona alta.
- La comunidad necesita un benchmark nuevo.
El tiempo medio entre publicación de un benchmark y saturación en modelos frontier ha pasado de ~36 meses (MMLU: 2021–2024) a ~18 meses (HumanEval: 2021–2023, GPQA: 2023–2025). La velocidad de saturación se acelera.
Metodología honesta: reproducibilidad y fuentes de varianza
Los cuatro parámetros que deben pinarse
Un resultado de eval sólo es reproducible si declara:
| Parámetro | Ejemplo | Por qué importa |
|---|---|---|
| Versión del harness | lm-evaluation-harness==0.4.3 | Cambios en la plantilla de prompt entre versiones invalidan la comparación |
| Versión exacta del modelo | meta-llama/Llama-3.1-70B-Instruct@sha256:abc… | Actualizaciones silenciosas del modelo en el Hub cambian los resultados |
| Plantilla de prompt (template) | mmlu_pro_cot_0shot vs mmlu_pro_5shot | La diferencia entre 0-shot y 5-shot puede ser 5–12 pp |
| Número de shots | --num_fewshot 5 | El estándar publicado varía por benchmark; 0-shot y 5-shot no son comparables |
Few-shot vs zero-shot: la diferencia numérica
La sensibilidad al número de shots varía drásticamente por benchmark:
| Benchmark | 0-shot típico | 5-shot típico | Diferencia |
|---|---|---|---|
| MMLU-Pro | 62% | 72% | +10 pp |
| GPQA Diamond | 55% | 65% | +10 pp |
| GSM8K | 70% | 82% | +12 pp |
| IFEval | 68% | 71% | +3 pp |
| HumanEval | 75% | 80% | +5 pp |
Publicar un resultado de MMLU-Pro en 0-shot sin indicarlo, cuando el estándar del leaderboard es 5-shot, infla la comparación en ~10 pp. Dos resultados del mismo modelo publicados con diferente número de shots no son comparables.
Sensibilidad al prompt
Perturbaciones menores en la plantilla de prompt generan variaciones de hasta ±8 pp en MCQ y ±15 pp en tareas de generación. Fuentes de varianza identificadas en la literatura:
- Orden de las opciones en MCQ (position bias): hasta ±4 pp.
- Formulación del enunciado (paraphrasing): ±3–8 pp.
- Presencia o ausencia de “Let’s think step by step”: ±5–12 pp en razonamiento.
- Idioma de las instrucciones del sistema: ±3–10 pp en modelos no multilingues.
Por qué dos evals dan resultados distintos
Escenario habitual: el paper reporta MMLU-Pro 74,3% y la reproducción da 71,8%. Causas frecuentes:
| Causa | Magnitud típica |
|---|---|
| Versión del harness diferente (plantilla cambiada) | 1–4 pp |
| Modelo con actualización silenciosa | 0,5–3 pp |
| Truncamiento distinto del contexto | 0,5–2 pp |
| Seed de sampling (para generación) | 0,3–1,5 pp |
| Tokenización con plantilla de chat vs sin plantilla | 2–8 pp |
La suma de estas fuentes explica gaps de 2–6 pp que no son ruido sino diferencias sistemáticas de protocolo.
La fórmula del intervalo de confianza para comparar dos modelos
Para saber si la diferencia entre el modelo A (accuracy (p_A)) y el modelo B ((p_B)) sobre un test set de tamaño (n) es estadísticamente significativa:
[ \Delta p \pm 1{,}96 \cdot \sqrt{\frac{p_A(1-p_A) + p_B(1-p_B)}{n}} ]
Aplicado a GPQA Diamond ((n = 198)), si (p_A = 0{,}90) y (p_B = 0{,}88):
[ \Delta p = 0{,}02 \quad;\quad \text{margen} = 1{,}96 \cdot \sqrt{\frac{0{,}09 + 0{,}1056}{198}} \approx 1{,}96 \cdot 0{,}0314 \approx 0{,}062 ]
El intervalo de confianza al 95% es ([{-0{,}042},\ {+0{,}082}]): cruza el cero. Una diferencia de 2 pp sobre 198 preguntas no es estadísticamente distinguible del ruido. Para distinguir 90% vs 88% con confianza 95%, hacen falta:
[ n \approx \frac{(1{,}96)^2 \cdot (p_A(1-p_A) + p_B(1-p_B))}{(\Delta p)^2} \approx \frac{3{,}84 \cdot 0{,}1956}{0{,}0004} \approx 1,878 \text{ preguntas} ]
GPQA Diamond no tiene ese tamaño. Diferencias de 1–2 pp en GPQA Diamond son estadísticamente invisibles.
El eje calidad en el cuadro de mando
El cuadro de mando de la plataforma tiene tres columnas: rendimiento (goodput bajo SLO), calidad (score en benchmark de referencia), energía (J/token). La columna de calidad se construye así:
| Campo | Contenido |
|---|---|
| Benchmark primario | MMLU-Pro (5-shot) — diferencia en zona 60–77% |
| Benchmark de razonamiento | GPQA Diamond (0-shot) — diferencia en zona 55–90% |
| Benchmark de instrucciones | IFEval (0-shot prompt-level accuracy) |
| Benchmark de código | MBPP (0-shot, pass@1) — menos saturado que HumanEval |
| Anticontaminación | LiveBench global score (mensual) |
| Herramienta | lm-evaluation-harness (primary) + lighteval (secondary, HF Hub) |
| Versión pineada | harness==0.4.3, lighteval==0.6.x |
| Shots | Declarado explícitamente por benchmark |
| Reproducibilidad | JSON de salida guardado con SHA del modelo |
| Frecuencia | Por release de modelo; no en CI de cada PR (coste de GPU-horas) |
Una eval completa en 4 benchmarks (MMLU-Pro 12.032 + GPQA 198 + IFEval 541 + MBPP 500) con un modelo 70B en un nodo genérico 2×H100 tarda del orden de 4–8 horas según el batch size y el número de shots. El coste de GPU es real: a ~5 €/h por tarjeta amortizada, una eval completa cuesta del orden de 40–80 €. No se ejecuta en cada commit; se ejecuta en cada release de modelo o adapter major.
Ver también
- Evals LLM: la capa después del tracing — la capa de evaluación interna del sistema (golden dataset, CI gate, judge calibrado). Complemento necesario a los benchmarks académicos de este artículo.
- LLM-as-judge: fundamentos — el judge LLM que evalúa outputs en producción; distinto del benchmark académico, pero comparte la necesidad de calibración y reproducibilidad.
- Evaluar un RAG: RAGAS y el golden dataset — especialización de la evaluación para sistemas RAG; faithfulness y context precision no aparecen en los benchmarks académicos de este artículo.
- Catálogo de herramientas de benchmark: ficha a ficha — el eje de rendimiento (TTFT, ITL, goodput); el par complementario de este artículo en el cuadro de mando.
- Benchmarking LLM: estado del arte — introducción B1 con los tres ejes y la metodología general del track.
Fuentes
- EleutherAI · lm-evaluation-harness — https://github.com/EleutherAI/lm-evaluation-harness
- Stanford CRFM · HELM — https://github.com/stanford-crfm/helm
- Stanford CRFM · HELM Capabilities (mar-2025) — https://crfm.stanford.edu/2025/03/20/helm-capabilities.html
- Stanford CRFM · HELM (sitio oficial) — https://crfm.stanford.edu/helm/
- LiveBench · paper arXiv:2406.19314 — https://arxiv.org/abs/2406.19314
- LiveBench · sitio oficial — https://livebench.ai
- LiveBench · GitHub — https://github.com/LiveBench/LiveBench
- NYU Center for Data Science · LiveBench blog — https://nyudatascience.medium.com/livebench-challenging-language-models-with-contamination-free-questions-999b52967ec8
- Hugging Face · lighteval — https://github.com/huggingface/lighteval
- Hugging Face · OpenLLM Leaderboard (archivado) — https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- Hugging Face · OpenEvals (sucesor) — https://huggingface.co/spaces/OpenEvals/find-a-leaderboard
- Hugging Face · Archived Open LLM Leaderboard 2024-2025 — https://huggingface.co/collections/OpenEvals/archived-open-llm-leaderboard-2024-2025
- LMArena · Chatbot Arena — https://lmarena.ai
- LMSys · blog Chatbot Arena Elo — https://www.lmsys.org/blog/2023-05-03-arena/
- “A Statistical Framework for Ranking LLM-Based Chatbots” · arXiv:2412.18407 — https://arxiv.org/pdf/2412.18407
- “Data Contamination or Genuine Generalization?” (2025) — https://www.suaspress.org/ojs/index.php/AJNS/article/view/v2n2a03
- “When Benchmarks Leak: Inference-Time Decontamination” (2025) · arXiv:2601.19334 — https://arxiv.org/pdf/2601.19334
- “How Contaminated Is Your Benchmark?” (2025) · arXiv:2502.00678 — https://arxiv.org/pdf/2502.00678
- “When AI Benchmarks Plateau” (2026) · arXiv:2602.16763 — https://arxiv.org/pdf/2602.16763
- GPQA · arXiv:2311.12022 — https://arxiv.org/abs/2311.12022
- GPQA Diamond leaderboard · Artificial Analysis — https://artificialanalysis.ai/evaluations/gpqa-diamond
- “The Emperor’s New Clothes in Benchmarking?” (2025) · arXiv:2503.16402 — https://arxiv.org/pdf/2503.16402
- lm-evaluation-harness · CLI reference — https://lm-evaluation-harness.readthedocs.io/running_evals/cli_reference/
- crfm-helm · PyPI — https://pypi.org/project/crfm-helm/