<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Ml-Energy on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/ml-energy/</link><description>Recent content in Ml-Energy on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Tue, 16 Jun 2026 04:00:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/ml-energy/index.xml" rel="self" type="application/rss+xml"/><item><title>Leaderboards de energía de LLM: cómo comparar modelos por Wh/token y elegir por eficiencia</title><link>https://blog.lo0.es/posts/leaderboards-energia-llm/</link><pubDate>Tue, 16 Jun 2026 04:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/leaderboards-energia-llm/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>euros (N €)&lt;/strong>, decimales con coma. No se usa el símbolo de dólar
(en este sitio es delimitador de fórmula). Hardware de ejemplo genérico; sin infra real.&lt;/p>
&lt;/blockquote>
&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>Existen tres leaderboards OSS con datos públicos y metodología documentada para comparar la eficiencia energética de LLMs en inferencia: &lt;strong>Hugging Face AI Energy Score&lt;/strong> (166 modelos, Wh/query sobre H100, escala de 1–5 estrellas, lanzado febrero 2025), &lt;strong>ML.ENERGY Leaderboard v3&lt;/strong> (Universidad de Michigan, J/token por tarea, herramienta Zeus, diciembre 2025) y &lt;strong>MLPerf Power&lt;/strong> (samples/joule certificado con vatímetro físico Yokogawa WT310E). Los tres miden dimensiones distintas y no son directamente intercambiables. Los datos disponibles muestran que los modelos razonadores consumen hasta &lt;strong>700× más energía&lt;/strong> que sus equivalentes sin razonamiento; que los modelos MoE consumen aprox. &lt;strong>3× menos J/token&lt;/strong> que un denso de parámetros activos equivalentes; y que la cuantización INT4 reduce el consumo hasta un &lt;strong>79 %&lt;/strong> respecto a FP16 en condiciones favorables. El motor de inferencia (vLLM vs Transformers) puede mover el resultado otro &lt;strong>25–40 %&lt;/strong>. Sin fijar hardware, motor, batch size y tarea, ninguna comparativa entre leaderboards es válida.&lt;/p>
&lt;hr>
&lt;h2 id="contexto-del-track">Contexto del track&lt;/h2>
&lt;p>Este artículo es el &lt;strong>C5&lt;/strong> del pilar de energía. El contexto base:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/benchmarking-energia-llm-frameworks-estado-del-arte/">C1 — Estado del arte: benchmarking de energía de frameworks LLM&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/energia-por-token-metodologia/">C2 — Energía por token: metodología&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/herramientas-energia-deploy-precision-overhead/">C3 — Herramientas de medición en deploy&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/mlperf-power-eficiencia-energetica/">C4 — MLPerf Power&lt;/a>&lt;/li>
&lt;/ul>
&lt;p>Los &lt;a href="https://blog.lo0.es/posts/quantization-fundamentos-inferencia/">fundamentos de cuantización&lt;/a> son un requisito previo para la sección de cuantización de este artículo.&lt;/p>
&lt;hr>
&lt;h2 id="los-tres-leaderboards-ficha-técnica">Los tres leaderboards: ficha técnica&lt;/h2>
&lt;h3 id="1--hugging-face-ai-energy-score">1 · Hugging Face AI Energy Score&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Campo&lt;/th>
&lt;th>Detalle&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>URL&lt;/strong>&lt;/td>
&lt;td>huggingface.co/AIEnergyScore · huggingface.co/spaces/AIEnergyScore/Leaderboard&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Organización&lt;/strong>&lt;/td>
&lt;td>Hugging Face (Sasha Luccioni et al.), con Salesforce y Cohere como socios iniciales&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Lanzamiento&lt;/strong>&lt;/td>
&lt;td>Febrero 2025 (AI Action Summit, París); v2 diciembre 2025&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Modelos indexados&lt;/strong>&lt;/td>
&lt;td>166 (v1 feb. 2025); +39 nuevos en v2 (dic. 2025)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tareas medidas&lt;/strong>&lt;/td>
&lt;td>10 tareas: generación de texto, resumen, clasificación, generación de imagen, ASR, generación de audio, traducción, respuesta a preguntas, razonamiento (añadido en v2)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Unidad de medición&lt;/strong>&lt;/td>
&lt;td>&lt;strong>Wh (vatio-hora) por cada 1.000 queries&lt;/strong> de la tarea&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hardware de referencia&lt;/strong>&lt;/td>
&lt;td>&lt;strong>NVIDIA H100&lt;/strong> exclusivamente (GPU única para modelos clase A/B; múltiples para clase C)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Herramienta de medición&lt;/strong>&lt;/td>
&lt;td>CodeCarbon (energía GPU) + paquete &lt;code>ai-energy-benchmarks&lt;/code> (OSS, PyPI)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Sistema de rating&lt;/strong>&lt;/td>
&lt;td>1–5 estrellas por tarea: quintiles del rango de energía; ⭐⭐⭐⭐⭐ = 20 % más eficiente&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Batch size de referencia&lt;/strong>&lt;/td>
&lt;td>Batch size = 1 (no refleja producción con batching agresivo)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Acceso a modelos propietarios&lt;/strong>&lt;/td>
&lt;td>Sí, vía contenedor Docker auditado&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Frecuencia de actualización&lt;/strong>&lt;/td>
&lt;td>Sin cadencia fija; v1 feb. 2025, v2 dic. 2025&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Licencia del proyecto&lt;/strong>&lt;/td>
&lt;td>Apache 2.0 (repositorio github.com/huggingface/AIEnergyScore)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Alcance de la métrica.&lt;/strong> El AI Energy Score mide exclusivamente la energía de la GPU (CodeCarbon); no captura CPU, DRAM ni overhead del sistema. La unidad Wh/1k-queries incluye todo el tiempo de ejecución (prefill + decode + overhead del framework), pero a batch = 1. Los resultados son, por tanto, comparables entre modelos bajo las mismas condiciones de test, pero no extrapolables a un entorno de producción con concurrencia real sin corrección.&lt;/p>
&lt;p>&lt;strong>Clase de modelo&lt;/strong> (clasificación interna del proyecto):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Clase&lt;/th>
&lt;th>Definición&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>A&lt;/td>
&lt;td>Cabe en una GPU de consumidor (≤ ~24 GB VRAM)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>B&lt;/td>
&lt;td>Requiere una GPU de cloud (≥ 40 GB VRAM)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>C&lt;/td>
&lt;td>Requiere múltiples GPUs&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h3 id="2--mlenergy-leaderboard">2 · ML.ENERGY Leaderboard&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Campo&lt;/th>
&lt;th>Detalle&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>URL&lt;/strong>&lt;/td>
&lt;td>ml.energy/leaderboard&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Organización&lt;/strong>&lt;/td>
&lt;td>Symbiotic Lab, Universidad de Michigan (Mosharaf Chowdhury, Jae-Won Chung et al.)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Paper de referencia&lt;/strong>&lt;/td>
&lt;td>arXiv 2505.06371 — «The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization» (NeurIPS 2025 D&amp;amp;B, Spotlight)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Versión actual&lt;/strong>&lt;/td>
&lt;td>v3.0 (diciembre 2025)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Herramienta de medición&lt;/strong>&lt;/td>
&lt;td>&lt;strong>Zeus&lt;/strong> (github.com/ml-energy/zeus) vía NVML + RAPL; overhead de medición en single-digit ms&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Unidad de medición&lt;/strong>&lt;/td>
&lt;td>&lt;strong>J/token&lt;/strong> (energía por token de salida generado) y energía total por respuesta completa&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hardware de referencia&lt;/strong>&lt;/td>
&lt;td>NVIDIA A100 80 GB y H100 SXM (declarado por submission; varía entre modelos)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tareas medidas&lt;/strong>&lt;/td>
&lt;td>6 tareas: chat (conversación texto), razonamiento, generación de código, resumen, preguntas sobre imagen, generación de vídeo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Normalización&lt;/strong>&lt;/td>
&lt;td>Energía media por respuesta completa (prefill + decode). Se reporta también J/token de salida. Distingue explícitamente la tarea porque la longitud de salida la determina&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Alcance de la medición&lt;/strong>&lt;/td>
&lt;td>GPU vía NVML + CPU/DRAM vía RAPL; no es vatímetro a la pared&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Modelos cubiertos&lt;/strong>&lt;/td>
&lt;td>~40 arquitecturas en la versión de NeurIPS 2025; leaderboard web actualizado con más&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Licencia&lt;/strong>&lt;/td>
&lt;td>Apache 2.0 (zeus: github.com/ml-energy/zeus); MIT (benchmark: github.com/ml-energy/benchmark)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Frecuencia de actualización&lt;/strong>&lt;/td>
&lt;td>Continua en el leaderboard web; el paper es snapshot puntual&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Zeus como herramienta.&lt;/strong> Zeus es el motor de medición del ML.ENERGY Leaderboard y también un paquete independiente (&lt;code>pip install zeus-ml&lt;/code>). Soporta NVIDIA GPU (NVML), AMD GPU (ROCm), CPU (RAPL), DRAM (RAPL), Apple Silicon y NVIDIA Jetson. El &lt;code>ZeusMonitor&lt;/code> añade overhead de medición en single-digit milisegundos. Desde mayo 2025 es proyecto del ecosistema PyTorch. Licencia MIT.&lt;/p>
&lt;hr>
&lt;h3 id="3--mlperf-power">3 · MLPerf Power&lt;/h3>
&lt;p>La ficha completa está en el &lt;a href="https://blog.lo0.es/posts/mlperf-power-eficiencia-energetica/">artículo C4&lt;/a>. Resumen de los puntos relevantes para comparar con los anteriores:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Campo&lt;/th>
&lt;th>Detalle&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>URL&lt;/strong>&lt;/td>
&lt;td>mlcommons.org/benchmarks/inference-datacenter/&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Organización&lt;/strong>&lt;/td>
&lt;td>MLCommons Power Working Group (&amp;gt;20 orgs)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Unidad de medición&lt;/strong>&lt;/td>
&lt;td>&lt;strong>samples/joule&lt;/strong> (throughput/potencia media) = inverso de J/sample&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hardware&lt;/strong>&lt;/td>
&lt;td>Nodo completo medido a la pared (AC); analizador Yokogawa WT310E (±0,1 % de lectura)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tareas LLM&lt;/strong>&lt;/td>
&lt;td>GPT-J 6B, Llama 2 70B, Mixtral 8×7B (desde v5.0)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Granularidad&lt;/strong>&lt;/td>
&lt;td>Nodo completo (GPU + CPU + RAM + fans + PSU losses); no atribuye por carga individual&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Overhead de nodo sobre GPU&lt;/strong>&lt;/td>
&lt;td>25–45 % del consumo total en submissions con analizador físico&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Licencia del corpus&lt;/strong>&lt;/td>
&lt;td>Resultados públicos en GitHub (mlcommons/inference_results_vX.Y); PTDaemon requiere membresía MLCommons&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="comparativa-de-los-tres-leaderboards">Comparativa de los tres leaderboards&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Dimensión&lt;/th>
&lt;th>HF AI Energy Score&lt;/th>
&lt;th>ML.ENERGY Leaderboard&lt;/th>
&lt;th>MLPerf Power&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Unidad&lt;/strong>&lt;/td>
&lt;td>Wh/1k-queries&lt;/td>
&lt;td>J/token de salida&lt;/td>
&lt;td>samples/J (nodo completo)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hardware fijo&lt;/strong>&lt;/td>
&lt;td>H100 (todos los modelos)&lt;/td>
&lt;td>A100/H100 (varía)&lt;/td>
&lt;td>Depende del submitter&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Medición&lt;/strong>&lt;/td>
&lt;td>CodeCarbon (GPU)&lt;/td>
&lt;td>Zeus NVML+RAPL&lt;/td>
&lt;td>Vatímetro físico AC (Yokogawa)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cobertura del sistema&lt;/strong>&lt;/td>
&lt;td>Solo GPU&lt;/td>
&lt;td>GPU + CPU + DRAM&lt;/td>
&lt;td>Nodo completo incluyendo fans y PSU&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Batch size&lt;/strong>&lt;/td>
&lt;td>1&lt;/td>
&lt;td>Varía por tarea&lt;/td>
&lt;td>Según escenario LoadGen&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Modelos cubiertos&lt;/strong>&lt;/td>
&lt;td>166+ (texto, imagen, audio)&lt;/td>
&lt;td>~40 LLMs generativos&lt;/td>
&lt;td>Pocos (GPT-J, Llama 2, Mixtral)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Propietarios&lt;/strong>&lt;/td>
&lt;td>Sí (Docker auditado)&lt;/td>
&lt;td>No (solo OSS)&lt;/td>
&lt;td>Sí (miembros MLCommons)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Certificación externa&lt;/strong>&lt;/td>
&lt;td>No&lt;/td>
&lt;td>No&lt;/td>
&lt;td>Sí (SPEC PTDaemon)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Frecuencia&lt;/strong>&lt;/td>
&lt;td>Puntual (v1, v2)&lt;/td>
&lt;td>Continua&lt;/td>
&lt;td>Semestral (rondas MLPerf)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Licencia&lt;/strong>&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Apache 2.0 / MIT&lt;/td>
&lt;td>Resultados públicos; PTDaemon: membresía&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Incompatibilidad entre leaderboards.&lt;/strong> Los tres miden dimensiones distintas: Wh/query ≠ J/token ≠ samples/J nodo. Una comparativa directa exige convertir unidades y asumir que el hardware, el motor y la tarea son equivalentes —lo que rara vez se cumple entre leaderboards—.&lt;/p>
&lt;hr>
&lt;h2 id="cómo-se-mide-y-normaliza-la-energía-por-token">Cómo se mide y normaliza la energía por token&lt;/h2>
&lt;p>La identidad base se desarrolla en el &lt;a href="https://blog.lo0.es/posts/energia-por-token-metodologia/">artículo C2&lt;/a>:&lt;/p>
&lt;p>$$E_{\text{token}} ,[\text{J/tok}] = \frac{\bar{P} ,[\text{W}]}{\text{throughput} ,[\text{tok/s}]}$$&lt;/p>
&lt;p>Para comparar modelos entre sí, todos los factores distintos del modelo deben estar fijos:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Factor&lt;/th>
&lt;th>Efecto si varía&lt;/th>
&lt;th>Cómo fijarlo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Hardware&lt;/strong>&lt;/td>
&lt;td>H100 vs A100 vs L40S cambia el resultado 2–4×&lt;/td>
&lt;td>Declarar el hardware exacto; comparar solo dentro del mismo HW&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Motor de inferencia&lt;/strong>&lt;/td>
&lt;td>vLLM vs Transformers: 25–40 % de diferencia en J/token&lt;/td>
&lt;td>Fijar el motor y la versión&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Batch size / concurrencia&lt;/strong>&lt;/td>
&lt;td>Batch 1 vs batch 32: el throughput sube pero la potencia también; el ratio varía&lt;/td>
&lt;td>Declarar el batch size; comparar dentro del mismo régimen&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Precisión del modelo&lt;/strong>&lt;/td>
&lt;td>FP16 vs INT8 vs INT4: hasta −79 % de energía&lt;/td>
&lt;td>Declarar la precisión; no mezclar&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Longitud de la respuesta&lt;/strong>&lt;/td>
&lt;td>Una query con 50 tokens ≠ una con 500&lt;/td>
&lt;td>Usar dataset fijo o normalizar por token&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Ventana de medición&lt;/strong>&lt;/td>
&lt;td>Incluir warm-up o idle infla el numerador&lt;/td>
&lt;td>Alinear la ventana de potencia con la de tokens (ver C2)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Fórmula de conversión Wh/query ↔ J/token:&lt;/strong>&lt;/p>
&lt;p>$$E_{\text{J/tok}} = \frac{E_{\text{Wh/query}} \times 3600}{\bar{n}_{\text{tokens/query}}}$$&lt;/p>
&lt;p>Ejemplo: si un modelo consume 0,05 Wh/query (= 180 J/query) y genera una media de 200 tokens por query:&lt;/p>
&lt;p>$$E_{\text{J/tok}} = \frac{0{,}05 \times 3600}{200} = \frac{180}{200} = 0{,}9 ,\text{J/tok}$$&lt;/p>
&lt;hr>
&lt;h2 id="datos-del-ai-energy-score-ejemplos-concretos">Datos del AI Energy Score: ejemplos concretos&lt;/h2>
&lt;p>Los datos de v2 (diciembre 2025, hardware H100, batch = 1, tarea de generación de texto con razonamiento activado/desactivado):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th>Params activos&lt;/th>
&lt;th>Razonamiento&lt;/th>
&lt;th>GPU Wh/1k queries&lt;/th>
&lt;th>Estrellas (text-gen)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>DistilGPT-2&lt;/td>
&lt;td>82 M&lt;/td>
&lt;td>—&lt;/td>
&lt;td>&lt;strong>1,31&lt;/strong>&lt;/td>
&lt;td>⭐⭐⭐⭐⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SmolLM3-3B&lt;/td>
&lt;td>3 B&lt;/td>
&lt;td>Off&lt;/td>
&lt;td>18,35&lt;/td>
&lt;td>⭐⭐⭐⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SmolLM3-3B&lt;/td>
&lt;td>3 B&lt;/td>
&lt;td>On&lt;/td>
&lt;td>12.791,22&lt;/td>
&lt;td>⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Phi-4-reasoning-plus&lt;/td>
&lt;td>15 B&lt;/td>
&lt;td>Off&lt;/td>
&lt;td>18,42&lt;/td>
&lt;td>⭐⭐⭐⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Phi-4-reasoning-plus&lt;/td>
&lt;td>15 B&lt;/td>
&lt;td>On&lt;/td>
&lt;td>9.461,61&lt;/td>
&lt;td>⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>DeepSeek-R1-Distill-Llama-70B&lt;/td>
&lt;td>70 B&lt;/td>
&lt;td>Off&lt;/td>
&lt;td>49,53&lt;/td>
&lt;td>⭐⭐⭐&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>DeepSeek-R1-Distill-Llama-70B&lt;/td>
&lt;td>70 B&lt;/td>
&lt;td>On&lt;/td>
&lt;td>7.626,53&lt;/td>
&lt;td>⭐&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Fuente: Hugging Face AI Energy Score v2 (dic. 2025).&lt;/p>
&lt;p>&lt;strong>Multiplicador del razonamiento.&lt;/strong> El aumento de energía al activar el razonamiento va de ×154 (DeepSeek-R1-Distill-Llama-70B) a ×697 (SmolLM3-3B). La causa directa: los modelos razonadores generan entre 300 y 800 veces más tokens que sus equivalentes sin razonamiento (cadenas de pensamiento internas). La media del corpus v2 es ×30 de energía adicional por razonamiento.&lt;/p>
&lt;p>&lt;strong>Nuevos modelos no son siempre más eficientes.&lt;/strong> De los 14 modelos comparables (sin razonamiento, sin MoE, tamaño similar) entre la cohorte de feb. 2025 y dic. 2025: 8 de 14 tenían igual o mayor energía. El rango va desde el 3 % de la energía del modelo de referencia hasta casi 2×. La escala de parámetros ya no es suficiente para estimar la eficiencia.&lt;/p>
&lt;hr>
&lt;h2 id="datos-del-mlenergy-leaderboard-jtoken-por-familia">Datos del ML.ENERGY Leaderboard: J/token por familia&lt;/h2>
&lt;p>Los datos del paper arXiv 2505.06371 y del leaderboard v3 (hardware A100/H100, vLLM como motor de referencia):&lt;/p>
&lt;p>&lt;strong>Escala dentro de una familia (Llama 3):&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Tamaño&lt;/th>
&lt;th>Params&lt;/th>
&lt;th>J/token relativo (base = 1B)&lt;/th>
&lt;th>Ratio params/energía&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama 3 · 1B&lt;/td>
&lt;td>1 B&lt;/td>
&lt;td>1,0×&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama 3 · 8B&lt;/td>
&lt;td>8 B&lt;/td>
&lt;td>~2,1×&lt;/td>
&lt;td>8× params → 2,1× energía&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama 3 · 70B&lt;/td>
&lt;td>70 B&lt;/td>
&lt;td>~7,3×&lt;/td>
&lt;td>70× params → 7,3× energía&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La sublinealidad (70× params → 7,3× energía, no 70×) refleja que la energía en inferencia está dominada por el ancho de banda de memoria (memory-bandwidth bound), no por los FLOPs en bruto.&lt;/p>
&lt;p>&lt;strong>Denso vs MoE:&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th>Tipo&lt;/th>
&lt;th>Params totales&lt;/th>
&lt;th>Params activos/token&lt;/th>
&lt;th>J/token relativo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama 3 · 8B&lt;/td>
&lt;td>Denso&lt;/td>
&lt;td>8 B&lt;/td>
&lt;td>8 B&lt;/td>
&lt;td>1,0×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Mixtral 8×7B&lt;/td>
&lt;td>MoE (top-2)&lt;/td>
&lt;td>47 B&lt;/td>
&lt;td>~13 B&lt;/td>
&lt;td>~0,33×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama 3 · 70B&lt;/td>
&lt;td>Denso&lt;/td>
&lt;td>70 B&lt;/td>
&lt;td>70 B&lt;/td>
&lt;td>~3,5×&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El MoE activa solo 2 de 8 expertos por token. Mixtral 8×7B consume aproximadamente ⅓ de los J/token de un modelo denso de 8B activos con calidad comparable a un modelo denso de mayor escala. El overhead de routing y de carga de todos los expertos en memoria contrarresta parte de la ganancia teórica.&lt;/p>
&lt;p>&lt;strong>Efecto de la tarea (ML.ENERGY v3, mismo modelo):&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Tarea&lt;/th>
&lt;th>Multiplicador de energía por respuesta (vs chat)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Chat (conversación texto)&lt;/td>
&lt;td>1× (referencia)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Resumen&lt;/td>
&lt;td>~2–4×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Generación de código&lt;/td>
&lt;td>~3–6×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Razonamiento&lt;/td>
&lt;td>&lt;strong>~25×&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Imagen + texto&lt;/td>
&lt;td>1,1–5,2×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Vídeo + texto&lt;/td>
&lt;td>1,3–15,0×&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El razonamiento usa ~10× más tokens por respuesta y la memoria adicional de la cadena de pensamiento reduce el batch size efectivo, aumentando la energía por token por presión de memoria.&lt;/p>
&lt;hr>
&lt;h2 id="efecto-de-la-cuantización-sobre-la-energía-por-token">Efecto de la cuantización sobre la energía por token&lt;/h2>
&lt;p>Datos de hardware NVIDIA H100, Llama 3 familia (arXiv 2508.16712 y arXiv 2504.03360):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Precisión&lt;/th>
&lt;th>Reducción de energía vs FP16&lt;/th>
&lt;th>Condición&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>FP16&lt;/td>
&lt;td>referencia (0 %)&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>BF16&lt;/td>
&lt;td>~0 % (iso-energía)&lt;/td>
&lt;td>Mismo hardware y motor&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>FP8&lt;/td>
&lt;td>−25 a −35 %&lt;/td>
&lt;td>H100/H200 con soporte hardware nativo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>INT8&lt;/td>
&lt;td>−23 a −44 % (mediana ~39 %)&lt;/td>
&lt;td>Depende del batch size; más a batches bajos&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>INT4 (AWQ / GPTQ)&lt;/td>
&lt;td>−50 a −79 %&lt;/td>
&lt;td>Requiere hardware con soporte de baja precisión eficiente&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Advertencia.&lt;/strong> En GPUs sin soporte hardware nativo de INT4 (o con kernels de dequantización subóptimos), la cuantización puede &lt;strong>aumentar&lt;/strong> la latencia y la energía por token en vez de reducirla, debido al overhead de dequantización en tiempo de ejecución. El beneficio de la cuantización es real en H100/A100 con TensorRT-LLM o llama.cpp bien configurado, pero no garantizado con cualquier motor.&lt;/p>
&lt;p>&lt;strong>Cuantización y throughput:&lt;/strong> la reducción de memoria por modelo libera VRAM, lo que permite batch sizes mayores. A batch mayor, el throughput sube más que la potencia, reduciendo aún más el J/token. El efecto neto puede superar la reducción directa de energía por operación.&lt;/p>
&lt;div class="diagram" style="max-width:760px;margin:1rem auto;">
&lt;svg viewBox="0 0 760 180" role="img" aria-label="Reduccion de J/token segun precision: FP16 referencia, FP8 menos 30 porciento, INT8 menos 40 porciento, INT4 menos 70 porciento, con advertencia de overhead de dequantizacion si el hardware no tiene soporte nativo" xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.br{fill:none;stroke:currentColor;stroke-width:1.3}.tl{font:600 12px sans-serif;fill:currentColor}.ts{font:11px sans-serif;fill:currentColor}.lbl{font:bold 11px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="60" y1="20" x2="60" y2="140"/>
&lt;line class="ax" x1="60" y1="140" x2="720" y2="140"/>
&lt;text x="10" y="85" class="ts" transform="rotate(-90 10 85)">J/token relativo&lt;/text>
&lt;rect class="br" x="80" y="30" width="110" height="110"/>
&lt;text x="88" y="155" class="ts">FP16&lt;/text>
&lt;text x="100" y="80" class="lbl">100 %&lt;/text>
&lt;rect class="br" x="230" y="63" width="110" height="77"/>
&lt;text x="238" y="155" class="ts">FP8&lt;/text>
&lt;text x="248" y="108" class="lbl">~70 %&lt;/text>
&lt;rect class="br" x="380" y="74" width="110" height="66"/>
&lt;text x="388" y="155" class="ts">INT8&lt;/text>
&lt;text x="398" y="112" class="lbl">~61 %&lt;/text>
&lt;rect class="br" x="530" y="97" width="110" height="43"/>
&lt;text x="538" y="155" class="ts">INT4&lt;/text>
&lt;text x="548" y="122" class="lbl">~30 %&lt;/text>
&lt;text x="60" y="170" class="ts">Hardware: H100 SXM con soporte nativo. Sin soporte nativo, INT4 puede ser iso-energético o peor que FP16.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="efecto-del-motor-de-inferencia">Efecto del motor de inferencia&lt;/h2>
&lt;p>El motor es una variable que los leaderboards de nivel de modelo tienden a fijar pero que en producción es una decisión propia. Datos de comparativas publicadas (vLLM, TensorRT-LLM, Transformers Naive, A100):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Motor&lt;/th>
&lt;th>J/token relativo vs Transformers base&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Transformers (naive, no optimizado)&lt;/td>
&lt;td>1,0× (referencia)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>vLLM (PagedAttention, continuous batching)&lt;/td>
&lt;td>−25 a −35 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>TensorRT-LLM (kernels NVIDIA optimizados, FP8)&lt;/td>
&lt;td>−35 a −45 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>llama.cpp (CPU/GPU híbrido, INT4)&lt;/td>
&lt;td>Variable; −30 a −60 % según hardware&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Cambiar de Transformers naive a TensorRT-LLM puede reducir la energía por token más que pasar de un modelo de 70B a uno de 8B del mismo origen. La elección del motor es una palanca de eficiencia energética de primer orden.&lt;/p>
&lt;hr>
&lt;h2 id="límites-de-los-leaderboards-de-energía">Límites de los leaderboards de energía&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Límite&lt;/th>
&lt;th>Descripción&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Hardware-dependencia&lt;/strong>&lt;/td>
&lt;td>Un ranking sobre H100 no es válido sobre A100 o L40S sin corrección. La jerarquía de modelos puede cambiar de hardware en hardware.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Motor-dependencia&lt;/strong>&lt;/td>
&lt;td>Los resultados son válidos solo para el motor con que se midió. Un modelo ×2 más eficiente en el leaderboard puede quedar detrás si se usa un motor más lento.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Batch size artificial&lt;/strong>&lt;/td>
&lt;td>AI Energy Score usa batch = 1. En producción con batching agresivo, la relación de eficiencia entre modelos grandes y pequeños cambia: los grandes escalan mejor con el batch.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>No captura entrenamiento&lt;/strong>&lt;/td>
&lt;td>Todos los leaderboards miden solo inferencia. El coste energético del entrenamiento (que puede superar 1.000× el de la inferencia durante la vida del modelo) está fuera del scope.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Incompatibilidad entre leaderboards&lt;/strong>&lt;/td>
&lt;td>Wh/query, J/token y samples/J miden cosas distintas. Convertir entre ellas requiere conocer la longitud media de output, que varía por tarea y dataset.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cobertura parcial del sistema&lt;/strong>&lt;/td>
&lt;td>AI Energy Score y ML.ENERGY miden GPU (+CPU/DRAM con Zeus); no capturan el overhead del sistema completo (PSU losses, fans, interconexión). MLPerf Power sí lo hace, pero cubre pocos modelos.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Latencia de datos&lt;/strong>&lt;/td>
&lt;td>Los leaderboards publican resultados meses después de los tests. Hardware nuevo (H200, B100, B200) puede no tener datos disponibles en el momento de la decisión.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Ausencia de PUE&lt;/strong>&lt;/td>
&lt;td>Ninguno de los tres incluye el PUE del datacenter. Para el TCO real, el J/token del leaderboard debe multiplicarse por el PUE propio.&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="tabla-de-decisión-elegir-modelo-por-eficiencia-energética">Tabla de decisión: elegir modelo por eficiencia energética&lt;/h2>
&lt;p>Los criterios de selección en orden, sin prosa de recomendación:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Criterio&lt;/th>
&lt;th>Pregunta&lt;/th>
&lt;th>Acción&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Tarea con razonamiento&lt;/strong>&lt;/td>
&lt;td>¿La tarea requiere razonamiento paso a paso?&lt;/td>
&lt;td>Sí → multiplicar la energía base del modelo ×30–700 antes de comparar. Si hay alternativa sin razonamiento con calidad suficiente, preferirla.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Tamaño vs calidad mínima&lt;/strong>&lt;/td>
&lt;td>¿Cuál es la calidad mínima aceptable para la tarea?&lt;/td>
&lt;td>Consultar benchmarks de calidad (ver &lt;a href="https://blog.lo0.es/posts/benchmarks-de-calidad-llm/">B7&lt;/a> cuando disponible). Elegir el modelo más pequeño que supera el umbral de calidad; la energía crece sublinealmente con el tamaño.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Denso vs MoE&lt;/strong>&lt;/td>
&lt;td>¿El hardware tiene memoria suficiente para el MoE completo?&lt;/td>
&lt;td>Si sí: el MoE activo-equivalente consume ~3× menos J/token que el denso equivalente. Si no: la paginación o el offload comen la ganancia.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Precisión&lt;/strong>&lt;/td>
&lt;td>¿El hardware tiene soporte nativo de FP8/INT4?&lt;/td>
&lt;td>H100/H200: FP8 nativo (−30 %). Con TensorRT-LLM: INT4 AWQ (−50 a −79 %). Sin soporte nativo: mantener FP16 o BF16 hasta validar con benchmark propio.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Motor de inferencia&lt;/strong>&lt;/td>
&lt;td>¿Se está usando el motor óptimo para el hardware?&lt;/td>
&lt;td>Medir con &lt;a href="https://blog.lo0.es/posts/herramientas-energia-deploy-precision-overhead/">C3&lt;/a>. Si el motor no está optimizado, el cambio de motor puede reducir más la energía que el cambio de modelo.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Consultar leaderboard&lt;/strong>&lt;/td>
&lt;td>¿La tarea está cubierta por AI Energy Score o ML.ENERGY?&lt;/td>
&lt;td>Filtrar por: misma tarea, misma clase de hardware, razonamiento off/on explícito. No comparar modelos de distinta clase de hardware ni distinto motor.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Validar en hardware propio&lt;/strong>&lt;/td>
&lt;td>¿Los resultados del leaderboard son sobre el mismo HW que el propio?&lt;/td>
&lt;td>Siempre validar con Zeus o DCGM en el hardware propio antes de tomar la decisión final. El leaderboard es referencia, no predicción.&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Tabla de señales rápidas:&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Señal&lt;/th>
&lt;th>Efecto en energía&lt;/th>
&lt;th>Fuente del dato&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Activar razonamiento&lt;/td>
&lt;td>×30–700&lt;/td>
&lt;td>AI Energy Score v2&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Pasar de 8B denso a 70B denso&lt;/td>
&lt;td>~×3,5&lt;/td>
&lt;td>ML.ENERGY Leaderboard v3&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Pasar de denso 8B a MoE activo-equiv. 8B&lt;/td>
&lt;td>~×0,33 (−67 %)&lt;/td>
&lt;td>ML.ENERGY v3&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>FP16 → INT4 (hardware compatible)&lt;/td>
&lt;td>−50 a −79 %&lt;/td>
&lt;td>arXiv 2508.16712, 2504.03360&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Transformers naive → TensorRT-LLM FP8&lt;/td>
&lt;td>−35 a −45 %&lt;/td>
&lt;td>TokenPowerBench, ML.ENERGY&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>PUE 1,0 → PUE 1,5&lt;/td>
&lt;td>+50 % en energía real del datacenter&lt;/td>
&lt;td>MLPerf Power (scope)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="datos-de-referencia-energía-en-un-nodo-genérico-4h100-sxm">Datos de referencia: energía en un nodo genérico (4×H100 SXM)&lt;/h2>
&lt;p>Hardware de ejemplo genérico para anclar los valores de leaderboard a un nodo real:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Parámetro&lt;/th>
&lt;th>Valor orientativo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>TDP 4×H100 SXM 80 GB&lt;/td>
&lt;td>4 × 700 W = 2.800 W (solo GPU)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>System power nodo completo (pared)&lt;/td>
&lt;td>~3.500–5.000 W según carga&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Overhead no-GPU sobre GPU&lt;/td>
&lt;td>25–45 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>J/token Llama 3 70B FP16, vLLM, batch 8&lt;/td>
&lt;td>~1–3 J/tok (orientativo, A100/H100)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>J/token Llama 3 8B FP16, vLLM, batch 8&lt;/td>
&lt;td>~0,3–0,7 J/tok (orientativo)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>J/token Mixtral 8×7B FP16, vLLM, batch 8&lt;/td>
&lt;td>~0,4–0,8 J/tok (orientativo)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Energía por 1M tokens (Llama 3 70B, PUE 1,4)&lt;/td>
&lt;td>~0,5–1,2 kWh&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Los valores J/token son orientativos y dependen fuertemente del batch size, longitud del prompt, ratio prefill/decode y versión del motor. Para valores certificados, consultar las submissions de MLPerf Power (&lt;a href="https://mlcommons.org/benchmarks/inference-datacenter/">mlcommons.org&lt;/a>).&lt;/p>
&lt;p>Para el nodo de referencia alternativo (4×A100 PCIe 80 GB, TDP ~300 W c/u):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Parámetro&lt;/th>
&lt;th>Valor orientativo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>TDP 4×A100 PCIe&lt;/td>
&lt;td>4 × 300 W = 1.200 W (solo GPU)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>System power nodo completo&lt;/td>
&lt;td>~1.500–2.000 W&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>J/token Llama 3 70B FP16, vLLM&lt;/td>
&lt;td>~2–5 J/tok (orientativo; mayor por menor bandwidth HBM vs SXM)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="cómo-usar-los-leaderboards-en-la-práctica">Cómo usar los leaderboards en la práctica&lt;/h2>
&lt;p>Flujo de decisión basado en datos públicos disponibles:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Paso&lt;/th>
&lt;th>Acción&lt;/th>
&lt;th>Recurso&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>1&lt;/td>
&lt;td>Identificar la tarea dominante del workload&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>2&lt;/td>
&lt;td>Consultar AI Energy Score filtrado por tarea y clase de hardware&lt;/td>
&lt;td>huggingface.co/spaces/AIEnergyScore/Leaderboard&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3&lt;/td>
&lt;td>Anotar los modelos con ⭐⭐⭐⭐ o ⭐⭐⭐⭐⭐ en la tarea&lt;/td>
&lt;td>Wh/1k-queries como referencia relativa&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>4&lt;/td>
&lt;td>Cruzar con ML.ENERGY para el J/token de cada candidato&lt;/td>
&lt;td>ml.energy/leaderboard&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>5&lt;/td>
&lt;td>Si algún modelo está en MLPerf Power (Llama 2, GPT-J, Mixtral), consultar samples/J certificado&lt;/td>
&lt;td>mlcommons.org/benchmarks/inference-datacenter/&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>6&lt;/td>
&lt;td>Seleccionar los 2–3 candidatos con mejor ratio energía/calidad&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>7&lt;/td>
&lt;td>Medir en el hardware propio con Zeus o DCGM&lt;/td>
&lt;td>github.com/ml-energy/zeus&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>8&lt;/td>
&lt;td>Multiplicar el J/token medido por el PUE del datacenter&lt;/td>
&lt;td>J/token × PUE = J/token efectivo en el datacenter&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>9&lt;/td>
&lt;td>Calcular el coste eléctrico por token con el precio contratado&lt;/td>
&lt;td>Ver &lt;a href="https://blog.lo0.es/posts/energia-por-token-metodologia/">C2&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="ver-también">Ver también&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/benchmarking-energia-llm-frameworks-estado-del-arte/">C1 — Benchmarking de energía de frameworks LLM: estado del arte&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/energia-por-token-metodologia/">C2 — Energía por token: metodología y mercado eléctrico&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/herramientas-energia-deploy-precision-overhead/">C3 — Herramientas de medición en deploy: precisión y overhead&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/mlperf-power-eficiencia-energetica/">C4 — MLPerf Power: el benchmark estándar certificado&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/quantization-fundamentos-inferencia/">Fundamentos de cuantización para inferencia&lt;/a>&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Hugging Face · AI Energy Score · organización y leaderboard — &lt;a href="https://huggingface.co/AIEnergyScore">https://huggingface.co/AIEnergyScore&lt;/a>&lt;/li>
&lt;li>Hugging Face · Announcing AI Energy Score Ratings (Luccioni et al., feb. 2025) — &lt;a href="https://huggingface.co/blog/sasha/announcing-ai-energy-score">https://huggingface.co/blog/sasha/announcing-ai-energy-score&lt;/a>&lt;/li>
&lt;li>Hugging Face · AI Energy Score v2: Refreshed Leaderboard, now with Reasoning (Luccioni, Gamazaychikov, dic. 2025) — &lt;a href="https://huggingface.co/blog/sasha/ai-energy-score-v2">https://huggingface.co/blog/sasha/ai-energy-score-v2&lt;/a>&lt;/li>
&lt;li>Hugging Face · AIEnergyScore GitHub (Apache 2.0) — &lt;a href="https://github.com/huggingface/AIEnergyScore">https://github.com/huggingface/AIEnergyScore&lt;/a>&lt;/li>
&lt;li>ML.ENERGY Initiative · Leaderboard — &lt;a href="https://ml.energy/leaderboard">https://ml.energy/leaderboard&lt;/a>&lt;/li>
&lt;li>ML.ENERGY Initiative · Blog: Diagnosing Inference Energy Consumption with the ML.ENERGY Leaderboard v3.0 (dic. 2025) — &lt;a href="https://ml.energy/blog/measurement/energy/diagnosing-inference-energy-consumption-with-the-mlenergy-leaderboard-v30/">https://ml.energy/blog/measurement/energy/diagnosing-inference-energy-consumption-with-the-mlenergy-leaderboard-v30/&lt;/a>&lt;/li>
&lt;li>arXiv 2505.06371 · The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization (Chung et al., NeurIPS 2025 D&amp;amp;B Spotlight) — &lt;a href="https://arxiv.org/abs/2505.06371">https://arxiv.org/abs/2505.06371&lt;/a>&lt;/li>
&lt;li>ML.ENERGY Initiative · Zeus: Deep Learning Energy Measurement and Optimization — &lt;a href="https://ml.energy/zeus/">https://ml.energy/zeus/&lt;/a>&lt;/li>
&lt;li>GitHub ml-energy/zeus (MIT) — &lt;a href="https://github.com/ml-energy/zeus">https://github.com/ml-energy/zeus&lt;/a>&lt;/li>
&lt;li>PyTorch Blog · Zeus: Deep Learning Energy Measurement and Optimization — &lt;a href="https://pytorch.org/blog/zeus/">https://pytorch.org/blog/zeus/&lt;/a>&lt;/li>
&lt;li>University of Michigan CSE · Power-hungry AI: Researchers evaluate energy consumption across models — &lt;a href="https://cse.engin.umich.edu/stories/power-hungry-ai-researchers-evaluate-energy-consumption-across-models">https://cse.engin.umich.edu/stories/power-hungry-ai-researchers-evaluate-energy-consumption-across-models&lt;/a>&lt;/li>
&lt;li>arXiv 2512.03024 · TokenPowerBench: Benchmarking the Power Consumption of LLM Inference (dic. 2024) — &lt;a href="https://arxiv.org/abs/2512.03024">https://arxiv.org/abs/2512.03024&lt;/a>&lt;/li>
&lt;li>arXiv 2508.16712 · Systematic Characterization of LLM Quantization: A Performance, Energy, and Quality Perspective — &lt;a href="https://arxiv.org/abs/2508.16712">https://arxiv.org/abs/2508.16712&lt;/a>&lt;/li>
&lt;li>arXiv 2504.03360 · Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency — &lt;a href="https://arxiv.org/abs/2504.03360">https://arxiv.org/abs/2504.03360&lt;/a>&lt;/li>
&lt;li>Epoch AI · AI Energy Use: Data &amp;amp; Research — &lt;a href="https://epoch.ai/topics/energy">https://epoch.ai/topics/energy&lt;/a>&lt;/li>
&lt;li>MLCommons · MLPerf Inference Datacenter benchmark results — &lt;a href="https://mlcommons.org/benchmarks/inference-datacenter/">https://mlcommons.org/benchmarks/inference-datacenter/&lt;/a>&lt;/li>
&lt;li>arXiv 2410.12032 · MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems (Tschand et al., 2024) — &lt;a href="https://arxiv.org/abs/2410.12032">https://arxiv.org/abs/2410.12032&lt;/a>&lt;/li>
&lt;li>Coalition for Sustainable AI · AI Energy Score as best practice in benchmarking — &lt;a href="https://www.sustainableaicoalition.org/ai-energy-score-a-standardized-approach-to-evaluating-ai-model-energy-efficiency/">https://www.sustainableaicoalition.org/ai-energy-score-a-standardized-approach-to-evaluating-ai-model-energy-efficiency/&lt;/a>&lt;/li>
&lt;/ul></description></item></channel></rss>