Benchmarking de energía en IA: frameworks, métricas y estado del arte (ficha a ficha)

Qué cubre esta introducción

Cuarto artículo de la serie de datos. Inventario del tooling para medir energía y carbono de cargas de IA: las métricas, las capas físicas de donde sale el dato, y la ficha de cada framework. Sin recomendaciones; solo datos y metodología.


Métricas de energía

MétricaDefiniciónUnidad
Potencia mediaconsumo instantáneo promedioW
Energía por tokenenergía consumida por token generadoJ/token
Energía por inferenciaenergía por peticiónµJ – Wh
Energía totalintegral de potencia en el tiempoWh, kWh
PUE (Power Usage Effectiveness)overhead del datacenter (refrigeración, etc.)ratio (≥1)
Carbonoenergía × intensidad de redgCO₂eq

Las dos identidades base:

$$\text{energía por token (J)} = \frac{\text{potencia media (W)}}{\text{throughput (tok/s)}}$$

$$\text{carbono} = \text{energía (kWh)} \times \text{PUE} \times \text{intensidad de red (gCO}_2/\text{kWh)}$$


De dónde sale el dato: las capas de medición

GPU — NVML / nvidia-smi / DCGMpotencia de la tarjeta por contador de hardwareCPU/DRAM — RAPLcontadores Intel/AMD vía /proc, perfAtribución por proceso/pod — eBPF + modeloreparte el vatio entre cargas (Kepler)Vatímetro físico (referencia)la verdad-terreno contra la que se calibran las estimacionesCuanto más arriba la capa, más contexto (carbono) ymenos precisión directa; el vatímetro es el patrón.

Frameworks, ficha a ficha

HerramientaMétodoÁmbitoLicenciaNotas
Zeus (ml.energy, UMich)NVML/contadoresGPU NVIDIA+AMD, CPU, DRAM, Apple Silicon, JetsonOSSMedir y optimizar energía de DL; paper NSDI'23
CodeCarbonnvidia-smi + estimaciónCPU+GPU+RAM, CO₂eqOSS (Python)El más cercano al vatímetro entre los Python; integra en CI/ML
CarbonTrackerruntime GPUsolo GPU (no CPU/mem)OSSLigero; cobertura limitada
ScaphandreRAPL (/proc, ticks)proceso/VM, precisión hardwareOSS (Rust)Precisión cruda de capa hardware; sin contexto de carbono
KeplereBPF + modelos MLcontenedor/pod/nodo (K8s)Apache 2.0 (CNCF)Exporter Prometheus cloud-native; atribución por pod
MLPerf Powermedición estandarizadade µW a MWMLCommonsBenchmark estándar de eficiencia energética

Notas de datos:

  • Precisión vs contexto: Scaphandre ofrece precisión cruda de la capa hardware (RAPL), mientras que los Python como CodeCarbon dan estimaciones de más alto nivel y conscientes del carbono, con más contexto pero menos exactitud directa; CodeCarbon es el que más se aproxima al vatímetro entre ellos (comparación de herramientas).
  • Kepler usa eBPF + modelos para estimar el consumo de contenedores y pods en Kubernetes (Kepler · GitHub); es la opción cloud-native para atribución por carga, en la línea de la observabilidad por DCGM.
  • Zeus no solo mide: también optimiza la energía (power capping, selección de frecuencia) (Zeus Project).

Leaderboards y benchmarks de energía

RecursoQué aporta
MLPerf Powermedición estandarizada de eficiencia, de µW a MW
HF AI Energy Scoreratings comparables de eficiencia energética por modelo
ML.ENERGY Benchmarkmedición e optimización automatizada de energía de inferencia
awesome-green-aiíndice curado de recursos y herramientas Green AI

Estado del arte 2026

  • Falta resolución específica de LLM: las herramientas de tracking generalistas miden bien a nivel de máquina/proceso, pero carecen de resolución específica para LLM (energía por token, por fase prefill/decode), y los simuladores carecen de modelado de emisiones — un hueco abierto del campo.
  • eBPF como tendencia (Kepler) para atribuir energía por pod sin instrumentar la app.
  • Estandarización de la comparación vía MLPerf Power y HF AI Energy Score.
  • El coste energético es además un componente del TCO (30–50 %, ver el artículo de apertura) y se conecta con palancas como la cuantización y el batching, que bajan los J/token.

Fuentes