Benchmarking de energía en IA: frameworks, métricas y estado del arte (ficha a ficha)
Qué cubre esta introducción
Cuarto artículo de la serie de datos. Inventario del tooling para medir energía y carbono de cargas de IA: las métricas, las capas físicas de donde sale el dato, y la ficha de cada framework. Sin recomendaciones; solo datos y metodología.
Métricas de energía
| Métrica | Definición | Unidad |
|---|---|---|
| Potencia media | consumo instantáneo promedio | W |
| Energía por token | energía consumida por token generado | J/token |
| Energía por inferencia | energía por petición | µJ – Wh |
| Energía total | integral de potencia en el tiempo | Wh, kWh |
| PUE (Power Usage Effectiveness) | overhead del datacenter (refrigeración, etc.) | ratio (≥1) |
| Carbono | energía × intensidad de red | gCO₂eq |
Las dos identidades base:
$$\text{energía por token (J)} = \frac{\text{potencia media (W)}}{\text{throughput (tok/s)}}$$
$$\text{carbono} = \text{energía (kWh)} \times \text{PUE} \times \text{intensidad de red (gCO}_2/\text{kWh)}$$
De dónde sale el dato: las capas de medición
Frameworks, ficha a ficha
| Herramienta | Método | Ámbito | Licencia | Notas |
|---|---|---|---|---|
| Zeus (ml.energy, UMich) | NVML/contadores | GPU NVIDIA+AMD, CPU, DRAM, Apple Silicon, Jetson | OSS | Medir y optimizar energía de DL; paper NSDI'23 |
| CodeCarbon | nvidia-smi + estimación | CPU+GPU+RAM, CO₂eq | OSS (Python) | El más cercano al vatímetro entre los Python; integra en CI/ML |
| CarbonTracker | runtime GPU | solo GPU (no CPU/mem) | OSS | Ligero; cobertura limitada |
| Scaphandre | RAPL (/proc, ticks) | proceso/VM, precisión hardware | OSS (Rust) | Precisión cruda de capa hardware; sin contexto de carbono |
| Kepler | eBPF + modelos ML | contenedor/pod/nodo (K8s) | Apache 2.0 (CNCF) | Exporter Prometheus cloud-native; atribución por pod |
| MLPerf Power | medición estandarizada | de µW a MW | MLCommons | Benchmark estándar de eficiencia energética |
Notas de datos:
- Precisión vs contexto: Scaphandre ofrece precisión cruda de la capa hardware (RAPL), mientras que los Python como CodeCarbon dan estimaciones de más alto nivel y conscientes del carbono, con más contexto pero menos exactitud directa; CodeCarbon es el que más se aproxima al vatímetro entre ellos (comparación de herramientas).
- Kepler usa eBPF + modelos para estimar el consumo de contenedores y pods en Kubernetes (Kepler · GitHub); es la opción cloud-native para atribución por carga, en la línea de la observabilidad por DCGM.
- Zeus no solo mide: también optimiza la energía (power capping, selección de frecuencia) (Zeus Project).
Leaderboards y benchmarks de energía
| Recurso | Qué aporta |
|---|---|
| MLPerf Power | medición estandarizada de eficiencia, de µW a MW |
| HF AI Energy Score | ratings comparables de eficiencia energética por modelo |
| ML.ENERGY Benchmark | medición e optimización automatizada de energía de inferencia |
| awesome-green-ai | índice curado de recursos y herramientas Green AI |
Estado del arte 2026
- Falta resolución específica de LLM: las herramientas de tracking generalistas miden bien a nivel de máquina/proceso, pero carecen de resolución específica para LLM (energía por token, por fase prefill/decode), y los simuladores carecen de modelado de emisiones — un hueco abierto del campo.
- eBPF como tendencia (Kepler) para atribuir energía por pod sin instrumentar la app.
- Estandarización de la comparación vía MLPerf Power y HF AI Energy Score.
- El coste energético es además un componente del TCO (30–50 %, ver el artículo de apertura) y se conecta con palancas como la cuantización y el batching, que bajan los J/token.
Fuentes
- Zeus Project (ml.energy, UMich) — https://ml.energy/zeus/
- Zeus · USENIX NSDI'23 — https://www.usenix.org/system/files/nsdi23-you.pdf
- Kepler (CNCF, eBPF) · GitHub — https://github.com/sustainable-computing-io/kepler
- Scaphandre · GitHub — https://github.com/hubblo-org/scaphandre
- CarbonTracker · GitHub — https://github.com/saintslab/carbontracker
- MLPerf Power (arXiv 2410.12032) — https://arxiv.org/html/2410.12032v2
- HF AI Energy Score — https://huggingface.github.io/AIEnergyScore/
- awesome-green-ai — https://github.com/samuelrince/awesome-green-ai