Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une
Qué es esta serie
Esta es la primera entrega de una serie de 28 artículos de datos (no de opinión) sobre las tres dimensiones que deciden si una plataforma LLM es sostenible: coste (FinOps), rendimiento (benchmarking) y energía. El objetivo es disponer de un cuerpo de cifras verificables, con su metodología, para sostener decisiones de arquitectura con números y no con intuición. Este primer artículo fija el marco: qué mide cada eje, cómo se enlazan entre sí y los datos de referencia de 2026 que se usarán de base.
La tesis cuantitativa, en una frase: los tres ejes no son independientes. El throughput (tokens/s) es el denominador común de coste/token y energía/token, y la energía es, además, entre el 30 % y el 50 % del propio coste. Optimizar uno mueve los otros dos.
Los tres ejes y sus métricas
| Eje | Pregunta | Métricas clave | Unidad | Familia de herramientas |
|---|---|---|---|---|
| Coste (FinOps) | ¿Cuánto cuesta cada unidad de trabajo? | coste/1M tokens (CPM), coste/petición, $/GPU-hora, utilización | $ / 1M tok, $/h | OpenCost, Kubecost, CloudZero |
| Rendimiento | ¿Cuánto trabajo por segundo y con qué latencia? | TTFT, TPOT/ITL, throughput, goodput, P50/P99 | tok/s, ms | GuideLLM, GenAI-Perf, LLMPerf, MLPerf Inference |
| Energía | ¿Cuántos vatios por unidad de trabajo? | energía/token, potencia media, PUE, carbono | J/tok, Wh, kWh, gCO₂ | Zeus, CodeCarbon, MLPerf Power, Kepler |
Cada eje tiene su artículo de introducción en profundidad en esta misma tanda; aquí solo importa cómo encajan.
La identidad que une los tres ejes: el throughput
El coste por millón de tokens (CPM) es el coste del cluster dividido por lo que produce:
$$\text{CPM} = \frac{\text{coste del cluster } ($/h)}{\text{throughput (tok/s)} \times 3600 / 10^6}$$
La energía por token tiene exactamente la misma forma, con la potencia en el numerador:
$$\text{energía por token (J)} = \frac{\text{potencia media (W)}}{\text{throughput (tok/s)}}$$
Las dos comparten el mismo denominador: el throughput. De ahí la consecuencia operativa clave: toda mejora de rendimiento que suba tokens/s baja a la vez el coste/token y la energía/token. No son tres optimizaciones separadas; el throughput las mueve juntas. Por eso el benchmarking de rendimiento (eje 2) es, en el fondo, también una herramienta de FinOps y de eficiencia energética.
La relación CPM↔throughput es directa y está documentada: cost per million tokens = (cluster $/hr) / (tokens/sec × 3600 / 1.000.000); a mayor throughput, menor CPM (Introl · Inference Unit Economics).
La energía está dentro del coste
El segundo enlace: la energía no es un eje aparte del coste, es un componente grande de él. Datos de referencia 2026:
| Dato | Valor | Condiciones | Fuente |
|---|---|---|---|
| Electricidad sobre el TCO (5 años) | 30–40 % | infra IA general | Spheron |
| Electricidad sobre el TCO | >50 % | alta densidad GPU 24/7 | Spheron |
| Coste eléctrico por GPU | ~$254/mes | $0,20/kWh (California), PUE 1,4 | Spheron |
| Diferencia regional de energía | hasta 3× | Texas vs California | Spheron |
| Coste eléctrico/token a 80 % util | ¼ que a 20 % util | la utilización es la palanca | Spheron |
El tercer enlace, la utilización, cierra el triángulo: la potencia se consume aunque la GPU esté ociosa, así que repartir el coste energético fijo sobre más tokens (más throughput, más ocupación) baja los tres ejes a la vez. El coste eléctrico por token a 80 % de utilización es la cuarta parte que a 20 %.
Datos de referencia 2026
Cifras de orden de magnitud para anclar el resto de la serie. Cada una con su configuración: no son comparables entre sí si no coincide modelo, precisión y carga (eso es justo lo que la serie va a medir con rigor).
Coste por millón de tokens
| Escenario | CPM | Configuración | Fuente |
|---|---|---|---|
| GPT-OSS-120B, vLLM, 66 TPS/usuario | ~$0,09 | H100, benchmark InferenceX abr-2026 | SemiAnalysis (vía búsqueda) |
| Llama 3.1 70B FP16, vLLM, 2.800 tok/s | ~$1,90 | 8×H100 SXM5 a $19,20/h | Introl |
| Coste real 8×H100 on-prem amortizado | $8–15/h | +$2–7/h sobre alquiler crudo (cooling, facilities, mantenimiento) | Spheron |
Energía por token
| Dato | Valor | Condiciones | Fuente |
|---|---|---|---|
| Potencia H100 bajo carga | hasta 700 W | TDP SXM | NVIDIA |
| Energía por token | ~36 J/token | GPT-4 en H100 (estimación) | búsqueda |
| Energía por 1M tokens | ~12 kWh | derivado de lo anterior | búsqueda |
| Energía por 1M tokens (frontier) | 40–60 kWh | estimación de rango alto | búsqueda |
Punto de equilibrio self-hosting
| Dato | Valor | Fuente |
|---|---|---|
| Umbral de rentabilidad on-prem | >2M tokens/día | Spheron |
| Periodo de amortización típico | 6–12 meses | Spheron |
Metodología: estas cifras provienen de blogs técnicos y fichas de fabricante de 2026; sirven como orden de magnitud para diseñar, no como constantes. La serie reproducirá las que importen con harness propio y metodología documentada (artículo S4).
Cómo encaja el resto de la serie
Los 28 artículos se agrupan en cuatro tracks; este es el mapa:
| Track | Qué aporta | Cierra en |
|---|---|---|
| FinOps (8) | medir y asignar el coste, modelo TCO | coste/token comparable on-prem vs cloud |
| Benchmarking LLM (8) | medir rendimiento de forma reproducible | frontera de Pareto de motores |
| Energía (8) | medir vatios y carbono por token | energía en el TCO y la regulación |
| Síntesis (4) | cruzar los tres ejes | cuadro de mando, on-prem vs cloud, sizing, harness |
Los tres artículos que siguen a este en la tanda introducen en profundidad cada eje: sus frameworks y el estado del arte de la tecnología. A partir de ahí, cada artículo añade una capa de datos al cuadro de mando final.
Fuentes
- Introl · Inference Unit Economics: The True Cost Per Million Tokens — https://introl.com/blog/inference-unit-economics-true-cost-per-million-tokens-guide
- Spheron · AI Inference Power Consumption and GPU Electricity Costs (2026) — https://www.spheron.network/blog/ai-inference-power-electricity-cost-2026/
- Spheron · AI Inference Cost Economics in 2026: GPU FinOps Playbook — https://www.spheron.network/blog/ai-inference-cost-economics-2026/
- NVIDIA · H100 (TDP/specs) — https://www.nvidia.com/en-us/data-center/h100/
- Epoch AI · How much energy does ChatGPT use — https://epoch.ai/gradient-updates/how-much-energy-does-chatgpt-use