Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une

Qué es esta serie

Esta es la primera entrega de una serie de 28 artículos de datos (no de opinión) sobre las tres dimensiones que deciden si una plataforma LLM es sostenible: coste (FinOps), rendimiento (benchmarking) y energía. El objetivo es disponer de un cuerpo de cifras verificables, con su metodología, para sostener decisiones de arquitectura con números y no con intuición. Este primer artículo fija el marco: qué mide cada eje, cómo se enlazan entre sí y los datos de referencia de 2026 que se usarán de base.

La tesis cuantitativa, en una frase: los tres ejes no son independientes. El throughput (tokens/s) es el denominador común de coste/token y energía/token, y la energía es, además, entre el 30 % y el 50 % del propio coste. Optimizar uno mueve los otros dos.


Los tres ejes y sus métricas

EjePreguntaMétricas claveUnidadFamilia de herramientas
Coste (FinOps)¿Cuánto cuesta cada unidad de trabajo?coste/1M tokens (CPM), coste/petición, $/GPU-hora, utilización$ / 1M tok, $/hOpenCost, Kubecost, CloudZero
Rendimiento¿Cuánto trabajo por segundo y con qué latencia?TTFT, TPOT/ITL, throughput, goodput, P50/P99tok/s, msGuideLLM, GenAI-Perf, LLMPerf, MLPerf Inference
Energía¿Cuántos vatios por unidad de trabajo?energía/token, potencia media, PUE, carbonoJ/tok, Wh, kWh, gCO₂Zeus, CodeCarbon, MLPerf Power, Kepler

Cada eje tiene su artículo de introducción en profundidad en esta misma tanda; aquí solo importa cómo encajan.


La identidad que une los tres ejes: el throughput

El coste por millón de tokens (CPM) es el coste del cluster dividido por lo que produce:

$$\text{CPM} = \frac{\text{coste del cluster } ($/h)}{\text{throughput (tok/s)} \times 3600 / 10^6}$$

La energía por token tiene exactamente la misma forma, con la potencia en el numerador:

$$\text{energía por token (J)} = \frac{\text{potencia media (W)}}{\text{throughput (tok/s)}}$$

Las dos comparten el mismo denominador: el throughput. De ahí la consecuencia operativa clave: toda mejora de rendimiento que suba tokens/s baja a la vez el coste/token y la energía/token. No son tres optimizaciones separadas; el throughput las mueve juntas. Por eso el benchmarking de rendimiento (eje 2) es, en el fondo, también una herramienta de FinOps y de eficiencia energética.

La relación CPM↔throughput es directa y está documentada: cost per million tokens = (cluster $/hr) / (tokens/sec × 3600 / 1.000.000); a mayor throughput, menor CPM (Introl · Inference Unit Economics).


La energía está dentro del coste

El segundo enlace: la energía no es un eje aparte del coste, es un componente grande de él. Datos de referencia 2026:

DatoValorCondicionesFuente
Electricidad sobre el TCO (5 años)30–40 %infra IA generalSpheron
Electricidad sobre el TCO>50 %alta densidad GPU 24/7Spheron
Coste eléctrico por GPU~$254/mes$0,20/kWh (California), PUE 1,4Spheron
Diferencia regional de energíahasta Texas vs CaliforniaSpheron
Coste eléctrico/token a 80 % util¼ que a 20 % utilla utilización es la palancaSpheron

El tercer enlace, la utilización, cierra el triángulo: la potencia se consume aunque la GPU esté ociosa, así que repartir el coste energético fijo sobre más tokens (más throughput, más ocupación) baja los tres ejes a la vez. El coste eléctrico por token a 80 % de utilización es la cuarta parte que a 20 %.

THROUGHPUTtokens/s · denominador comúnCoste (FinOps)CPM = $/h ÷ throughput$/1M tok · utilizaciónRendimientoTTFT · TPOT · goodputsube tok/s → baja los otrosEnergíaJ/tok = W ÷ throughputenergía = 30–50 % del coste (TCO)Mejorar el throughput baja coste/token y energía/token a la vez; subir la utilización reparte el coste fijo (energía incluida) sobre más tokens.

Datos de referencia 2026

Cifras de orden de magnitud para anclar el resto de la serie. Cada una con su configuración: no son comparables entre sí si no coincide modelo, precisión y carga (eso es justo lo que la serie va a medir con rigor).

Coste por millón de tokens

EscenarioCPMConfiguraciónFuente
GPT-OSS-120B, vLLM, 66 TPS/usuario~$0,09H100, benchmark InferenceX abr-2026SemiAnalysis (vía búsqueda)
Llama 3.1 70B FP16, vLLM, 2.800 tok/s~$1,908×H100 SXM5 a $19,20/hIntrol
Coste real 8×H100 on-prem amortizado$8–15/h+$2–7/h sobre alquiler crudo (cooling, facilities, mantenimiento)Spheron

Energía por token

DatoValorCondicionesFuente
Potencia H100 bajo cargahasta 700 WTDP SXMNVIDIA
Energía por token~36 J/tokenGPT-4 en H100 (estimación)búsqueda
Energía por 1M tokens~12 kWhderivado de lo anteriorbúsqueda
Energía por 1M tokens (frontier)40–60 kWhestimación de rango altobúsqueda

Punto de equilibrio self-hosting

DatoValorFuente
Umbral de rentabilidad on-prem>2M tokens/díaSpheron
Periodo de amortización típico6–12 mesesSpheron

Metodología: estas cifras provienen de blogs técnicos y fichas de fabricante de 2026; sirven como orden de magnitud para diseñar, no como constantes. La serie reproducirá las que importen con harness propio y metodología documentada (artículo S4).


Cómo encaja el resto de la serie

Los 28 artículos se agrupan en cuatro tracks; este es el mapa:

TrackQué aportaCierra en
FinOps (8)medir y asignar el coste, modelo TCOcoste/token comparable on-prem vs cloud
Benchmarking LLM (8)medir rendimiento de forma reproduciblefrontera de Pareto de motores
Energía (8)medir vatios y carbono por tokenenergía en el TCO y la regulación
Síntesis (4)cruzar los tres ejescuadro de mando, on-prem vs cloud, sizing, harness

Los tres artículos que siguen a este en la tanda introducen en profundidad cada eje: sus frameworks y el estado del arte de la tecnología. A partir de ahí, cada artículo añade una capa de datos al cuadro de mando final.

Fuentes