TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud

Notación: importes en N € o N USD (fuente denominada en dólares); decimales con coma; separador de millar con espacio. No se usa el símbolo de dólar (delimitador de fórmula). Datos centrados en Europa/España. Hardware de ejemplo genérico: cluster de N nodos, cada uno con 4×H100 SXM5 80 GB.

TL;DR

Un nodo 4×H100 SXM5 cuesta entre 150 000 USD y 200 000 USD de capex total (GPUs + servidor + red + almacenamiento + rack prorrateo). Amortizado a 3 años con opex europeo (energía a ~0,116 €/kWh industrial, PUE 1,54 medio o 1,2 con líquido, 0,3 FTE personal), el coste all-in oscila entre 3,10 USD/GPU-hora (utilización 100 %) y 6,20 USD/GPU-hora (utilización 50 %). El break-even frente a AWS p5 on-demand (~6,88 USD/GPU-hora) se cruza en torno al 70 % de utilización; frente a un neocloud reserved 3 años (~1,49–2,10 USD/GPU-hora), el on-prem nunca cierra la brecha en ese escenario. La utilización es la variable que decide el eje de coste, no el precio del hardware.


El modelo: supuestos declarados

Todos los cálculos siguientes parten de estos supuestos. Cambiar cualquiera de ellos mueve la conclusión; se cuantifica en la sección de sensibilidad.

ParámetroValor baseRango de sensibilidad
Nodo4×H100 SXM5 80 GB (HGX baseboard)
ClusterN nodos (modelo por nodo; escala linealmente)1–32 nodos
Amortización capex3 años (lineal)3–5 años
Utilización GPU70 %30 %–100 %
Precio energía0,116 €/kWh (industrial España, sept. 2025)0,06–0,20 €/kWh
PUE1,54 (media global Uptime Institute 2025)1,15–1,80
Tipo de cambio1 USD = 0,93 € (referencia jun. 2026)

Fuente energía: GlobalPetrolPrices · Spain Business Electricity, sept. 2025. Fuente PUE: Uptime Institute Global Data Center Survey 2025 — PUE global medio estancado en 1,54 por sexto año consecutivo; hyperscalers 1,10–1,15; colocación/empresa 1,58–1,80; instalaciones con menos de 5 años de antigüedad, 1,48. PUE 1,2 alcanzable con refrigeración líquida directa al chip.


Desglose capex por nodo 4×H100 SXM5

GPUs

ComponentePrecio unitario (USD)CantidadSubtotal (USD)Fuente y fecha
H100 SXM5 80 GB (tarjeta)30 000–40 0004120 000–160 000GMI Cloud, abr. 2026 · Introl, abr. 2026

El rango refleja variabilidad de mercado y descuentos por volumen (5–15 % para pedidos >50 unidades). Las H100 SXM5 requieren el HGX baseboard de NVIDIA; no se venden sueltas para instalación directa en servidores estándar.

Servidor / HGX baseboard

El nodo completo 4×H100 SXM utiliza el HGX H100 4-GPU baseboard de NVIDIA más un servidor host compatible. Modelos de referencia: Supermicro SYS-421GU-TNXR (4U, Dual Intel Xeon 4th Gen, HGX H100 4-GPU) y su equivalente en Dell.

ComponenteCoste estimado (USD)Nota
Servidor chassis + CPU (2× Xeon) + RAM (512 GB DDR5) + PSU redundante18 000–25 000Basado en Supermicro SYS-821GE bare sin GPUs a ~24 806 USD (xicomputer.com, jun. 2026); proporcional al 4-GPU
HGX H100 4-GPU baseboardincluido en precio GPUNVIDIA HGX plataforma; no precio separado público
NVLink inter-GPU (dentro del nodo)incluido en baseboard4 GPUs conectadas por NVLink 4.0 en el baseboard HGX

Claim de marketing (sin verificación independiente): Supermicro anuncia reducción de costes de energía del datacenter de hasta el 40 % con refrigeración líquida en sus servidores HGX H100 (Supermicro press release).

Red InfiniBand NDR

Para un cluster multi-nodo con paralelismo tensorial entre nodos, la red GPU-GPU es crítica. NDR InfiniBand (400 Gb/s por puerto) es el estándar de facto para clusters HGX.

ComponenteCoste estimado por nodo (USD)Fuente / Nota
Switch NVIDIA Quantum-2 NDR 400G (64 puertos, prorrateado entre N nodos)2 000–4 000Switch ~35 000 USD (Introl, abr. 2026); a 16 nodos, ~2 200 USD/nodo
Cables/transceptores InfiniBand NDR (4 puertos por nodo × ~1 000 USD/puerto)4 000Estimación basada en ~1 000 USD/transceptor óptico (Introl, abr. 2026)
Red InfiniBand (prorrateado por nodo 4-GPU)~6 000–8 000

Para inferencia serving dentro de un nodo (4 GPUs con NVLink), la red inter-nodo es menos crítica que para training multi-nodo. Para cargas de prefill-decode disaggregated entre nodos, InfiniBand NDR es necesaria.

Almacenamiento NVMe

ComponenteCoste estimado (USD)Nota
NVMe local (4 TB × 2 unidades U.2/E1.S, datasets de trabajo y checkpoints)2 000–4 000~500–1 000 USD/TB NVMe enterprise 2025
Almacenamiento de objetos compartido (NAS/MinIO, prorrateado por nodo)2 000–5 000Varía según capacidad total del cluster
Almacenamiento total por nodo~4 000–9 000

Introl modela 50 TB por GPU para operaciones efectivas en clusters de training (Introl, abr. 2026); para inferencia pura, el requerimiento es significativamente menor (pesos del modelo + logs).

Rack, PDU y conectividad de datacenter

ComponenteCoste estimado por nodo (USD/año)Fuente
Colocación rack (alta densidad, 10–15 kW por nodo)5 000–12 000/añoEncoradvisors · Colocation Pricing 2026: alta densidad 3 000–6 000 USD/mes por rack; a 2 nodos por rack, ~1 500–3 000 USD/mes por nodo = 18 000–36 000 USD/año en tier-1; menor en España
PDU rack, cableado eléctrico (prorrateo)500–1 000 por nodo (capex amortizado)Dentro de la partida de colocación o CPD propio

Colocación en España/Europa es estructuralmente más barata que en mercados tier-1 de EE. UU. (Nueva York, Silicon Valley). Para CPD propio, sustituir por coste de espacio propio + amortización de infraestructura eléctrica y de refrigeración.

Resumen capex por nodo 4×H100 SXM5

PartidaRango (USD)Punto medio
GPUs (4× H100 SXM5)120 000–160 000140 000
Servidor chassis + CPU/RAM/PSU18 000–25 00021 500
Red InfiniBand NDR (prorrateo)6 000–8 0007 000
Almacenamiento NVMe + objetos4 000–9 0006 500
PDU/rack/otros (capex)2 000–5 0003 500
Capex total por nodo150 000–207 000178 500

Fuentes: GMI Cloud (abr. 2026), Introl (abr. 2026), Spheron (abr. 2026), xicomputer.com (jun. 2026).


Desglose opex por nodo 4×H100 SXM5 (anual)

Energía

Un nodo 4×H100 SXM5 en carga completa consume aproximadamente:

$$P_{\text{nodo}} = 4 \times 700,\text{W (TDP H100 SXM5)} + 800,\text{W (servidor)} \approx 3{,}6,\text{kW (IT)}$$

La potencia total del datacenter incluye el overhead de refrigeración, expresado por el PUE:

$$P_{\text{total}} = P_{\text{IT}} \times \text{PUE}$$

$$\text{coste energía anual} = P_{\text{IT}} \times \text{PUE} \times 8,760,\text{h} \times \text{precio kWh}$$

Con los valores base (PUE 1,54; 0,116 €/kWh):

$$\text{energía/año} = 3{,}6,\text{kW} \times 1{,}54 \times 8,760,\text{h} \times 0{,}116,\text{EUR/kWh} \approx 5,475,\text{EUR}$$

Con PPA solar España (precio referencia Q3 2025: ~34 €/MWh = 0,034 €/kWh según PV Tech, oct. 2025):

$$\text{energía/año (PPA solar)} = 3{,}6 \times 1{,}54 \times 8,760 \times 0{,}034 \approx 1,604,\text{EUR}$$

Escenario energéticoPrecio (€/kWh)Coste energía/año por nodo 4-GPU
PPA solar España (Q3 2025)0,034~1 604 €
Industrial España (sept. 2025)0,116~5 475 €
Europa media (tarifa industrial)0,160~7 550 €
Peor caso (sin PPA, tarifa alta)0,200~9 437 €

Personal / operación

El coste de personal es la partida más variable según el tamaño del cluster. Para un cluster pequeño (2–8 nodos), la regla práctica es 0,3–0,5 FTE por cluster de soporte de infraestructura GPU (Spheron, abr. 2026).

Tamaño clusterFTE estimadoCoste FTE (€/año, Europa Occ.)Coste por nodo 4-GPU (€/año)
2–4 nodos0,3 FTE~120 00036 000–18 000
8–16 nodos0,5 FTE~120 0007 500
32+ nodos1–2 FTE~120 0003 750–7 500

Referencia salarial orientativa: ingeniero de infraestructura GPU con conocimiento de CUDA, InfiniBand y Kubernetes en Europa Occidental, ~90 000–140 000 €/año coste total empresa. Las cifras de Introl (abr. 2026) en USD (~275 000 USD/año para EE. UU.) reflejan el mercado norteamericano, sensiblemente más alto.

Mantenimiento y soporte

PartidaCoste anual (% del capex hardware)Por nodo 4-GPU (punto medio)
Mantenimiento / soporte vendor5–10 % del capex~7 000–14 000 USD → ~6 500–13 000 €
Tasa de fallos GPU (~5 % anual) × coste reposición5 % × 4 GPUs × ~35 000 USD = ~7 000 USD esperados~6 500 € (amortizado como provisión)
Recambios menores (cables, módulos)~500–1 000 €

Introl cita tasas de fallo de GPU del 2–3 % anual en clusters pequeños; Google Research documentó ~9 % anualizado en el cluster H100 de 16 384 GPUs de Meta (Introl, abr. 2026). Se usa 5 % como valor conservador intermedio.

Depreciación (a efectos contables)

La depreciación lineal convierte el capex en un flujo anual equiparable al coste del cloud committed:

$$\text{depreciación anual} = \frac{\text{capex nodo}}{\text{años amortización}}$$

Capex nodo (USD)Amortización 3 años (USD/año)Amortización 5 años (USD/año)
150 000 (mínimo)50 00030 000
178 500 (medio)59 50035 700
207 000 (máximo)69 00041 400

El hardware H100 deprecia rápidamente: los análisis de mercado secundario sitúan el valor residual en el 20–40 % del precio de compra a los 3 años (Introl, abr. 2026). La llegada de Blackwell GB200/GB300 acelera la obsolescencia percibida.

Resumen opex anual por nodo 4×H100 SXM5 (escenario base, cluster de 8 nodos)

PartidaEscenario base (€/año)Rango
Energía (PUE 1,54; 0,116 €/kWh)5 4751 604–9 437
Personal (0,5 FTE × 8 nodos, prorrateado)7 5003 750–36 000
Mantenimiento / soporte / fallos9 0005 000–15 000
Colocación rack (España, alta densidad)6 0003 000–15 000
Opex total por nodo~28 000~13 000–75 000

El rango extremo refleja la diferencia entre un datacenter propio bien amortizado con PPA solar y energía barata (opex mínimo) frente a colocación tier-1 con tarifas de mercado y personal sénior.


Derivación del €/GPU-hora all-in

Fórmula

$$\text{EUR/GPU-hora all-in} = \frac{\frac{\text{capex nodo}}{\text{años}} + \text{opex anual nodo}}{4,\text{GPUs} \times 8,760,\text{h} \times u}$$

donde (u) es la utilización media anual (0 a 1).

Véase la identidad de coste por token en coste por token y por request para la conexión con el throughput.

Tabla de €/GPU-hora según utilización y escenario

Capex medio (178 500 USD → ~166 000 €), amortización 3 años → 55 300 €/año.

UtilizaciónOpex/año (base, €)Coste total/año (€)GPU-horas útiles/año€/GPU-hora
30 %28 00083 30010 5127,93
50 %28 00083 30017 5204,75
70 %28 00083 30024 5283,39
80 %28 00083 30028 0322,97
100 %28 00083 30035 0402,38

Escenario opex bajo (PPA solar, CPD propio, cluster grande): opex/año ~13 000 €.

UtilizaciónCoste total/año (€)€/GPU-hora
50 %68 3003,90
70 %68 3002,78
80 %68 3002,43
100 %68 3001,95

Escenario opex alto (tarifa mercado, colocation cara, cluster pequeño): opex/año ~75 000 €.

UtilizaciónCoste total/año (€)€/GPU-hora
50 %130 3007,44
70 %130 3005,31
80 %130 3004,65
100 %130 3003,72

Del €/GPU-hora al €/1M tokens

La identidad de coste por token conecta el coste de hardware con el coste de inferencia:

$$\text{EUR/1M tokens} = \frac{\text{EUR/GPU-hora} \times 10^6}{\text{throughput (tok/s)} \times 3,600}$$

Para throughputs de referencia en H100 SXM5 con vLLM (ver capacity planning de inferencia on-premise):

ModeloThroughput típico (tok/s por GPU)Fuente
Llama-3 70B FP8, batch alto~2 800Benchmarks serie B
Llama-3 8B FP16, batch medio~9 000Benchmarks serie B
Mixtral 8×7B, batch alto~4 500Benchmarks serie B

Tabla €/1M tokens en escenario base (€/GPU-hora 3,39 al 70 % de utilización):

ModeloThroughput (tok/s)€/1M tokens
Llama-3 70B FP82 800~0,336
Llama-3 8B FP169 000~0,105
Mixtral 8×7B4 500~0,209

Al 50 % de utilización (€/GPU-hora 4,75):

Modelo€/1M tokens
Llama-3 70B FP8~0,471
Llama-3 8B FP16~0,147

La ocupación (batching) multiplica el throughput efectivo y baja el €/1M tokens sin cambiar el hardware; se analiza en utilización GPU como palanca FinOps.


Break-even on-prem vs cloud

La fórmula del break-even

El break-even se da cuando el coste total anual on-prem iguala el coste anual del cloud a igual utilización:

$$\text{coste cloud anual} = \text{precio GPU-hora cloud} \times 4,\text{GPUs} \times 8,760,\text{h} \times u$$

$$\text{break-even}: \quad \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u} = \text{precio GPU-hora cloud}$$

Despejando la utilización de break-even:

$$u^* = \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times \text{precio GPU-hora cloud}}$$

Tabla de break-even por modalidad cloud y escenario on-prem

Escenario base on-prem (capex/año 55 300 €, opex/año 28 000 €, total 83 300 €/año por nodo 4-GPU):

Referencia cloud (precio/GPU-hora)USD equiv.Utilización break-even (u^*)Nota
Neocloud on-demand (Lambda/Spheron ~2,90 USD)2,90 USD (~2,70 €)>100 % — el on-prem no compiteEl cloud on-demand de neocloud es más barato incluso a utilización plena
Neocloud reserved 3 años (CoreWeave ~1,49–2,10 USD)~1,80 USD (~1,67 €)>100 % — imposibleEl reserved neocloud supera al on-prem en cualquier escenario de este modelo
AWS p5 on-demand (6,88 USD/GPU-hora)6,88 USD (~6,40 €)~47 %A más del 47 %, el on-prem medio bate a AWS on-demand
AWS p5 reserved 3 años (~2,97 USD/GPU-hora)2,97 USD (~2,76 €)>100 %
GCP A3 on-demand (~10,98 USD/GPU-hora)10,98 USD (~10,21 €)~29 %A más del 29 %, el on-prem bate a GCP on-demand
Azure ND H100 v5 on-demand (~12,29 USD/GPU-hora)12,29 USD (~11,43 €)~26 %

Escenario opex bajo (total 68 300 €/año):

Referencia cloudUtilización break-even
AWS p5 on-demand (6,88 USD ≈ 6,40 €)~38 %
Neocloud on-demand (2,90 USD ≈ 2,70 €)~91 %
Neocloud reserved 3a (1,80 USD ≈ 1,67 €)>100 %

Escenario opex alto (total 130 300 €/año):

Referencia cloudUtilización break-even
AWS p5 on-demand (6,88 USD ≈ 6,40 €)~72 %
GCP A3 on-demand (~10,21 €)~45 %
Azure on-demand (~11,43 €)~41 %

Lectura de la tabla de break-even

  • Frente a neoclouds (on-demand o reserved), el TCO on-prem no cierra el break-even en ningún escenario del modelo base. El neocloud reserved bate al on-prem incluso a utilización del 100 %, porque su precio/hora es inferior al coste all-in del hardware propio. Esto es coherente con el análisis de cloud GPU: on-demand, reserved y spot.
  • Frente a hyperscalers on-demand (AWS, GCP, Azure), el on-prem sí tiene break-even alcanzable: en torno al 26–72 % de utilización según el escenario. A utilización media-alta (>70 %), el on-prem bate claramente a AWS/GCP/Azure on-demand.
  • La variable que más mueve el break-even es el opex (especialmente el personal), no el capex del hardware. Un cluster bien dimensionado en colocación barata con energía PPA puede bajar el umbral 20 puntos porcentuales respecto al escenario alto.
  • Para datos RGPD, el break-even frente a hyperscalers estadounidenses está sesgado: el eje de soberanía descarta los hyperscalers US antes que el coste (ver on-premise soberano vs hyperscalers).
€/GPU-horautilización (%) →0306090100on-prem (capex fijo)AWS p5 OD (~6,40 €)GCP OD (~10,21 €)Azure OD (~11,43 €)neocloud OD (~2,70 €)≈47 % (AWS)≈29 % (GCP)

Análisis de sensibilidad

TCO vs utilización

El coste all-in por GPU-hora varía inversamente con la utilización porque el capex es fijo:

$$\frac{d(\text{EUR/GPU-hora})}{du} = -\frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u^2} < 0$$

Pasar del 50 % al 80 % de utilización reduce el €/GPU-hora en (\frac{4{,}75 - 2{,}97}{4{,}75} \approx 37,%) en el escenario base. Esta reducción del 37 % no requiere ningún cambio de hardware; solo scheduling más eficiente (ver utilización GPU como palanca FinOps).

Utilización€/GPU-hora (escenario base)Variación vs 50 %
30 %7,93+67 %
50 %4,75referencia
70 %3,39−29 %
80 %2,97−37 %
100 %2,38−50 %

TCO vs precio de energía

Precio energía (€/kWh)Opex energía/año€/GPU-hora (70 % util.)Variación vs base
0,034 (PPA solar)1 604 €3,00−12 %
0,116 (industrial ES, base)5 475 €3,39referencia
0,160 (Europa media)7 550 €3,54+4 %
0,200 (tarifa alta)9 437 €3,67+8 %

La energía tiene un impacto moderado en el TCO total (8–12 % de variación frente a extremos), porque el capex del hardware domina. Sin embargo, a muy larga amortización (5 años) y PPA solar, la energía baja del 6 % al 1 % del TCO total y el diferencial se amplifica. El precio de la energía importa más para la huella de carbono (CSRD) que para el TCO cuando el capex es dominante.

TCO vs PUE

PUEOverhead refrigeraciónEnergía/año (0,116 €/kWh)€/GPU-hora (70 % util.)
1,15 (refrigeración líquida, nuevas instalaciones)+15 %2 166 €3,21
1,20 (líquido, datacenter moderno)+20 %2 259 €3,23
1,48 (instalaciones <5 años, Uptime 2025)+48 %3 490 €3,33
1,54 (media global Uptime 2025)+54 %3 627 €3,39
1,80 (colocación legacy)+80 %4 260 €3,47

La diferencia entre PUE 1,15 (líquido) y 1,80 (legacy) es de apenas ~8 % en el €/GPU-hora al 70 % de utilización, porque la energía solo representa una fracción del TCO. El PUE importa mucho más para el coste de energía absoluto y el reporte CSRD que para el TCO total cuando el hardware es el componente dominante.

TCO vs años de amortización

AmortizaciónCapex/año (nodo medio, USD)€/GPU-hora (70 % util., escenario base opex)
3 años59 500 USD (~55 300 €)3,39
4 años44 625 USD (~41 500 €)2,99
5 años35 700 USD (~33 200 €)2,72

Alargar la amortización de 3 a 5 años baja el €/GPU-hora en ~20 %, asumiendo que el hardware sigue siendo competitivo y el mercado de reventa soporta el valor residual. Con el ciclo de refreshing acelerado por Blackwell GB200/GB300, una amortización a 5 años conlleva mayor riesgo de obsolescencia tecnológica.

Mapa de calor de sensibilidad (€/GPU-hora al 70 % de utilización, escenario base)

PUE 1,15PUE 1,54PUE 1,80
Amort. 3 años, PPA solar (0,034 €)2,722,742,76
Amort. 3 años, industrial (0,116 €)3,213,393,47
Amort. 5 años, industrial (0,116 €)2,542,722,80
Amort. 3 años, tarifa alta (0,200 €)3,443,673,78

Tabla de decisión: Pareto coste/control/soberanía

La tabla siguiente cruza las cuatro dimensiones sin jerarquía implícita; la lectura ordinal depende de las restricciones de cada organización.

Opción€/GPU-horaCapex inicialControl total stackSoberanía UEElasticidadRiesgo operativo
On-prem (util. >70 %, opex bajo)2,40–3,00alto (150–207 k USD/nodo)totaltotalningunafallo hardware, idle
On-prem (util. <50 %, opex base)4,75–7,93altototaltotalningunacapex sin retorno
Neocloud reserved 3 años (CoreWeave, Lambda)1,49–2,10 USDningunoparcial (API)depende del proveedorcontrato rígidointerrupción mínima
Neocloud on-demand (Lambda, Spheron)2,49–3,44 USDningunoparcialdependetotalsin interrupción
AWS p5 on-demand6,88 USDningunomínimoNO (CLOUD Act)totalsin interrupción
AWS p5 reserved 3 años~2,97 USDcompromiso financieromínimoNO (CLOUD Act)rígidasin interrupción
Cloud EU soberano (Scaleway, Nebius EU)2,15–3,85 USDningunoparcialsí (UE)totalsin interrupción
Híbrido on-prem base + cloud EU pico2,00–3,50 (ponderado)medioaltosí (UE)pico elásticocomplejidad operativa

Columna “Soberanía UE”: los hyperscalers estadounidenses (AWS, GCP, Azure) están sujetos a la US CLOUD Act independientemente de la región del datacenter. Nebius tiene entidad legal neerlandesa; CoreWeave es empresa estadounidense. Ver análisis completo en on-premise soberano vs hyperscalers.

Columna “Control total stack”: on-prem permite elegir versión de driver, kernel, configuración NCCL, particionado MIG, y cualquier parámetro del sistema. Las opciones cloud ofrecen control a nivel de contenedor/pod, con el hipervisor y el firmware opaco.

La frontera de Pareto coste/soberanía para datos RGPD excluye los hyperscalers US, dejando: on-prem, cloud EU soberano, y el híbrido. Entre estos tres, la variable que decide es la utilización sostenida y la predecibilidad del tráfico (ver capacity planning de inferencia LLM on-premise).


Integración con el modelo FinOps de la serie

El €/GPU-hora all-in del on-prem es el número que alimenta el pipeline de cost allocation de la serie:

  1. Identidad de coste por token (coste por token y por request): throughput del motor × €/GPU-hora → €/1M tokens.
  2. Chargeback y showback (chargeback y showback multitenancy GPU): el €/GPU-hora all-in es el precio interno que se imputa a cada tenant del cluster multi-tenant.
  3. Utilización como palanca (utilización GPU como FinOps): subir la utilización del 50 % al 80 % reduce el €/GPU-hora en un 37 % sin cambiar el hardware — el ROI más alto del FinOps on-prem.
  4. Capacity planning (capacity planning de inferencia LLM on-premise): el número de nodos a comprar depende del percentil de carga base que se quiere cubrir en hierro.
  5. Comparativa cloud (cloud GPU: on-demand, reserved y spot): el €/GPU-hora all-in se enfrenta directamente al precio cloud de la tabla A7 para calcular el break-even.

Fuentes