TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud
Notación: importes en N € o N USD (fuente denominada en dólares); decimales con coma; separador de millar con espacio. No se usa el símbolo de dólar (delimitador de fórmula). Datos centrados en Europa/España. Hardware de ejemplo genérico: cluster de N nodos, cada uno con 4×H100 SXM5 80 GB.
TL;DR
Un nodo 4×H100 SXM5 cuesta entre 150 000 USD y 200 000 USD de capex total (GPUs + servidor + red + almacenamiento + rack prorrateo). Amortizado a 3 años con opex europeo (energía a ~0,116 €/kWh industrial, PUE 1,54 medio o 1,2 con líquido, 0,3 FTE personal), el coste all-in oscila entre 3,10 USD/GPU-hora (utilización 100 %) y 6,20 USD/GPU-hora (utilización 50 %). El break-even frente a AWS p5 on-demand (~6,88 USD/GPU-hora) se cruza en torno al 70 % de utilización; frente a un neocloud reserved 3 años (~1,49–2,10 USD/GPU-hora), el on-prem nunca cierra la brecha en ese escenario. La utilización es la variable que decide el eje de coste, no el precio del hardware.
El modelo: supuestos declarados
Todos los cálculos siguientes parten de estos supuestos. Cambiar cualquiera de ellos mueve la conclusión; se cuantifica en la sección de sensibilidad.
| Parámetro | Valor base | Rango de sensibilidad |
|---|---|---|
| Nodo | 4×H100 SXM5 80 GB (HGX baseboard) | — |
| Cluster | N nodos (modelo por nodo; escala linealmente) | 1–32 nodos |
| Amortización capex | 3 años (lineal) | 3–5 años |
| Utilización GPU | 70 % | 30 %–100 % |
| Precio energía | 0,116 €/kWh (industrial España, sept. 2025) | 0,06–0,20 €/kWh |
| PUE | 1,54 (media global Uptime Institute 2025) | 1,15–1,80 |
| Tipo de cambio | 1 USD = 0,93 € (referencia jun. 2026) | — |
Fuente energía: GlobalPetrolPrices · Spain Business Electricity, sept. 2025. Fuente PUE: Uptime Institute Global Data Center Survey 2025 — PUE global medio estancado en 1,54 por sexto año consecutivo; hyperscalers 1,10–1,15; colocación/empresa 1,58–1,80; instalaciones con menos de 5 años de antigüedad, 1,48. PUE 1,2 alcanzable con refrigeración líquida directa al chip.
Desglose capex por nodo 4×H100 SXM5
GPUs
| Componente | Precio unitario (USD) | Cantidad | Subtotal (USD) | Fuente y fecha |
|---|---|---|---|---|
| H100 SXM5 80 GB (tarjeta) | 30 000–40 000 | 4 | 120 000–160 000 | GMI Cloud, abr. 2026 · Introl, abr. 2026 |
El rango refleja variabilidad de mercado y descuentos por volumen (5–15 % para pedidos >50 unidades). Las H100 SXM5 requieren el HGX baseboard de NVIDIA; no se venden sueltas para instalación directa en servidores estándar.
Servidor / HGX baseboard
El nodo completo 4×H100 SXM utiliza el HGX H100 4-GPU baseboard de NVIDIA más un servidor host compatible. Modelos de referencia: Supermicro SYS-421GU-TNXR (4U, Dual Intel Xeon 4th Gen, HGX H100 4-GPU) y su equivalente en Dell.
| Componente | Coste estimado (USD) | Nota |
|---|---|---|
| Servidor chassis + CPU (2× Xeon) + RAM (512 GB DDR5) + PSU redundante | 18 000–25 000 | Basado en Supermicro SYS-821GE bare sin GPUs a ~24 806 USD (xicomputer.com, jun. 2026); proporcional al 4-GPU |
| HGX H100 4-GPU baseboard | incluido en precio GPU | NVIDIA HGX plataforma; no precio separado público |
| NVLink inter-GPU (dentro del nodo) | incluido en baseboard | 4 GPUs conectadas por NVLink 4.0 en el baseboard HGX |
Claim de marketing (sin verificación independiente): Supermicro anuncia reducción de costes de energía del datacenter de hasta el 40 % con refrigeración líquida en sus servidores HGX H100 (Supermicro press release).
Red InfiniBand NDR
Para un cluster multi-nodo con paralelismo tensorial entre nodos, la red GPU-GPU es crítica. NDR InfiniBand (400 Gb/s por puerto) es el estándar de facto para clusters HGX.
| Componente | Coste estimado por nodo (USD) | Fuente / Nota |
|---|---|---|
| Switch NVIDIA Quantum-2 NDR 400G (64 puertos, prorrateado entre N nodos) | 2 000–4 000 | Switch ~35 000 USD (Introl, abr. 2026); a 16 nodos, ~2 200 USD/nodo |
| Cables/transceptores InfiniBand NDR (4 puertos por nodo × ~1 000 USD/puerto) | 4 000 | Estimación basada en ~1 000 USD/transceptor óptico (Introl, abr. 2026) |
| Red InfiniBand (prorrateado por nodo 4-GPU) | ~6 000–8 000 | — |
Para inferencia serving dentro de un nodo (4 GPUs con NVLink), la red inter-nodo es menos crítica que para training multi-nodo. Para cargas de prefill-decode disaggregated entre nodos, InfiniBand NDR es necesaria.
Almacenamiento NVMe
| Componente | Coste estimado (USD) | Nota |
|---|---|---|
| NVMe local (4 TB × 2 unidades U.2/E1.S, datasets de trabajo y checkpoints) | 2 000–4 000 | ~500–1 000 USD/TB NVMe enterprise 2025 |
| Almacenamiento de objetos compartido (NAS/MinIO, prorrateado por nodo) | 2 000–5 000 | Varía según capacidad total del cluster |
| Almacenamiento total por nodo | ~4 000–9 000 | — |
Introl modela 50 TB por GPU para operaciones efectivas en clusters de training (Introl, abr. 2026); para inferencia pura, el requerimiento es significativamente menor (pesos del modelo + logs).
Rack, PDU y conectividad de datacenter
| Componente | Coste estimado por nodo (USD/año) | Fuente |
|---|---|---|
| Colocación rack (alta densidad, 10–15 kW por nodo) | 5 000–12 000/año | Encoradvisors · Colocation Pricing 2026: alta densidad 3 000–6 000 USD/mes por rack; a 2 nodos por rack, ~1 500–3 000 USD/mes por nodo = 18 000–36 000 USD/año en tier-1; menor en España |
| PDU rack, cableado eléctrico (prorrateo) | 500–1 000 por nodo (capex amortizado) | Dentro de la partida de colocación o CPD propio |
Colocación en España/Europa es estructuralmente más barata que en mercados tier-1 de EE. UU. (Nueva York, Silicon Valley). Para CPD propio, sustituir por coste de espacio propio + amortización de infraestructura eléctrica y de refrigeración.
Resumen capex por nodo 4×H100 SXM5
| Partida | Rango (USD) | Punto medio |
|---|---|---|
| GPUs (4× H100 SXM5) | 120 000–160 000 | 140 000 |
| Servidor chassis + CPU/RAM/PSU | 18 000–25 000 | 21 500 |
| Red InfiniBand NDR (prorrateo) | 6 000–8 000 | 7 000 |
| Almacenamiento NVMe + objetos | 4 000–9 000 | 6 500 |
| PDU/rack/otros (capex) | 2 000–5 000 | 3 500 |
| Capex total por nodo | 150 000–207 000 | 178 500 |
Fuentes: GMI Cloud (abr. 2026), Introl (abr. 2026), Spheron (abr. 2026), xicomputer.com (jun. 2026).
Desglose opex por nodo 4×H100 SXM5 (anual)
Energía
Un nodo 4×H100 SXM5 en carga completa consume aproximadamente:
$$P_{\text{nodo}} = 4 \times 700,\text{W (TDP H100 SXM5)} + 800,\text{W (servidor)} \approx 3{,}6,\text{kW (IT)}$$
La potencia total del datacenter incluye el overhead de refrigeración, expresado por el PUE:
$$P_{\text{total}} = P_{\text{IT}} \times \text{PUE}$$
$$\text{coste energía anual} = P_{\text{IT}} \times \text{PUE} \times 8,760,\text{h} \times \text{precio kWh}$$
Con los valores base (PUE 1,54; 0,116 €/kWh):
$$\text{energía/año} = 3{,}6,\text{kW} \times 1{,}54 \times 8,760,\text{h} \times 0{,}116,\text{EUR/kWh} \approx 5,475,\text{EUR}$$
Con PPA solar España (precio referencia Q3 2025: ~34 €/MWh = 0,034 €/kWh según PV Tech, oct. 2025):
$$\text{energía/año (PPA solar)} = 3{,}6 \times 1{,}54 \times 8,760 \times 0{,}034 \approx 1,604,\text{EUR}$$
| Escenario energético | Precio (€/kWh) | Coste energía/año por nodo 4-GPU |
|---|---|---|
| PPA solar España (Q3 2025) | 0,034 | ~1 604 € |
| Industrial España (sept. 2025) | 0,116 | ~5 475 € |
| Europa media (tarifa industrial) | 0,160 | ~7 550 € |
| Peor caso (sin PPA, tarifa alta) | 0,200 | ~9 437 € |
Personal / operación
El coste de personal es la partida más variable según el tamaño del cluster. Para un cluster pequeño (2–8 nodos), la regla práctica es 0,3–0,5 FTE por cluster de soporte de infraestructura GPU (Spheron, abr. 2026).
| Tamaño cluster | FTE estimado | Coste FTE (€/año, Europa Occ.) | Coste por nodo 4-GPU (€/año) |
|---|---|---|---|
| 2–4 nodos | 0,3 FTE | ~120 000 | 36 000–18 000 |
| 8–16 nodos | 0,5 FTE | ~120 000 | 7 500 |
| 32+ nodos | 1–2 FTE | ~120 000 | 3 750–7 500 |
Referencia salarial orientativa: ingeniero de infraestructura GPU con conocimiento de CUDA, InfiniBand y Kubernetes en Europa Occidental, ~90 000–140 000 €/año coste total empresa. Las cifras de Introl (abr. 2026) en USD (~275 000 USD/año para EE. UU.) reflejan el mercado norteamericano, sensiblemente más alto.
Mantenimiento y soporte
| Partida | Coste anual (% del capex hardware) | Por nodo 4-GPU (punto medio) |
|---|---|---|
| Mantenimiento / soporte vendor | 5–10 % del capex | ~7 000–14 000 USD → ~6 500–13 000 € |
| Tasa de fallos GPU (~5 % anual) × coste reposición | 5 % × 4 GPUs × ~35 000 USD = ~7 000 USD esperados | ~6 500 € (amortizado como provisión) |
| Recambios menores (cables, módulos) | ~500–1 000 € | — |
Introl cita tasas de fallo de GPU del 2–3 % anual en clusters pequeños; Google Research documentó ~9 % anualizado en el cluster H100 de 16 384 GPUs de Meta (Introl, abr. 2026). Se usa 5 % como valor conservador intermedio.
Depreciación (a efectos contables)
La depreciación lineal convierte el capex en un flujo anual equiparable al coste del cloud committed:
$$\text{depreciación anual} = \frac{\text{capex nodo}}{\text{años amortización}}$$
| Capex nodo (USD) | Amortización 3 años (USD/año) | Amortización 5 años (USD/año) |
|---|---|---|
| 150 000 (mínimo) | 50 000 | 30 000 |
| 178 500 (medio) | 59 500 | 35 700 |
| 207 000 (máximo) | 69 000 | 41 400 |
El hardware H100 deprecia rápidamente: los análisis de mercado secundario sitúan el valor residual en el 20–40 % del precio de compra a los 3 años (Introl, abr. 2026). La llegada de Blackwell GB200/GB300 acelera la obsolescencia percibida.
Resumen opex anual por nodo 4×H100 SXM5 (escenario base, cluster de 8 nodos)
| Partida | Escenario base (€/año) | Rango |
|---|---|---|
| Energía (PUE 1,54; 0,116 €/kWh) | 5 475 | 1 604–9 437 |
| Personal (0,5 FTE × 8 nodos, prorrateado) | 7 500 | 3 750–36 000 |
| Mantenimiento / soporte / fallos | 9 000 | 5 000–15 000 |
| Colocación rack (España, alta densidad) | 6 000 | 3 000–15 000 |
| Opex total por nodo | ~28 000 | ~13 000–75 000 |
El rango extremo refleja la diferencia entre un datacenter propio bien amortizado con PPA solar y energía barata (opex mínimo) frente a colocación tier-1 con tarifas de mercado y personal sénior.
Derivación del €/GPU-hora all-in
Fórmula
$$\text{EUR/GPU-hora all-in} = \frac{\frac{\text{capex nodo}}{\text{años}} + \text{opex anual nodo}}{4,\text{GPUs} \times 8,760,\text{h} \times u}$$
donde (u) es la utilización media anual (0 a 1).
Véase la identidad de coste por token en coste por token y por request para la conexión con el throughput.
Tabla de €/GPU-hora según utilización y escenario
Capex medio (178 500 USD → ~166 000 €), amortización 3 años → 55 300 €/año.
| Utilización | Opex/año (base, €) | Coste total/año (€) | GPU-horas útiles/año | €/GPU-hora |
|---|---|---|---|---|
| 30 % | 28 000 | 83 300 | 10 512 | 7,93 |
| 50 % | 28 000 | 83 300 | 17 520 | 4,75 |
| 70 % | 28 000 | 83 300 | 24 528 | 3,39 |
| 80 % | 28 000 | 83 300 | 28 032 | 2,97 |
| 100 % | 28 000 | 83 300 | 35 040 | 2,38 |
Escenario opex bajo (PPA solar, CPD propio, cluster grande): opex/año ~13 000 €.
| Utilización | Coste total/año (€) | €/GPU-hora |
|---|---|---|
| 50 % | 68 300 | 3,90 |
| 70 % | 68 300 | 2,78 |
| 80 % | 68 300 | 2,43 |
| 100 % | 68 300 | 1,95 |
Escenario opex alto (tarifa mercado, colocation cara, cluster pequeño): opex/año ~75 000 €.
| Utilización | Coste total/año (€) | €/GPU-hora |
|---|---|---|
| 50 % | 130 300 | 7,44 |
| 70 % | 130 300 | 5,31 |
| 80 % | 130 300 | 4,65 |
| 100 % | 130 300 | 3,72 |
Del €/GPU-hora al €/1M tokens
La identidad de coste por token conecta el coste de hardware con el coste de inferencia:
$$\text{EUR/1M tokens} = \frac{\text{EUR/GPU-hora} \times 10^6}{\text{throughput (tok/s)} \times 3,600}$$
Para throughputs de referencia en H100 SXM5 con vLLM (ver capacity planning de inferencia on-premise):
| Modelo | Throughput típico (tok/s por GPU) | Fuente |
|---|---|---|
| Llama-3 70B FP8, batch alto | ~2 800 | Benchmarks serie B |
| Llama-3 8B FP16, batch medio | ~9 000 | Benchmarks serie B |
| Mixtral 8×7B, batch alto | ~4 500 | Benchmarks serie B |
Tabla €/1M tokens en escenario base (€/GPU-hora 3,39 al 70 % de utilización):
| Modelo | Throughput (tok/s) | €/1M tokens |
|---|---|---|
| Llama-3 70B FP8 | 2 800 | ~0,336 |
| Llama-3 8B FP16 | 9 000 | ~0,105 |
| Mixtral 8×7B | 4 500 | ~0,209 |
Al 50 % de utilización (€/GPU-hora 4,75):
| Modelo | €/1M tokens |
|---|---|
| Llama-3 70B FP8 | ~0,471 |
| Llama-3 8B FP16 | ~0,147 |
La ocupación (batching) multiplica el throughput efectivo y baja el €/1M tokens sin cambiar el hardware; se analiza en utilización GPU como palanca FinOps.
Break-even on-prem vs cloud
La fórmula del break-even
El break-even se da cuando el coste total anual on-prem iguala el coste anual del cloud a igual utilización:
$$\text{coste cloud anual} = \text{precio GPU-hora cloud} \times 4,\text{GPUs} \times 8,760,\text{h} \times u$$
$$\text{break-even}: \quad \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u} = \text{precio GPU-hora cloud}$$
Despejando la utilización de break-even:
$$u^* = \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times \text{precio GPU-hora cloud}}$$
Tabla de break-even por modalidad cloud y escenario on-prem
Escenario base on-prem (capex/año 55 300 €, opex/año 28 000 €, total 83 300 €/año por nodo 4-GPU):
| Referencia cloud (precio/GPU-hora) | USD equiv. | Utilización break-even (u^*) | Nota |
|---|---|---|---|
| Neocloud on-demand (Lambda/Spheron ~2,90 USD) | 2,90 USD (~2,70 €) | >100 % — el on-prem no compite | El cloud on-demand de neocloud es más barato incluso a utilización plena |
| Neocloud reserved 3 años (CoreWeave ~1,49–2,10 USD) | ~1,80 USD (~1,67 €) | >100 % — imposible | El reserved neocloud supera al on-prem en cualquier escenario de este modelo |
| AWS p5 on-demand (6,88 USD/GPU-hora) | 6,88 USD (~6,40 €) | ~47 % | A más del 47 %, el on-prem medio bate a AWS on-demand |
| AWS p5 reserved 3 años (~2,97 USD/GPU-hora) | 2,97 USD (~2,76 €) | >100 % | — |
| GCP A3 on-demand (~10,98 USD/GPU-hora) | 10,98 USD (~10,21 €) | ~29 % | A más del 29 %, el on-prem bate a GCP on-demand |
| Azure ND H100 v5 on-demand (~12,29 USD/GPU-hora) | 12,29 USD (~11,43 €) | ~26 % | — |
Escenario opex bajo (total 68 300 €/año):
| Referencia cloud | Utilización break-even |
|---|---|
| AWS p5 on-demand (6,88 USD ≈ 6,40 €) | ~38 % |
| Neocloud on-demand (2,90 USD ≈ 2,70 €) | ~91 % |
| Neocloud reserved 3a (1,80 USD ≈ 1,67 €) | >100 % |
Escenario opex alto (total 130 300 €/año):
| Referencia cloud | Utilización break-even |
|---|---|
| AWS p5 on-demand (6,88 USD ≈ 6,40 €) | ~72 % |
| GCP A3 on-demand (~10,21 €) | ~45 % |
| Azure on-demand (~11,43 €) | ~41 % |
Lectura de la tabla de break-even
- Frente a neoclouds (on-demand o reserved), el TCO on-prem no cierra el break-even en ningún escenario del modelo base. El neocloud reserved bate al on-prem incluso a utilización del 100 %, porque su precio/hora es inferior al coste all-in del hardware propio. Esto es coherente con el análisis de cloud GPU: on-demand, reserved y spot.
- Frente a hyperscalers on-demand (AWS, GCP, Azure), el on-prem sí tiene break-even alcanzable: en torno al 26–72 % de utilización según el escenario. A utilización media-alta (>70 %), el on-prem bate claramente a AWS/GCP/Azure on-demand.
- La variable que más mueve el break-even es el opex (especialmente el personal), no el capex del hardware. Un cluster bien dimensionado en colocación barata con energía PPA puede bajar el umbral 20 puntos porcentuales respecto al escenario alto.
- Para datos RGPD, el break-even frente a hyperscalers estadounidenses está sesgado: el eje de soberanía descarta los hyperscalers US antes que el coste (ver on-premise soberano vs hyperscalers).
Análisis de sensibilidad
TCO vs utilización
El coste all-in por GPU-hora varía inversamente con la utilización porque el capex es fijo:
$$\frac{d(\text{EUR/GPU-hora})}{du} = -\frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u^2} < 0$$
Pasar del 50 % al 80 % de utilización reduce el €/GPU-hora en (\frac{4{,}75 - 2{,}97}{4{,}75} \approx 37,%) en el escenario base. Esta reducción del 37 % no requiere ningún cambio de hardware; solo scheduling más eficiente (ver utilización GPU como palanca FinOps).
| Utilización | €/GPU-hora (escenario base) | Variación vs 50 % |
|---|---|---|
| 30 % | 7,93 | +67 % |
| 50 % | 4,75 | referencia |
| 70 % | 3,39 | −29 % |
| 80 % | 2,97 | −37 % |
| 100 % | 2,38 | −50 % |
TCO vs precio de energía
| Precio energía (€/kWh) | Opex energía/año | €/GPU-hora (70 % util.) | Variación vs base |
|---|---|---|---|
| 0,034 (PPA solar) | 1 604 € | 3,00 | −12 % |
| 0,116 (industrial ES, base) | 5 475 € | 3,39 | referencia |
| 0,160 (Europa media) | 7 550 € | 3,54 | +4 % |
| 0,200 (tarifa alta) | 9 437 € | 3,67 | +8 % |
La energía tiene un impacto moderado en el TCO total (8–12 % de variación frente a extremos), porque el capex del hardware domina. Sin embargo, a muy larga amortización (5 años) y PPA solar, la energía baja del 6 % al 1 % del TCO total y el diferencial se amplifica. El precio de la energía importa más para la huella de carbono (CSRD) que para el TCO cuando el capex es dominante.
TCO vs PUE
| PUE | Overhead refrigeración | Energía/año (0,116 €/kWh) | €/GPU-hora (70 % util.) |
|---|---|---|---|
| 1,15 (refrigeración líquida, nuevas instalaciones) | +15 % | 2 166 € | 3,21 |
| 1,20 (líquido, datacenter moderno) | +20 % | 2 259 € | 3,23 |
| 1,48 (instalaciones <5 años, Uptime 2025) | +48 % | 3 490 € | 3,33 |
| 1,54 (media global Uptime 2025) | +54 % | 3 627 € | 3,39 |
| 1,80 (colocación legacy) | +80 % | 4 260 € | 3,47 |
La diferencia entre PUE 1,15 (líquido) y 1,80 (legacy) es de apenas ~8 % en el €/GPU-hora al 70 % de utilización, porque la energía solo representa una fracción del TCO. El PUE importa mucho más para el coste de energía absoluto y el reporte CSRD que para el TCO total cuando el hardware es el componente dominante.
TCO vs años de amortización
| Amortización | Capex/año (nodo medio, USD) | €/GPU-hora (70 % util., escenario base opex) |
|---|---|---|
| 3 años | 59 500 USD (~55 300 €) | 3,39 |
| 4 años | 44 625 USD (~41 500 €) | 2,99 |
| 5 años | 35 700 USD (~33 200 €) | 2,72 |
Alargar la amortización de 3 a 5 años baja el €/GPU-hora en ~20 %, asumiendo que el hardware sigue siendo competitivo y el mercado de reventa soporta el valor residual. Con el ciclo de refreshing acelerado por Blackwell GB200/GB300, una amortización a 5 años conlleva mayor riesgo de obsolescencia tecnológica.
Mapa de calor de sensibilidad (€/GPU-hora al 70 % de utilización, escenario base)
| PUE 1,15 | PUE 1,54 | PUE 1,80 | |
|---|---|---|---|
| Amort. 3 años, PPA solar (0,034 €) | 2,72 | 2,74 | 2,76 |
| Amort. 3 años, industrial (0,116 €) | 3,21 | 3,39 | 3,47 |
| Amort. 5 años, industrial (0,116 €) | 2,54 | 2,72 | 2,80 |
| Amort. 3 años, tarifa alta (0,200 €) | 3,44 | 3,67 | 3,78 |
Tabla de decisión: Pareto coste/control/soberanía
La tabla siguiente cruza las cuatro dimensiones sin jerarquía implícita; la lectura ordinal depende de las restricciones de cada organización.
| Opción | €/GPU-hora | Capex inicial | Control total stack | Soberanía UE | Elasticidad | Riesgo operativo |
|---|---|---|---|---|---|---|
| On-prem (util. >70 %, opex bajo) | 2,40–3,00 | alto (150–207 k USD/nodo) | total | total | ninguna | fallo hardware, idle |
| On-prem (util. <50 %, opex base) | 4,75–7,93 | alto | total | total | ninguna | capex sin retorno |
| Neocloud reserved 3 años (CoreWeave, Lambda) | 1,49–2,10 USD | ninguno | parcial (API) | depende del proveedor | contrato rígido | interrupción mínima |
| Neocloud on-demand (Lambda, Spheron) | 2,49–3,44 USD | ninguno | parcial | depende | total | sin interrupción |
| AWS p5 on-demand | 6,88 USD | ninguno | mínimo | NO (CLOUD Act) | total | sin interrupción |
| AWS p5 reserved 3 años | ~2,97 USD | compromiso financiero | mínimo | NO (CLOUD Act) | rígida | sin interrupción |
| Cloud EU soberano (Scaleway, Nebius EU) | 2,15–3,85 USD | ninguno | parcial | sí (UE) | total | sin interrupción |
| Híbrido on-prem base + cloud EU pico | 2,00–3,50 (ponderado) | medio | alto | sí (UE) | pico elástico | complejidad operativa |
Columna “Soberanía UE”: los hyperscalers estadounidenses (AWS, GCP, Azure) están sujetos a la US CLOUD Act independientemente de la región del datacenter. Nebius tiene entidad legal neerlandesa; CoreWeave es empresa estadounidense. Ver análisis completo en on-premise soberano vs hyperscalers.
Columna “Control total stack”: on-prem permite elegir versión de driver, kernel, configuración NCCL, particionado MIG, y cualquier parámetro del sistema. Las opciones cloud ofrecen control a nivel de contenedor/pod, con el hipervisor y el firmware opaco.
La frontera de Pareto coste/soberanía para datos RGPD excluye los hyperscalers US, dejando: on-prem, cloud EU soberano, y el híbrido. Entre estos tres, la variable que decide es la utilización sostenida y la predecibilidad del tráfico (ver capacity planning de inferencia LLM on-premise).
Integración con el modelo FinOps de la serie
El €/GPU-hora all-in del on-prem es el número que alimenta el pipeline de cost allocation de la serie:
- Identidad de coste por token (coste por token y por request): throughput del motor × €/GPU-hora → €/1M tokens.
- Chargeback y showback (chargeback y showback multitenancy GPU): el €/GPU-hora all-in es el precio interno que se imputa a cada tenant del cluster multi-tenant.
- Utilización como palanca (utilización GPU como FinOps): subir la utilización del 50 % al 80 % reduce el €/GPU-hora en un 37 % sin cambiar el hardware — el ROI más alto del FinOps on-prem.
- Capacity planning (capacity planning de inferencia LLM on-premise): el número de nodos a comprar depende del percentil de carga base que se quiere cubrir en hierro.
- Comparativa cloud (cloud GPU: on-demand, reserved y spot): el €/GPU-hora all-in se enfrenta directamente al precio cloud de la tabla A7 para calcular el break-even.
Fuentes
- Spheron · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even Analysis (abr. 2026) — https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/
- Introl · GPU Infrastructure TCO Model: 5-Year Cost Analysis for Enterprise AI (abr. 2026) — https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model
- GMI Cloud · NVIDIA H100 GPU Pricing: 2026 Rent vs. Buy Cost Analysis (abr. 2026) — https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis
- Uptime Institute · Global Data Center Survey 2025 (PDF oficial) — https://datacenter.uptimeinstitute.com/rs/711-RIA-145/images/2025.Annual.Survey.Report.pdf
- Uptime Institute · Global Data Center PUE Stalls at 1.54 (comunicado, oct. 2025) — https://mgrid.org/2025/10/01/uptime-institute-data-center-pue-stagnation-2025-liquid-cooling/
- GlobalPetrolPrices · Spain Business Electricity Price (sept. 2025) — https://www.globalpetrolprices.com/Spain/electricity_prices/
- PV Tech · European Solar PPA Prices Fall Below 35 €/MWh in Q3 2025 (oct. 2025) — https://www.pv-tech.org/european-solar-ppa-prices-fall-below-35-mwh-q3-2025/
- Xi Computers · Supermicro SYS-821GE-TNHR 8U GPU Server Pricing (jun. 2026) — https://www.xicomputer.com/Solutions/Data-Center-Servers/SYS-821GE-TNHR.asp
- Encoradvisors · Data Center Colocation Pricing 2026 — https://encoradvisors.com/data-center-colocation-pricing/
- CloudZero · H100 GPU Cost In 2026: Buy, Rent, and Cloud Pricing Compared — https://www.cloudzero.com/blog/h100-gpu-cost/
- Spheron · AI Inference Power Consumption and GPU Electricity Costs: 2026 Guide — https://www.spheron.network/blog/ai-inference-power-electricity-cost-2026/
- NVIDIA · DGX SuperPOD H100 Electrical Specifications (documentación oficial) — https://docs.nvidia.com/dgx-superpod/design-guides/dgx-superpod-data-center-design-h100/latest/electrical.html