Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)

Notación: importes en N USD o N €, decimales con coma. No se usa el símbolo de dólar (en este sitio es delimitador de fórmula). Todos los precios cloud cambian sin previo aviso; se indica la fecha de la fuente junto a cada dato.

TL;DR

Un H100 SXM5 on-demand cuesta entre 2,49 USD/GPU-hora (Lambda, neocloud) y 12,29 USD/GPU-hora (Azure ND H100 v5) según proveedor — una horquilla de 5× entre el piso del neocloud y el techo del hyperscaler. El modo reserved (compromiso de 1-3 años) baja el precio en un 20-40 % y es el número comparable a la amortización de hierro propio; el modo spot/preemptible baja otro 40-65 % adicional, pero con riesgo de interrupción en menos de 2 minutos de aviso. Para el análisis on-prem vs cloud de la serie (artículo on-premise soberano vs hyperscalers), el reserved del neocloud es la referencia correcta: a 1,49-2,10 USD/GPU-hora con compromiso de 3 años, los neoclouds compiten directamente con el TCO de hierro propio a utilización media.


Los tres modelos de compra de GPU cloud

On-demand

Pago por uso sin compromiso, facturado por hora o por minuto. Máxima flexibilidad; precio máximo. Aplica a: desarrollo, experimentación, picos de capacidad ocasionales y cualquier carga cuyo tiempo de vida es impredecible. La ausencia de compromiso tiene un coste: la prima de on-demand sobre reserved oscila entre el 25 % y el 60 % según proveedor.

Reserved / committed

Contrato de 1 o 3 años que garantiza capacidad a cambio de un descuento sobre la tarifa on-demand. En hyperscalers adopta el nombre de Reserved Instance (AWS), Committed Use Discount (GCP) o Azure Reservation. En neoclouds, se negocia directamente y puede incluir la elección de nodo, red (Ethernet o InfiniBand) y región. Descuentos típicos:

PlazoDescuento sobre on-demand (referencia de mercado)
1 año20-37 %
3 años30-45 %

El reserved es el modelo comparable al on-prem: en ambos casos se contrae un coste fijo anticipado (capex amortizado en el on-prem; pago comprometido en el cloud). La fórmula del coste por GPU-hora efectiva es la misma en los dos casos:

$$\text{coste/GPU-hora}_{reserved} = \frac{\text{precio comprometido (USD/GPU-h)} \times 8760}{\text{horas contratadas}}$$

A diferencia del on-prem, el reserved cloud no incluye capex de hardware ni opex de operación, pero tampoco incluye los beneficios de la utilización del hierro propio a carga alta (véase utilización de GPU como palanca FinOps).

Spot / preemptible

Capacidad ociosa del proveedor ofertada con descuento de 40-65 % sobre on-demand, con la condición de que puede ser reclamada con un preaviso de 30 segundos a 2 minutos (AWS Spot, GCP Spot VMs). El descuento es real y reproducible; el riesgo de interrupción también.

Cargas aptas para spot:

CargaRequiere checkpointingApta para spot
Pre-training de LLM (checkpoint-resume cada 15-30 min)
Fine-tuning LoRA/QLoRA con checkpoint
Inferencia batch offline (embeddings, evaluaciones)no (idempotente)
Búsqueda de hiperparámetrosno (repetible)
Serving en producción con SLO de latenciano aplicano
Serving en producción con SLO de disponibilidadno aplicano

Un fine-tune de un modelo de 7B en 4× H100 durante 40 horas en spot alcanzó ahorros reales del 81 % sobre el on-demand equivalente (Spheron Blog, may. 2026). La tasa de interrupción típica en instancias H100 de alta fiabilidad es 2-8 % al día, lo que da una probabilidad del 92-98 % de completar un turno de 24 horas sin corte (Thunder Compute, jun. 2026).


Los neoclouds: GPU-specialised clouds

Definición y diferenciadores

Los neoclouds (o GPU-specialised clouds) son proveedores de infraestructura centrados exclusivamente en cómputo GPU para cargas de IA, sin la diversidad de servicios de los hyperscalers. SemiAnalysis acuñó el término en 2024 e identifica a CoreWeave, Nebius, Lambda y Crusoe en el nivel superior (SemiAnalysis, 2024).

Diferencias estructurales respecto a los hyperscalers:

DimensiónNeoclouds (CoreWeave, Lambda, Nebius…)Hyperscalers (AWS, GCP, Azure)
Precio H100 on-demand2,49-6,16 USD/GPU-hora6,88-12,29 USD/GPU-hora
Red de interconexiónInfiniBand NDR 400 Gbps (CoreWeave, Voltage Park), Ethernet 200+ Gbps (Lambda, Nebius)Ethernet propietaria (EFA, GVNIC) o InfiniBand (solo p5/H100 en AWS)
Acceso a hardware nuevoPriority access NVIDIA (CoreWeave es accionista NVIDIA); catálogo H200/B200 disponible antesCatálogo más lento; B200 en capacidad reservada o limitada en 2026
Contratos1-36 meses, negociados directamenteRI estándar (1-3 años), sin negociación de nodo
Servicios adicionalesKubernetes gestionado, almacenamiento, bare-metalEcosistema completo (IAM, VPC, bases de datos, ML services…)
EgressZero-egress o flat fee (Lambda, Voltage Park, Nebius)0,08-0,12 USD/GB (AWS, GCP, Azure)
SoberaníaVaría: Nebius (UE), Crusoe (EE. UU. limpio), CoreWeave (EE. UU./UE)US CLOUD Act; no garantizan jurisdicción UE

El mercado de neoclouds se estima en 20.000 M USD de ingresos en 2026 y crece hacia 180.000 M USD en 2030 (Synergy Research Group, 2026). CoreWeave superó los 5.000 M USD de ARR más rápido que ninguna otra plataforma cloud. Los neoclouds precio sus H100 un 60-85 % por debajo de AWS y Azure para el mismo silicio (Signisys, 2026).

Perfiles de los principales neoclouds

ProveedorHardware principalRedJurisdicciónNota relevante
CoreWeaveH100, H200, B200, GB200InfiniBand NDR (Quantum-2 SHARP)EE. UU. / UEAccionista NVIDIA; acceso prioritario a hardware; mayor neocloud por flota
Lambda LabsH100, A100, B200EthernetEE. UU.Zero-egress; sin spot; facturación por minuto
NebiusH100, H200, B200, B300InfiniBandUE (Ámsterdam)Spin-off de Yandex Cloud; zero-egress; egress de objeto 0,015 USD/GiB; precio on-demand público
CrusoeH100, A100, MI300XEthernetEE. UU.Energía 100 % renovable/flare gas; AMD MI300X a 3,45 USD/hr
Voltage ParkH100Ethernet (1,99 USD) / InfiniBand 3200 Gbps (2,49 USD)EE. UU.Fusionado con Lightning AI en ene. 2026; sin mínimos; no-profit Navigation Fund
Together AIH100, A100EthernetEE. UU.Plataforma de inferencia + cómputo bruto
GMI CloudH100, H200EthernetAsia/EE. UU.H200 on-demand desde 2,60 USD/hr
RunPodH100, H200, B200, A100Ethernet / Secure CloudGlobalComunidad + Secure Cloud con SLA; spot disponible

Nota: claims de “zero-egress”, “renovable” y acceso prioritario a hardware son de marketing de cada proveedor y no han sido verificados por auditorías independientes. Se reproducen con esa advertencia.


Tabla de precios 2026: H100 SXM por proveedor y modalidad

Fuente y fecha de cada dato indicados. Los precios cambian sin previo aviso.

H100 SXM5 (80 GB HBM3) — USD por GPU-hora

ProveedorOn-demandReserved 1 añoReserved 3 añosSpot/PreemptibleFuente y fecha
CoreWeave~6,16~2,10-3,00 (negociado)~1,49-2,10 (negociado)no disponibleThunder Compute, jun. 2026
Lambda Labs2,49-3,44~1,89 (37 % dto.)~1,84 (PCIe 3a)no disponibleSpheron Blog, may. 2026
Nebius3,85descuento hasta 35 % (contactar)descuento hasta 35 % (contactar)2,15 (preemptible)nebius.com/prices, jun. 2026
Voltage Park1,99 (Ethernet) / 2,49 (InfiniBand)contactar (≥6 meses)contactarno disponiblevoltagepark.com/pricing, jun. 2026
RunPod (Secure)3,29no disponibleno disponibledisponible (~59 % dto.)Spheron Blog, may. 2026
Spheron2,50descuento volumen (contactar)descuento volumen (contactar)1,03Spheron pricing, may. 2026
AWS (p5.48xlarge)6,88~2,97 (3a, ~23,78 USD/h nodo ÷ 8)~2,97~1,14 (spot p5, 9,10 USD/h nodo)Vantage, jun. 2026
GCP (A3 High)10,98~8,78 (CUD 1a)n.d.~3,69Spheron Blog, may. 2026
Azure (ND H100 v5)12,29~6,15-8,60 (reservation 1-3a)~6,15-8,60~2,27 (spot nodo ÷ 8)Vantage Azure, jun. 2026

Todos los importes en USD/GPU-hora, redondeados a 2 decimales. La columna “Reserved 3 años” es el número comparable al coste de amortización del hardware propio.

AWS p5.48xlarge: nodo de 8× H100; on-demand 55,04 USD/h → 6,88 USD/GPU-h; 3a reserved 23,78 USD/h → 2,97 USD/GPU-h; spot 9,10-25,35 USD/h (variable por región y disponibilidad). GCP a3-highgpu-8g: 8× H100 SXM5; on-demand 87,84 USD/h → 10,98 USD/GPU-h; spot ~3,69 USD/GPU-h (us-central1, may. 2026). Azure ND96isr H100 v5: 8× H100; on-demand 98,32 USD/h → 12,29 USD/GPU-h; spot 18,17 USD/h nodo → ~2,27 USD/GPU-h (fuente: Vantage, jun. 2026, us-east-1).


Tabla de precios 2026: H200 y B200

H200 SXM (141 GB HBM3e) — USD por GPU-hora

ProveedorOn-demandSpot/PreemptibleFuente y fecha
Nebius4,502,45 (preemptible)nebius.com/prices, jun. 2026
GMI Cloud2,60no disponibleGMI Cloud, may. 2026
RunPod4,39no disponibleSpheron Blog, may. 2026
Spheron4,54no disponibleSpheron pricing, may. 2026
CoreWeave6,31no disponibleGMI Cloud, may. 2026
AWS (p5e)~4,98limitadoSpheron Blog, may. 2026
Azure~13,78no disponibleSpheron Blog, may. 2026

B200 SXM6 (192 GB HBM3e) — USD por GPU-hora

ProveedorOn-demandSpotFuente y fecha
Lambda Labs4,99-5,29no disponibleSpheron Blog, may. 2026
Nebius (HGX B200)7,153,95 (preemptible)nebius.com/prices, jun. 2026
RunPod5,89no disponibleSpheron Blog, may. 2026
Spheron6,022,12Spheron pricing, may. 2026
AWS (p6-B200)~14,24~3,24Spheron Blog, may. 2026

La disponibilidad de B200 sigue siendo limitada en Q2 2026; muchos proveedores ofrecen solo acceso por reserva anticipada. Los precios son estimaciones de mercado sujetas a cambios rápidos.


Cómo encaja en el comparativo on-prem vs cloud

El coste por GPU-hora del cloud es el número que se enfrenta al TCO on-prem calculado en on-premise soberano vs hyperscalers. La relación entre los tres modos de compra y el análisis de coste es la siguiente:

Modo cloudQué representa en el comparativoEquivalente on-prem
On-demandcoste marginal del pico de capacidad; suelo del build-vs-buy en utilización 100 %— (no comparable: on-prem no tiene elasticidad)
Reserved 3 añosel coste comprometido comparable al capex amortizado a 3 añosamortización del nodo + opex fijo anual
Spotel suelo de precio cloud, pero con riesgo de interrupción— (no comparable: el on-prem no se interrumpe)

La fórmula del coste por token aplica igual al cloud que al on-prem:

$$\text{coste/1M tokens}_{cloud} = \frac{\text{precio GPU-hora (USD)} \times 10^6}{\text{throughput (tok/s)} \times 3600}$$

Con un H100 SXM5 a 2.800 tok/s (throughput típico para un modelo de 70B en FP8):

ModalidadPrecio de referenciaCoste/1M tokens (70B, 2800 tok/s)
Neocloud on-demand (Lambda)2,49 USD/GPU-h~0,247 USD (~0,23 €)
Neocloud reserved 3a (CoreWeave)~1,49 USD/GPU-h~0,148 USD (~0,14 €)
Neocloud spot (Spheron/Nebius)~1,03-2,15 USD/GPU-h~0,102-0,213 USD
AWS on-demand (p5)6,88 USD/GPU-h~0,682 USD (~0,63 €)
AWS reserved 3a (p5)~2,97 USD/GPU-h~0,295 USD (~0,27 €)
GCP spot (A3)3,69 USD/GPU-h~0,366 USD (~0,34 €)
On-prem amortizado, alta util. (80 %)~2,83 USD/GPU-h all-in~0,281 USD (~0,26 €)

Tipo de cambio de referencia: 1 USD = 0,924 €. El tipo fluctúa; los cálculos comparativos deben hacerse con la misma divisa.

La lectura clave: a alta utilización, el TCO on-prem (~2,83 USD/GPU-hora all-in según Spheron, 2026) compite con el reserved de 3 años del neocloud (~1,49-2,97 USD/GPU-hora). El on-prem gana a alta utilización cuando el coste all-in baja de 2,5 USD; el neocloud reserved gana cuando la utilización es media o baja, porque no paga el capex parado. El spot baja el suelo del cloud pero no es comparable: la interrupción lo hace incompatible con el serving continuo, que es el caso donde el on-prem compite.

0246810USD/GPU-hora →Spot Spheron H1001,03Spot Nebius H1002,15Neo reserved 3a(CoreWeave)1,49Lambda on-demand2,49Voltage Park OD1,99On-prem TCO (80 %)~2,83AWS p5 on-demand6,88Azure ND H100 v512,2912,29 USD/GPU-h

Factores de red: InfiniBand vs Ethernet

Para training distribuido y large-scale inference (tensor parallelism entre nodos), el ancho de banda de la red de interconexión entre GPUs es crítico. Los neoclouds difieren en lo que ofrecen:

ProveedorRed GPU-GPUAncho de bandaAplica a
CoreWeaveInfiniBand NDR (Quantum-2, SHARP)400 Gbps/GPUclústeres HGX multi-nodo
Voltage ParkInfiniBand Quantum-23200 Gbps (nodo 8-GPU)tier a 2,49 USD/hr
Voltage ParkEthernet200 Gbpstier a 1,99 USD/hr
Lambda LabsEthernet200 Gbpstodos los nodos
NebiusInfiniBand400 Gbps/GPUHGX H100/H200/B200
AWS p5EFA (Elastic Fabric Adapter)3200 Gbps (nodo)clusters EC2
GCP A3GVNIC + RoCE200 Gbps/GPUA3 High
Azure ND H100 v5InfiniBand NDR400 Gbps/GPUND96isr H100 v5

InfiniBand NDR con SHARP (in-network collective reduction) reduce la latencia de las operaciones allreduce en training distribuido. Para inference serving con tensor parallelism dentro de un nodo (NVLink), la red inter-nodo es menos crítica; para training multi-nodo o prefill-decode disaggregated (tres ejes de la serie), la red entre nodos importa.


Neoclouds y soberanía: qué cambia

A diferencia de los hyperscalers estadounidenses sujetos a la US CLOUD Act, algunos neoclouds ofrecen opciones con jurisdicción fuera de EE. UU.:

ProveedorRegión UEAplicación US CLOUD Act
NebiusÁmsterdam (NL), Frankfurt (DE)No (entidad legal neerlandesa)
CoreWeaveFrankfurt (DE), Londres (GB)Sí (empresa estadounidense)
Lambda LabsSolo EE. UU.
Voltage ParkSolo EE. UU.
ScalewayParís (FR), Ámsterdam (NL)No (empresa francesa)
Hyperscalers USRegiones UE disponibles (CLOUD Act aplica)

Para datos sujetos a RGPD, solo los proveedores con entidad legal UE/EFTA garantizan la ausencia de la CLOUD Act. La discusión completa del eje de soberanía está en on-premise soberano vs hyperscalers. Para planning de capacidad con estos datos, ver capacity planning de inferencia on-premise.


Tabla de decisión: modalidad de compra según eje coste/riesgo/soberanía

ModalidadCosteRiesgo operativoSoberanía (UE)Cuándo usar
On-demand neocloudmedio (2-4 USD/GPU-h)bajo (sin interrupción)depende del proveedordesarrollo, picos impredecibles, serving con SLO
Reserved 1a neocloudbajo-medio (1,5-3 USD/GPU-h)bajo (sin interrupción, capacidad garantizada)depende del proveedorserving estable, training programado; workload validado
Reserved 3a neocloudbajo (1,5-2,1 USD/GPU-h)bajo, compromiso financierodepende del proveedorcomparable al on-prem amortizado; carga base muy estable
Spot neocloudmínimo (1-2,5 USD/GPU-h)alto (interrupción <2 min)depende del proveedorbatch, fine-tuning con checkpoint, hyperparameter search
On-demand hyperscaleralto (6,9-12,3 USD/GPU-h)bajoNO (CLOUD Act)integración con servicios AWS/GCP/Azure; sin alternativa
Reserved hyperscalermedio-alto (3-9 USD/GPU-h)bajoNO (CLOUD Act)lock-in en ecosistema hyperscaler justificado
Spot hyperscalermedio (1,1-3,7 USD/GPU-h)alto (interrupción)NO (CLOUD Act)batch sin requisito de soberanía; mayor disponibilidad que neocloud spot
On-prem amortizado (>70 % util.)bajo (~2,3-2,8 USD/GPU-h all-in)bajo (sin interrupción)total (hardware propio)carga base estable y alta; soberanía máxima

El on-prem compite con el neocloud reserved 3a cuando la utilización supera el 65-70 % (ver utilización GPU como FinOps).


Cálculo de ahorro spot: ejemplo con checkpointing

Parámetros de referencia para validar si el spot vale la pena:

$$\text{ahorro spot} = (\text{precio OD} - \text{precio spot}) \times \text{GPU-horas totales} - \text{coste de reintento}$$

$$\text{coste de reintento} = \text{tasa de interrupción} \times \text{trabajo perdido (GPU-horas)} \times \text{precio spot}$$

Con checkpointing cada 30 minutos, trabajo perdido por interrupción ≤ 0,5 GPU-horas por evento. A una tasa de interrupción del 4 % diario sobre una GPU H100:

ConceptoValor de referencia
Precio on-demand (neocloud)2,50 USD/GPU-h
Precio spot1,03 USD/GPU-h
Ahorro bruto por GPU-hora1,47 USD
Interrupciones esperadas en 40 h (4 %/día)~0,67 eventos
Trabajo re-ejecutado por evento (0,5 h × 1,03 USD)~0,34 USD
Ahorro neto en un job de 40 h × 4 GPU~234 USD (frente a 400 USD en on-demand)

El ahorro del 58 % se materializa solo si el job implementa checkpoint-resume correctamente. Sin checkpoint, una sola interrupción obliga a reiniciar desde cero: el ahorro se convierte en sobrecoste por trabajo duplicado.


Integración en el modelo TCO de la serie

El €/GPU-hora cloud es el número que alimenta el análisis de la serie FinOps. La cadena:

  1. Coste del hierro cloud (esta tabla de precios) → equivalente al capex amortizado + opex del on-prem.
  2. Throughput (medido con genai-perf, track B de la serie) → el denominador.
  3. Coste por token (coste por token y por request) → la métrica comparativa final.
  4. Utilización (utilización GPU como FinOps) → en cloud on-demand, la utilización no penaliza el coste (pagas lo que usas); en reserved y en on-prem, sí penaliza porque el coste es fijo.

La comparación correcta es neocloud reserved 3a vs on-prem amortizado a 3a, con los mismos supuestos de throughput, egress y utilización. El spot es el suelo de precio cloud pero no el suelo comparable: su naturaleza interrumpible lo excluye de la comparación con un cluster on-prem que sirve tráfico continuo.


Fuentes