Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)
Notación: importes en N USD o N €, decimales con coma. No se usa el símbolo de dólar (en este sitio es delimitador de fórmula). Todos los precios cloud cambian sin previo aviso; se indica la fecha de la fuente junto a cada dato.
TL;DR
Un H100 SXM5 on-demand cuesta entre 2,49 USD/GPU-hora (Lambda, neocloud) y 12,29 USD/GPU-hora (Azure ND H100 v5) según proveedor — una horquilla de 5× entre el piso del neocloud y el techo del hyperscaler. El modo reserved (compromiso de 1-3 años) baja el precio en un 20-40 % y es el número comparable a la amortización de hierro propio; el modo spot/preemptible baja otro 40-65 % adicional, pero con riesgo de interrupción en menos de 2 minutos de aviso. Para el análisis on-prem vs cloud de la serie (artículo on-premise soberano vs hyperscalers), el reserved del neocloud es la referencia correcta: a 1,49-2,10 USD/GPU-hora con compromiso de 3 años, los neoclouds compiten directamente con el TCO de hierro propio a utilización media.
Los tres modelos de compra de GPU cloud
On-demand
Pago por uso sin compromiso, facturado por hora o por minuto. Máxima flexibilidad; precio máximo. Aplica a: desarrollo, experimentación, picos de capacidad ocasionales y cualquier carga cuyo tiempo de vida es impredecible. La ausencia de compromiso tiene un coste: la prima de on-demand sobre reserved oscila entre el 25 % y el 60 % según proveedor.
Reserved / committed
Contrato de 1 o 3 años que garantiza capacidad a cambio de un descuento sobre la tarifa on-demand. En hyperscalers adopta el nombre de Reserved Instance (AWS), Committed Use Discount (GCP) o Azure Reservation. En neoclouds, se negocia directamente y puede incluir la elección de nodo, red (Ethernet o InfiniBand) y región. Descuentos típicos:
| Plazo | Descuento sobre on-demand (referencia de mercado) |
|---|---|
| 1 año | 20-37 % |
| 3 años | 30-45 % |
El reserved es el modelo comparable al on-prem: en ambos casos se contrae un coste fijo anticipado (capex amortizado en el on-prem; pago comprometido en el cloud). La fórmula del coste por GPU-hora efectiva es la misma en los dos casos:
$$\text{coste/GPU-hora}_{reserved} = \frac{\text{precio comprometido (USD/GPU-h)} \times 8760}{\text{horas contratadas}}$$
A diferencia del on-prem, el reserved cloud no incluye capex de hardware ni opex de operación, pero tampoco incluye los beneficios de la utilización del hierro propio a carga alta (véase utilización de GPU como palanca FinOps).
Spot / preemptible
Capacidad ociosa del proveedor ofertada con descuento de 40-65 % sobre on-demand, con la condición de que puede ser reclamada con un preaviso de 30 segundos a 2 minutos (AWS Spot, GCP Spot VMs). El descuento es real y reproducible; el riesgo de interrupción también.
Cargas aptas para spot:
| Carga | Requiere checkpointing | Apta para spot |
|---|---|---|
| Pre-training de LLM (checkpoint-resume cada 15-30 min) | sí | sí |
| Fine-tuning LoRA/QLoRA con checkpoint | sí | sí |
| Inferencia batch offline (embeddings, evaluaciones) | no (idempotente) | sí |
| Búsqueda de hiperparámetros | no (repetible) | sí |
| Serving en producción con SLO de latencia | no aplica | no |
| Serving en producción con SLO de disponibilidad | no aplica | no |
Un fine-tune de un modelo de 7B en 4× H100 durante 40 horas en spot alcanzó ahorros reales del 81 % sobre el on-demand equivalente (Spheron Blog, may. 2026). La tasa de interrupción típica en instancias H100 de alta fiabilidad es 2-8 % al día, lo que da una probabilidad del 92-98 % de completar un turno de 24 horas sin corte (Thunder Compute, jun. 2026).
Los neoclouds: GPU-specialised clouds
Definición y diferenciadores
Los neoclouds (o GPU-specialised clouds) son proveedores de infraestructura centrados exclusivamente en cómputo GPU para cargas de IA, sin la diversidad de servicios de los hyperscalers. SemiAnalysis acuñó el término en 2024 e identifica a CoreWeave, Nebius, Lambda y Crusoe en el nivel superior (SemiAnalysis, 2024).
Diferencias estructurales respecto a los hyperscalers:
| Dimensión | Neoclouds (CoreWeave, Lambda, Nebius…) | Hyperscalers (AWS, GCP, Azure) |
|---|---|---|
| Precio H100 on-demand | 2,49-6,16 USD/GPU-hora | 6,88-12,29 USD/GPU-hora |
| Red de interconexión | InfiniBand NDR 400 Gbps (CoreWeave, Voltage Park), Ethernet 200+ Gbps (Lambda, Nebius) | Ethernet propietaria (EFA, GVNIC) o InfiniBand (solo p5/H100 en AWS) |
| Acceso a hardware nuevo | Priority access NVIDIA (CoreWeave es accionista NVIDIA); catálogo H200/B200 disponible antes | Catálogo más lento; B200 en capacidad reservada o limitada en 2026 |
| Contratos | 1-36 meses, negociados directamente | RI estándar (1-3 años), sin negociación de nodo |
| Servicios adicionales | Kubernetes gestionado, almacenamiento, bare-metal | Ecosistema completo (IAM, VPC, bases de datos, ML services…) |
| Egress | Zero-egress o flat fee (Lambda, Voltage Park, Nebius) | 0,08-0,12 USD/GB (AWS, GCP, Azure) |
| Soberanía | Varía: Nebius (UE), Crusoe (EE. UU. limpio), CoreWeave (EE. UU./UE) | US CLOUD Act; no garantizan jurisdicción UE |
El mercado de neoclouds se estima en 20.000 M USD de ingresos en 2026 y crece hacia 180.000 M USD en 2030 (Synergy Research Group, 2026). CoreWeave superó los 5.000 M USD de ARR más rápido que ninguna otra plataforma cloud. Los neoclouds precio sus H100 un 60-85 % por debajo de AWS y Azure para el mismo silicio (Signisys, 2026).
Perfiles de los principales neoclouds
| Proveedor | Hardware principal | Red | Jurisdicción | Nota relevante |
|---|---|---|---|---|
| CoreWeave | H100, H200, B200, GB200 | InfiniBand NDR (Quantum-2 SHARP) | EE. UU. / UE | Accionista NVIDIA; acceso prioritario a hardware; mayor neocloud por flota |
| Lambda Labs | H100, A100, B200 | Ethernet | EE. UU. | Zero-egress; sin spot; facturación por minuto |
| Nebius | H100, H200, B200, B300 | InfiniBand | UE (Ámsterdam) | Spin-off de Yandex Cloud; zero-egress; egress de objeto 0,015 USD/GiB; precio on-demand público |
| Crusoe | H100, A100, MI300X | Ethernet | EE. UU. | Energía 100 % renovable/flare gas; AMD MI300X a 3,45 USD/hr |
| Voltage Park | H100 | Ethernet (1,99 USD) / InfiniBand 3200 Gbps (2,49 USD) | EE. UU. | Fusionado con Lightning AI en ene. 2026; sin mínimos; no-profit Navigation Fund |
| Together AI | H100, A100 | Ethernet | EE. UU. | Plataforma de inferencia + cómputo bruto |
| GMI Cloud | H100, H200 | Ethernet | Asia/EE. UU. | H200 on-demand desde 2,60 USD/hr |
| RunPod | H100, H200, B200, A100 | Ethernet / Secure Cloud | Global | Comunidad + Secure Cloud con SLA; spot disponible |
Nota: claims de “zero-egress”, “renovable” y acceso prioritario a hardware son de marketing de cada proveedor y no han sido verificados por auditorías independientes. Se reproducen con esa advertencia.
Tabla de precios 2026: H100 SXM por proveedor y modalidad
Fuente y fecha de cada dato indicados. Los precios cambian sin previo aviso.
H100 SXM5 (80 GB HBM3) — USD por GPU-hora
| Proveedor | On-demand | Reserved 1 año | Reserved 3 años | Spot/Preemptible | Fuente y fecha |
|---|---|---|---|---|---|
| CoreWeave | ~6,16 | ~2,10-3,00 (negociado) | ~1,49-2,10 (negociado) | no disponible | Thunder Compute, jun. 2026 |
| Lambda Labs | 2,49-3,44 | ~1,89 (37 % dto.) | ~1,84 (PCIe 3a) | no disponible | Spheron Blog, may. 2026 |
| Nebius | 3,85 | descuento hasta 35 % (contactar) | descuento hasta 35 % (contactar) | 2,15 (preemptible) | nebius.com/prices, jun. 2026 |
| Voltage Park | 1,99 (Ethernet) / 2,49 (InfiniBand) | contactar (≥6 meses) | contactar | no disponible | voltagepark.com/pricing, jun. 2026 |
| RunPod (Secure) | 3,29 | no disponible | no disponible | disponible (~59 % dto.) | Spheron Blog, may. 2026 |
| Spheron | 2,50 | descuento volumen (contactar) | descuento volumen (contactar) | 1,03 | Spheron pricing, may. 2026 |
| AWS (p5.48xlarge) | 6,88 | ~2,97 (3a, ~23,78 USD/h nodo ÷ 8) | ~2,97 | ~1,14 (spot p5, 9,10 USD/h nodo) | Vantage, jun. 2026 |
| GCP (A3 High) | 10,98 | ~8,78 (CUD 1a) | n.d. | ~3,69 | Spheron Blog, may. 2026 |
| Azure (ND H100 v5) | 12,29 | ~6,15-8,60 (reservation 1-3a) | ~6,15-8,60 | ~2,27 (spot nodo ÷ 8) | Vantage Azure, jun. 2026 |
Todos los importes en USD/GPU-hora, redondeados a 2 decimales. La columna “Reserved 3 años” es el número comparable al coste de amortización del hardware propio.
AWS p5.48xlarge: nodo de 8× H100; on-demand 55,04 USD/h → 6,88 USD/GPU-h; 3a reserved 23,78 USD/h → 2,97 USD/GPU-h; spot 9,10-25,35 USD/h (variable por región y disponibilidad). GCP a3-highgpu-8g: 8× H100 SXM5; on-demand 87,84 USD/h → 10,98 USD/GPU-h; spot ~3,69 USD/GPU-h (us-central1, may. 2026). Azure ND96isr H100 v5: 8× H100; on-demand 98,32 USD/h → 12,29 USD/GPU-h; spot 18,17 USD/h nodo → ~2,27 USD/GPU-h (fuente: Vantage, jun. 2026, us-east-1).
Tabla de precios 2026: H200 y B200
H200 SXM (141 GB HBM3e) — USD por GPU-hora
| Proveedor | On-demand | Spot/Preemptible | Fuente y fecha |
|---|---|---|---|
| Nebius | 4,50 | 2,45 (preemptible) | nebius.com/prices, jun. 2026 |
| GMI Cloud | 2,60 | no disponible | GMI Cloud, may. 2026 |
| RunPod | 4,39 | no disponible | Spheron Blog, may. 2026 |
| Spheron | 4,54 | no disponible | Spheron pricing, may. 2026 |
| CoreWeave | 6,31 | no disponible | GMI Cloud, may. 2026 |
| AWS (p5e) | ~4,98 | limitado | Spheron Blog, may. 2026 |
| Azure | ~13,78 | no disponible | Spheron Blog, may. 2026 |
B200 SXM6 (192 GB HBM3e) — USD por GPU-hora
| Proveedor | On-demand | Spot | Fuente y fecha |
|---|---|---|---|
| Lambda Labs | 4,99-5,29 | no disponible | Spheron Blog, may. 2026 |
| Nebius (HGX B200) | 7,15 | 3,95 (preemptible) | nebius.com/prices, jun. 2026 |
| RunPod | 5,89 | no disponible | Spheron Blog, may. 2026 |
| Spheron | 6,02 | 2,12 | Spheron pricing, may. 2026 |
| AWS (p6-B200) | ~14,24 | ~3,24 | Spheron Blog, may. 2026 |
La disponibilidad de B200 sigue siendo limitada en Q2 2026; muchos proveedores ofrecen solo acceso por reserva anticipada. Los precios son estimaciones de mercado sujetas a cambios rápidos.
Cómo encaja en el comparativo on-prem vs cloud
El coste por GPU-hora del cloud es el número que se enfrenta al TCO on-prem calculado en on-premise soberano vs hyperscalers. La relación entre los tres modos de compra y el análisis de coste es la siguiente:
| Modo cloud | Qué representa en el comparativo | Equivalente on-prem |
|---|---|---|
| On-demand | coste marginal del pico de capacidad; suelo del build-vs-buy en utilización 100 % | — (no comparable: on-prem no tiene elasticidad) |
| Reserved 3 años | el coste comprometido comparable al capex amortizado a 3 años | amortización del nodo + opex fijo anual |
| Spot | el suelo de precio cloud, pero con riesgo de interrupción | — (no comparable: el on-prem no se interrumpe) |
La fórmula del coste por token aplica igual al cloud que al on-prem:
$$\text{coste/1M tokens}_{cloud} = \frac{\text{precio GPU-hora (USD)} \times 10^6}{\text{throughput (tok/s)} \times 3600}$$
Con un H100 SXM5 a 2.800 tok/s (throughput típico para un modelo de 70B en FP8):
| Modalidad | Precio de referencia | Coste/1M tokens (70B, 2800 tok/s) |
|---|---|---|
| Neocloud on-demand (Lambda) | 2,49 USD/GPU-h | ~0,247 USD (~0,23 €) |
| Neocloud reserved 3a (CoreWeave) | ~1,49 USD/GPU-h | ~0,148 USD (~0,14 €) |
| Neocloud spot (Spheron/Nebius) | ~1,03-2,15 USD/GPU-h | ~0,102-0,213 USD |
| AWS on-demand (p5) | 6,88 USD/GPU-h | ~0,682 USD (~0,63 €) |
| AWS reserved 3a (p5) | ~2,97 USD/GPU-h | ~0,295 USD (~0,27 €) |
| GCP spot (A3) | 3,69 USD/GPU-h | ~0,366 USD (~0,34 €) |
| On-prem amortizado, alta util. (80 %) | ~2,83 USD/GPU-h all-in | ~0,281 USD (~0,26 €) |
Tipo de cambio de referencia: 1 USD = 0,924 €. El tipo fluctúa; los cálculos comparativos deben hacerse con la misma divisa.
La lectura clave: a alta utilización, el TCO on-prem (~2,83 USD/GPU-hora all-in según Spheron, 2026) compite con el reserved de 3 años del neocloud (~1,49-2,97 USD/GPU-hora). El on-prem gana a alta utilización cuando el coste all-in baja de 2,5 USD; el neocloud reserved gana cuando la utilización es media o baja, porque no paga el capex parado. El spot baja el suelo del cloud pero no es comparable: la interrupción lo hace incompatible con el serving continuo, que es el caso donde el on-prem compite.
Factores de red: InfiniBand vs Ethernet
Para training distribuido y large-scale inference (tensor parallelism entre nodos), el ancho de banda de la red de interconexión entre GPUs es crítico. Los neoclouds difieren en lo que ofrecen:
| Proveedor | Red GPU-GPU | Ancho de banda | Aplica a |
|---|---|---|---|
| CoreWeave | InfiniBand NDR (Quantum-2, SHARP) | 400 Gbps/GPU | clústeres HGX multi-nodo |
| Voltage Park | InfiniBand Quantum-2 | 3200 Gbps (nodo 8-GPU) | tier a 2,49 USD/hr |
| Voltage Park | Ethernet | 200 Gbps | tier a 1,99 USD/hr |
| Lambda Labs | Ethernet | 200 Gbps | todos los nodos |
| Nebius | InfiniBand | 400 Gbps/GPU | HGX H100/H200/B200 |
| AWS p5 | EFA (Elastic Fabric Adapter) | 3200 Gbps (nodo) | clusters EC2 |
| GCP A3 | GVNIC + RoCE | 200 Gbps/GPU | A3 High |
| Azure ND H100 v5 | InfiniBand NDR | 400 Gbps/GPU | ND96isr H100 v5 |
InfiniBand NDR con SHARP (in-network collective reduction) reduce la latencia de las operaciones allreduce en training distribuido. Para inference serving con tensor parallelism dentro de un nodo (NVLink), la red inter-nodo es menos crítica; para training multi-nodo o prefill-decode disaggregated (tres ejes de la serie), la red entre nodos importa.
Neoclouds y soberanía: qué cambia
A diferencia de los hyperscalers estadounidenses sujetos a la US CLOUD Act, algunos neoclouds ofrecen opciones con jurisdicción fuera de EE. UU.:
| Proveedor | Región UE | Aplicación US CLOUD Act |
|---|---|---|
| Nebius | Ámsterdam (NL), Frankfurt (DE) | No (entidad legal neerlandesa) |
| CoreWeave | Frankfurt (DE), Londres (GB) | Sí (empresa estadounidense) |
| Lambda Labs | Solo EE. UU. | Sí |
| Voltage Park | Solo EE. UU. | Sí |
| Scaleway | París (FR), Ámsterdam (NL) | No (empresa francesa) |
| Hyperscalers US | Regiones UE disponibles | Sí (CLOUD Act aplica) |
Para datos sujetos a RGPD, solo los proveedores con entidad legal UE/EFTA garantizan la ausencia de la CLOUD Act. La discusión completa del eje de soberanía está en on-premise soberano vs hyperscalers. Para planning de capacidad con estos datos, ver capacity planning de inferencia on-premise.
Tabla de decisión: modalidad de compra según eje coste/riesgo/soberanía
| Modalidad | Coste | Riesgo operativo | Soberanía (UE) | Cuándo usar |
|---|---|---|---|---|
| On-demand neocloud | medio (2-4 USD/GPU-h) | bajo (sin interrupción) | depende del proveedor | desarrollo, picos impredecibles, serving con SLO |
| Reserved 1a neocloud | bajo-medio (1,5-3 USD/GPU-h) | bajo (sin interrupción, capacidad garantizada) | depende del proveedor | serving estable, training programado; workload validado |
| Reserved 3a neocloud | bajo (1,5-2,1 USD/GPU-h) | bajo, compromiso financiero | depende del proveedor | comparable al on-prem amortizado; carga base muy estable |
| Spot neocloud | mínimo (1-2,5 USD/GPU-h) | alto (interrupción <2 min) | depende del proveedor | batch, fine-tuning con checkpoint, hyperparameter search |
| On-demand hyperscaler | alto (6,9-12,3 USD/GPU-h) | bajo | NO (CLOUD Act) | integración con servicios AWS/GCP/Azure; sin alternativa |
| Reserved hyperscaler | medio-alto (3-9 USD/GPU-h) | bajo | NO (CLOUD Act) | lock-in en ecosistema hyperscaler justificado |
| Spot hyperscaler | medio (1,1-3,7 USD/GPU-h) | alto (interrupción) | NO (CLOUD Act) | batch sin requisito de soberanía; mayor disponibilidad que neocloud spot |
| On-prem amortizado (>70 % util.) | bajo (~2,3-2,8 USD/GPU-h all-in) | bajo (sin interrupción) | total (hardware propio) | carga base estable y alta; soberanía máxima |
El on-prem compite con el neocloud reserved 3a cuando la utilización supera el 65-70 % (ver utilización GPU como FinOps).
Cálculo de ahorro spot: ejemplo con checkpointing
Parámetros de referencia para validar si el spot vale la pena:
$$\text{ahorro spot} = (\text{precio OD} - \text{precio spot}) \times \text{GPU-horas totales} - \text{coste de reintento}$$
$$\text{coste de reintento} = \text{tasa de interrupción} \times \text{trabajo perdido (GPU-horas)} \times \text{precio spot}$$
Con checkpointing cada 30 minutos, trabajo perdido por interrupción ≤ 0,5 GPU-horas por evento. A una tasa de interrupción del 4 % diario sobre una GPU H100:
| Concepto | Valor de referencia |
|---|---|
| Precio on-demand (neocloud) | 2,50 USD/GPU-h |
| Precio spot | 1,03 USD/GPU-h |
| Ahorro bruto por GPU-hora | 1,47 USD |
| Interrupciones esperadas en 40 h (4 %/día) | ~0,67 eventos |
| Trabajo re-ejecutado por evento (0,5 h × 1,03 USD) | ~0,34 USD |
| Ahorro neto en un job de 40 h × 4 GPU | ~234 USD (frente a 400 USD en on-demand) |
El ahorro del 58 % se materializa solo si el job implementa checkpoint-resume correctamente. Sin checkpoint, una sola interrupción obliga a reiniciar desde cero: el ahorro se convierte en sobrecoste por trabajo duplicado.
Integración en el modelo TCO de la serie
El €/GPU-hora cloud es el número que alimenta el análisis de la serie FinOps. La cadena:
- Coste del hierro cloud (esta tabla de precios) → equivalente al capex amortizado + opex del on-prem.
- Throughput (medido con genai-perf, track B de la serie) → el denominador.
- Coste por token (coste por token y por request) → la métrica comparativa final.
- Utilización (utilización GPU como FinOps) → en cloud on-demand, la utilización no penaliza el coste (pagas lo que usas); en reserved y en on-prem, sí penaliza porque el coste es fijo.
La comparación correcta es neocloud reserved 3a vs on-prem amortizado a 3a, con los mismos supuestos de throughput, egress y utilización. El spot es el suelo de precio cloud pero no el suelo comparable: su naturaleza interrumpible lo excluye de la comparación con un cluster on-prem que sirve tráfico continuo.
Fuentes
- Spheron Blog · GPU Cloud Pricing 2026: H100 from 1,03 USD/hr, B200 from 2,12 USD/hr (15+ providers), may. 2026 — https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/
- Vantage · p5.48xlarge pricing and specs (AWS), actualizado jun. 2026 — https://instances.vantage.sh/aws/ec2/p5.48xlarge
- Nebius · NVIDIA GPU Pricing (página oficial, jun. 2026) — https://nebius.com/prices
- Voltage Park · H100 GPU Pricing (página oficial, jun. 2026) — https://www.voltagepark.com/pricing
- Thunder Compute · CoreWeave GPU Pricing Review (jun. 2026) — https://www.thundercompute.com/blog/coreweave-gpu-pricing-review
- Thunder Compute · NVIDIA H100 Pricing (Jun 2026) — https://www.thundercompute.com/blog/nvidia-h100-pricing
- Spheron Blog · Lambda Cloud H100 Pricing 2026 — https://www.spheron.network/blog/lambda-cloud-h100-pricing-2026/
- Spheron Blog · AWS H100 Pricing 2026: P5 Instance Cost — https://www.spheron.network/blog/aws-h100-pricing-2026/
- Spheron Blog · Google Cloud A3 H100 Pricing 2026 — https://www.spheron.network/blog/google-cloud-a3-h100-pricing/
- Spheron Blog · Azure H100 Pricing 2026: ND H100 v5 — https://www.spheron.network/blog/azure-h100-pricing/
- GMI Cloud · H200 GPU Provider Pricing 2026 (CoreWeave, Lambda, Nebius, GMI) — https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing
- Spheron Blog · GPU Spot Instance Arbitrage 2026 — https://www.spheron.network/blog/gpu-spot-instance-arbitrage-2026/
- Thunder Compute · Cloud GPU Spot Instance Availability and Interruption Rates — https://www.thundercompute.com/blog/cloud-gpu-spot-instance-availability
- Synergy Research Group · Neocloud Market Forecast to Approach 400B USD by 2031 — https://www.srgresearch.com/articles/neocloud-market-forecast-to-approach-400b-by-2031-driven-by-surging-ai-infrastructure-demand
- Signisys · The Neocloud Revolution: How 20 Billion USD in GPU Providers Reshapes Cloud Market — https://www.signisys.com/blog/the-neocloud-revolution-how-20-billion-in-gpu-focused-providers-are-reshaping-the-cloud-market/
- SemiAnalysis · The Great GPU Shortage: Rental Capacity (neocloud taxonomy original) — https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity
- Spheron Blog · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even — https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/
- IntuitionLabs · H100 Rental Prices Compared 1,49-6,98 USD/hr Across 15+ Cloud Providers (2026) — https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison