Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)

Tue, 16 Jun 2026 05:00:00 +0200

Notación: importes en N USD o N €, decimales con coma. No se usa el símbolo de dólar (en este sitio es delimitador de fórmula). Todos los precios cloud cambian sin previo aviso; se indica la fecha de la fuente junto a cada dato.

TL;DR

Un H100 SXM5 on-demand cuesta entre 2,49 USD/GPU-hora (Lambda, neocloud) y 12,29 USD/GPU-hora (Azure ND H100 v5) según proveedor — una horquilla de 5× entre el piso del neocloud y el techo del hyperscaler. El modo reserved (compromiso de 1-3 años) baja el precio en un 20-40 % y es el número comparable a la amortización de hierro propio; el modo spot/preemptible baja otro 40-65 % adicional, pero con riesgo de interrupción en menos de 2 minutos de aviso. Para el análisis on-prem vs cloud de la serie (artículo on-premise soberano vs hyperscalers), el reserved del neocloud es la referencia correcta: a 1,49-2,10 USD/GPU-hora con compromiso de 3 años, los neoclouds compiten directamente con el TCO de hierro propio a utilización media.

Los tres modelos de compra de GPU cloud

On-demand

Pago por uso sin compromiso, facturado por hora o por minuto. Máxima flexibilidad; precio máximo. Aplica a: desarrollo, experimentación, picos de capacidad ocasionales y cualquier carga cuyo tiempo de vida es impredecible. La ausencia de compromiso tiene un coste: la prima de on-demand sobre reserved oscila entre el 25 % y el 60 % según proveedor.

Reserved / committed

Contrato de 1 o 3 años que garantiza capacidad a cambio de un descuento sobre la tarifa on-demand. En hyperscalers adopta el nombre de Reserved Instance (AWS), Committed Use Discount (GCP) o Azure Reservation. En neoclouds, se negocia directamente y puede incluir la elección de nodo, red (Ethernet o InfiniBand) y región. Descuentos típicos:

Plazo	Descuento sobre on-demand (referencia de mercado)
1 año	20-37 %
3 años	30-45 %

El reserved es el modelo comparable al on-prem: en ambos casos se contrae un coste fijo anticipado (capex amortizado en el on-prem; pago comprometido en el cloud). La fórmula del coste por GPU-hora efectiva es la misma en los dos casos:

$$\text{coste/GPU-hora}_{reserved} = \frac{\text{precio comprometido (USD/GPU-h)} \times 8760}{\text{horas contratadas}}$$

A diferencia del on-prem, el reserved cloud no incluye capex de hardware ni opex de operación, pero tampoco incluye los beneficios de la utilización del hierro propio a carga alta (véase utilización de GPU como palanca FinOps).

Spot / preemptible

Capacidad ociosa del proveedor ofertada con descuento de 40-65 % sobre on-demand, con la condición de que puede ser reclamada con un preaviso de 30 segundos a 2 minutos (AWS Spot, GCP Spot VMs). El descuento es real y reproducible; el riesgo de interrupción también.

Cargas aptas para spot:

Carga	Requiere checkpointing	Apta para spot
Pre-training de LLM (checkpoint-resume cada 15-30 min)	sí	sí
Fine-tuning LoRA/QLoRA con checkpoint	sí	sí
Inferencia batch offline (embeddings, evaluaciones)	no (idempotente)	sí
Búsqueda de hiperparámetros	no (repetible)	sí
Serving en producción con SLO de latencia	no aplica	no
Serving en producción con SLO de disponibilidad	no aplica	no

Un fine-tune de un modelo de 7B en 4× H100 durante 40 horas en spot alcanzó ahorros reales del 81 % sobre el on-demand equivalente (Spheron Blog, may. 2026). La tasa de interrupción típica en instancias H100 de alta fiabilidad es 2-8 % al día, lo que da una probabilidad del 92-98 % de completar un turno de 24 horas sin corte (Thunder Compute, jun. 2026).

Los neoclouds: GPU-specialised clouds

Definición y diferenciadores

Los neoclouds (o GPU-specialised clouds) son proveedores de infraestructura centrados exclusivamente en cómputo GPU para cargas de IA, sin la diversidad de servicios de los hyperscalers. SemiAnalysis acuñó el término en 2024 e identifica a CoreWeave, Nebius, Lambda y Crusoe en el nivel superior (SemiAnalysis, 2024).

Diferencias estructurales respecto a los hyperscalers:

Dimensión	Neoclouds (CoreWeave, Lambda, Nebius…)	Hyperscalers (AWS, GCP, Azure)
Precio H100 on-demand	2,49-6,16 USD/GPU-hora	6,88-12,29 USD/GPU-hora
Red de interconexión	InfiniBand NDR 400 Gbps (CoreWeave, Voltage Park), Ethernet 200+ Gbps (Lambda, Nebius)	Ethernet propietaria (EFA, GVNIC) o InfiniBand (solo p5/H100 en AWS)
Acceso a hardware nuevo	Priority access NVIDIA (CoreWeave es accionista NVIDIA); catálogo H200/B200 disponible antes	Catálogo más lento; B200 en capacidad reservada o limitada en 2026
Contratos	1-36 meses, negociados directamente	RI estándar (1-3 años), sin negociación de nodo
Servicios adicionales	Kubernetes gestionado, almacenamiento, bare-metal	Ecosistema completo (IAM, VPC, bases de datos, ML services…)
Egress	Zero-egress o flat fee (Lambda, Voltage Park, Nebius)	0,08-0,12 USD/GB (AWS, GCP, Azure)
Soberanía	Varía: Nebius (UE), Crusoe (EE. UU. limpio), CoreWeave (EE. UU./UE)	US CLOUD Act; no garantizan jurisdicción UE

El mercado de neoclouds se estima en 20.000 M USD de ingresos en 2026 y crece hacia 180.000 M USD en 2030 (Synergy Research Group, 2026). CoreWeave superó los 5.000 M USD de ARR más rápido que ninguna otra plataforma cloud. Los neoclouds precio sus H100 un 60-85 % por debajo de AWS y Azure para el mismo silicio (Signisys, 2026).

Perfiles de los principales neoclouds

Proveedor	Hardware principal	Red	Jurisdicción	Nota relevante
CoreWeave	H100, H200, B200, GB200	InfiniBand NDR (Quantum-2 SHARP)	EE. UU. / UE	Accionista NVIDIA; acceso prioritario a hardware; mayor neocloud por flota
Lambda Labs	H100, A100, B200	Ethernet	EE. UU.	Zero-egress; sin spot; facturación por minuto
Nebius	H100, H200, B200, B300	InfiniBand	UE (Ámsterdam)	Spin-off de Yandex Cloud; zero-egress; egress de objeto 0,015 USD/GiB; precio on-demand público
Crusoe	H100, A100, MI300X	Ethernet	EE. UU.	Energía 100 % renovable/flare gas; AMD MI300X a 3,45 USD/hr
Voltage Park	H100	Ethernet (1,99 USD) / InfiniBand 3200 Gbps (2,49 USD)	EE. UU.	Fusionado con Lightning AI en ene. 2026; sin mínimos; no-profit Navigation Fund
Together AI	H100, A100	Ethernet	EE. UU.	Plataforma de inferencia + cómputo bruto
GMI Cloud	H100, H200	Ethernet	Asia/EE. UU.	H200 on-demand desde 2,60 USD/hr
RunPod	H100, H200, B200, A100	Ethernet / Secure Cloud	Global	Comunidad + Secure Cloud con SLA; spot disponible

Nota: claims de “zero-egress”, “renovable” y acceso prioritario a hardware son de marketing de cada proveedor y no han sido verificados por auditorías independientes. Se reproducen con esa advertencia.

Tabla de precios 2026: H100 SXM por proveedor y modalidad

Fuente y fecha de cada dato indicados. Los precios cambian sin previo aviso.

H100 SXM5 (80 GB HBM3) — USD por GPU-hora

Proveedor	On-demand	Reserved 1 año	Reserved 3 años	Spot/Preemptible	Fuente y fecha
CoreWeave	~6,16	~2,10-3,00 (negociado)	~1,49-2,10 (negociado)	no disponible	Thunder Compute, jun. 2026
Lambda Labs	2,49-3,44	~1,89 (37 % dto.)	~1,84 (PCIe 3a)	no disponible	Spheron Blog, may. 2026
Nebius	3,85	descuento hasta 35 % (contactar)	descuento hasta 35 % (contactar)	2,15 (preemptible)	nebius.com/prices, jun. 2026
Voltage Park	1,99 (Ethernet) / 2,49 (InfiniBand)	contactar (≥6 meses)	contactar	no disponible	voltagepark.com/pricing, jun. 2026
RunPod (Secure)	3,29	no disponible	no disponible	disponible (~59 % dto.)	Spheron Blog, may. 2026
Spheron	2,50	descuento volumen (contactar)	descuento volumen (contactar)	1,03	Spheron pricing, may. 2026
AWS (p5.48xlarge)	6,88	~2,97 (3a, ~23,78 USD/h nodo ÷ 8)	~2,97	~1,14 (spot p5, 9,10 USD/h nodo)	Vantage, jun. 2026
GCP (A3 High)	10,98	~8,78 (CUD 1a)	n.d.	~3,69	Spheron Blog, may. 2026
Azure (ND H100 v5)	12,29	~6,15-8,60 (reservation 1-3a)	~6,15-8,60	~2,27 (spot nodo ÷ 8)	Vantage Azure, jun. 2026

Todos los importes en USD/GPU-hora, redondeados a 2 decimales. La columna “Reserved 3 años” es el número comparable al coste de amortización del hardware propio.

AWS p5.48xlarge: nodo de 8× H100; on-demand 55,04 USD/h → 6,88 USD/GPU-h; 3a reserved 23,78 USD/h → 2,97 USD/GPU-h; spot 9,10-25,35 USD/h (variable por región y disponibilidad). GCP a3-highgpu-8g: 8× H100 SXM5; on-demand 87,84 USD/h → 10,98 USD/GPU-h; spot ~3,69 USD/GPU-h (us-central1, may. 2026). Azure ND96isr H100 v5: 8× H100; on-demand 98,32 USD/h → 12,29 USD/GPU-h; spot 18,17 USD/h nodo → ~2,27 USD/GPU-h (fuente: Vantage, jun. 2026, us-east-1).

Tabla de precios 2026: H200 y B200

H200 SXM (141 GB HBM3e) — USD por GPU-hora

Proveedor	On-demand	Spot/Preemptible	Fuente y fecha
Nebius	4,50	2,45 (preemptible)	nebius.com/prices, jun. 2026
GMI Cloud	2,60	no disponible	GMI Cloud, may. 2026
RunPod	4,39	no disponible	Spheron Blog, may. 2026
Spheron	4,54	no disponible	Spheron pricing, may. 2026
CoreWeave	6,31	no disponible	GMI Cloud, may. 2026
AWS (p5e)	~4,98	limitado	Spheron Blog, may. 2026
Azure	~13,78	no disponible	Spheron Blog, may. 2026

B200 SXM6 (192 GB HBM3e) — USD por GPU-hora

Proveedor	On-demand	Spot	Fuente y fecha
Lambda Labs	4,99-5,29	no disponible	Spheron Blog, may. 2026
Nebius (HGX B200)	7,15	3,95 (preemptible)	nebius.com/prices, jun. 2026
RunPod	5,89	no disponible	Spheron Blog, may. 2026
Spheron	6,02	2,12	Spheron pricing, may. 2026
AWS (p6-B200)	~14,24	~3,24	Spheron Blog, may. 2026

La disponibilidad de B200 sigue siendo limitada en Q2 2026; muchos proveedores ofrecen solo acceso por reserva anticipada. Los precios son estimaciones de mercado sujetas a cambios rápidos.

Cómo encaja en el comparativo on-prem vs cloud

El coste por GPU-hora del cloud es el número que se enfrenta al TCO on-prem calculado en on-premise soberano vs hyperscalers. La relación entre los tres modos de compra y el análisis de coste es la siguiente:

Modo cloud	Qué representa en el comparativo	Equivalente on-prem
On-demand	coste marginal del pico de capacidad; suelo del build-vs-buy en utilización 100 %	— (no comparable: on-prem no tiene elasticidad)
Reserved 3 años	el coste comprometido comparable al capex amortizado a 3 años	amortización del nodo + opex fijo anual
Spot	el suelo de precio cloud, pero con riesgo de interrupción	— (no comparable: el on-prem no se interrumpe)

La fórmula del coste por token aplica igual al cloud que al on-prem:

$$\text{coste/1M tokens}_{cloud} = \frac{\text{precio GPU-hora (USD)} \times 10^6}{\text{throughput (tok/s)} \times 3600}$$

Con un H100 SXM5 a 2.800 tok/s (throughput típico para un modelo de 70B en FP8):

Modalidad	Precio de referencia	Coste/1M tokens (70B, 2800 tok/s)
Neocloud on-demand (Lambda)	2,49 USD/GPU-h	~0,247 USD (~0,23 €)
Neocloud reserved 3a (CoreWeave)	~1,49 USD/GPU-h	~0,148 USD (~0,14 €)
Neocloud spot (Spheron/Nebius)	~1,03-2,15 USD/GPU-h	~0,102-0,213 USD
AWS on-demand (p5)	6,88 USD/GPU-h	~0,682 USD (~0,63 €)
AWS reserved 3a (p5)	~2,97 USD/GPU-h	~0,295 USD (~0,27 €)
GCP spot (A3)	3,69 USD/GPU-h	~0,366 USD (~0,34 €)
On-prem amortizado, alta util. (80 %)	~2,83 USD/GPU-h all-in	~0,281 USD (~0,26 €)

Tipo de cambio de referencia: 1 USD = 0,924 €. El tipo fluctúa; los cálculos comparativos deben hacerse con la misma divisa.

La lectura clave: a alta utilización, el TCO on-prem (~2,83 USD/GPU-hora all-in según Spheron, 2026) compite con el reserved de 3 años del neocloud (~1,49-2,97 USD/GPU-hora). El on-prem gana a alta utilización cuando el coste all-in baja de 2,5 USD; el neocloud reserved gana cuando la utilización es media o baja, porque no paga el capex parado. El spot baja el suelo del cloud pero no es comparable: la interrupción lo hace incompatible con el serving continuo, que es el caso donde el on-prem compite.

Factores de red: InfiniBand vs Ethernet

Para training distribuido y large-scale inference (tensor parallelism entre nodos), el ancho de banda de la red de interconexión entre GPUs es crítico. Los neoclouds difieren en lo que ofrecen:

Proveedor	Red GPU-GPU	Ancho de banda	Aplica a
CoreWeave	InfiniBand NDR (Quantum-2, SHARP)	400 Gbps/GPU	clústeres HGX multi-nodo
Voltage Park	InfiniBand Quantum-2	3200 Gbps (nodo 8-GPU)	tier a 2,49 USD/hr
Voltage Park	Ethernet	200 Gbps	tier a 1,99 USD/hr
Lambda Labs	Ethernet	200 Gbps	todos los nodos
Nebius	InfiniBand	400 Gbps/GPU	HGX H100/H200/B200
AWS p5	EFA (Elastic Fabric Adapter)	3200 Gbps (nodo)	clusters EC2
GCP A3	GVNIC + RoCE	200 Gbps/GPU	A3 High
Azure ND H100 v5	InfiniBand NDR	400 Gbps/GPU	ND96isr H100 v5

InfiniBand NDR con SHARP (in-network collective reduction) reduce la latencia de las operaciones allreduce en training distribuido. Para inference serving con tensor parallelism dentro de un nodo (NVLink), la red inter-nodo es menos crítica; para training multi-nodo o prefill-decode disaggregated (tres ejes de la serie), la red entre nodos importa.

Neoclouds y soberanía: qué cambia

A diferencia de los hyperscalers estadounidenses sujetos a la US CLOUD Act, algunos neoclouds ofrecen opciones con jurisdicción fuera de EE. UU.:

Proveedor	Región UE	Aplicación US CLOUD Act
Nebius	Ámsterdam (NL), Frankfurt (DE)	No (entidad legal neerlandesa)
CoreWeave	Frankfurt (DE), Londres (GB)	Sí (empresa estadounidense)
Lambda Labs	Solo EE. UU.	Sí
Voltage Park	Solo EE. UU.	Sí
Scaleway	París (FR), Ámsterdam (NL)	No (empresa francesa)
Hyperscalers US	Regiones UE disponibles	Sí (CLOUD Act aplica)

Para datos sujetos a RGPD, solo los proveedores con entidad legal UE/EFTA garantizan la ausencia de la CLOUD Act. La discusión completa del eje de soberanía está en on-premise soberano vs hyperscalers. Para planning de capacidad con estos datos, ver capacity planning de inferencia on-premise.

Tabla de decisión: modalidad de compra según eje coste/riesgo/soberanía

Modalidad	Coste	Riesgo operativo	Soberanía (UE)	Cuándo usar
On-demand neocloud	medio (2-4 USD/GPU-h)	bajo (sin interrupción)	depende del proveedor	desarrollo, picos impredecibles, serving con SLO
Reserved 1a neocloud	bajo-medio (1,5-3 USD/GPU-h)	bajo (sin interrupción, capacidad garantizada)	depende del proveedor	serving estable, training programado; workload validado
Reserved 3a neocloud	bajo (1,5-2,1 USD/GPU-h)	bajo, compromiso financiero	depende del proveedor	comparable al on-prem amortizado; carga base muy estable
Spot neocloud	mínimo (1-2,5 USD/GPU-h)	alto (interrupción <2 min)	depende del proveedor	batch, fine-tuning con checkpoint, hyperparameter search
On-demand hyperscaler	alto (6,9-12,3 USD/GPU-h)	bajo	NO (CLOUD Act)	integración con servicios AWS/GCP/Azure; sin alternativa
Reserved hyperscaler	medio-alto (3-9 USD/GPU-h)	bajo	NO (CLOUD Act)	lock-in en ecosistema hyperscaler justificado
Spot hyperscaler	medio (1,1-3,7 USD/GPU-h)	alto (interrupción)	NO (CLOUD Act)	batch sin requisito de soberanía; mayor disponibilidad que neocloud spot
On-prem amortizado (>70 % util.)	bajo (~2,3-2,8 USD/GPU-h all-in)	bajo (sin interrupción)	total (hardware propio)	carga base estable y alta; soberanía máxima

El on-prem compite con el neocloud reserved 3a cuando la utilización supera el 65-70 % (ver utilización GPU como FinOps).

Cálculo de ahorro spot: ejemplo con checkpointing

Parámetros de referencia para validar si el spot vale la pena:

$$\text{ahorro spot} = (\text{precio OD} - \text{precio spot}) \times \text{GPU-horas totales} - \text{coste de reintento}$$

$$\text{coste de reintento} = \text{tasa de interrupción} \times \text{trabajo perdido (GPU-horas)} \times \text{precio spot}$$

Con checkpointing cada 30 minutos, trabajo perdido por interrupción ≤ 0,5 GPU-horas por evento. A una tasa de interrupción del 4 % diario sobre una GPU H100:

Concepto	Valor de referencia
Precio on-demand (neocloud)	2,50 USD/GPU-h
Precio spot	1,03 USD/GPU-h
Ahorro bruto por GPU-hora	1,47 USD
Interrupciones esperadas en 40 h (4 %/día)	~0,67 eventos
Trabajo re-ejecutado por evento (0,5 h × 1,03 USD)	~0,34 USD
Ahorro neto en un job de 40 h × 4 GPU	~234 USD (frente a 400 USD en on-demand)

El ahorro del 58 % se materializa solo si el job implementa checkpoint-resume correctamente. Sin checkpoint, una sola interrupción obliga a reiniciar desde cero: el ahorro se convierte en sobrecoste por trabajo duplicado.

Integración en el modelo TCO de la serie

El €/GPU-hora cloud es el número que alimenta el análisis de la serie FinOps. La cadena:

Coste del hierro cloud (esta tabla de precios) → equivalente al capex amortizado + opex del on-prem.
Throughput (medido con genai-perf, track B de la serie) → el denominador.
Coste por token (coste por token y por request) → la métrica comparativa final.
Utilización (utilización GPU como FinOps) → en cloud on-demand, la utilización no penaliza el coste (pagas lo que usas); en reserved y en on-prem, sí penaliza porque el coste es fijo.

La comparación correcta es neocloud reserved 3a vs on-prem amortizado a 3a, con los mismos supuestos de throughput, egress y utilización. El spot es el suelo de precio cloud pero no el suelo comparable: su naturaleza interrumpible lo excluye de la comparación con un cluster on-prem que sirve tráfico continuo.

Fuentes

Spheron Blog · GPU Cloud Pricing 2026: H100 from 1,03 USD/hr, B200 from 2,12 USD/hr (15+ providers), may. 2026 — https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/
Vantage · p5.48xlarge pricing and specs (AWS), actualizado jun. 2026 — https://instances.vantage.sh/aws/ec2/p5.48xlarge
Nebius · NVIDIA GPU Pricing (página oficial, jun. 2026) — https://nebius.com/prices
Voltage Park · H100 GPU Pricing (página oficial, jun. 2026) — https://www.voltagepark.com/pricing
Thunder Compute · CoreWeave GPU Pricing Review (jun. 2026) — https://www.thundercompute.com/blog/coreweave-gpu-pricing-review
Thunder Compute · NVIDIA H100 Pricing (Jun 2026) — https://www.thundercompute.com/blog/nvidia-h100-pricing
Spheron Blog · Lambda Cloud H100 Pricing 2026 — https://www.spheron.network/blog/lambda-cloud-h100-pricing-2026/
Spheron Blog · AWS H100 Pricing 2026: P5 Instance Cost — https://www.spheron.network/blog/aws-h100-pricing-2026/
Spheron Blog · Google Cloud A3 H100 Pricing 2026 — https://www.spheron.network/blog/google-cloud-a3-h100-pricing/
Spheron Blog · Azure H100 Pricing 2026: ND H100 v5 — https://www.spheron.network/blog/azure-h100-pricing/
GMI Cloud · H200 GPU Provider Pricing 2026 (CoreWeave, Lambda, Nebius, GMI) — https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing
Spheron Blog · GPU Spot Instance Arbitrage 2026 — https://www.spheron.network/blog/gpu-spot-instance-arbitrage-2026/
Thunder Compute · Cloud GPU Spot Instance Availability and Interruption Rates — https://www.thundercompute.com/blog/cloud-gpu-spot-instance-availability
Synergy Research Group · Neocloud Market Forecast to Approach 400B USD by 2031 — https://www.srgresearch.com/articles/neocloud-market-forecast-to-approach-400b-by-2031-driven-by-surging-ai-infrastructure-demand
Signisys · The Neocloud Revolution: How 20 Billion USD in GPU Providers Reshapes Cloud Market — https://www.signisys.com/blog/the-neocloud-revolution-how-20-billion-in-gpu-focused-providers-are-reshaping-the-cloud-market/
SemiAnalysis · The Great GPU Shortage: Rental Capacity (neocloud taxonomy original) — https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity
Spheron Blog · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even — https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/
IntuitionLabs · H100 Rental Prices Compared 1,49-6,98 USD/hr Across 15+ Cloud Providers (2026) — https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison

Spot on lo0 — Blog Técnico