<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Spot on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/spot/</link><description>Recent content in Spot on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Tue, 16 Jun 2026 05:00:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/spot/index.xml" rel="self" type="application/rss+xml"/><item><title>Cloud GPU: on-demand, reserved y spot — y por qué los neoclouds cambian el tablero (con precios 2026)</title><link>https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/</link><pubDate>Tue, 16 Jun 2026 05:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>N USD&lt;/strong> o &lt;strong>N €&lt;/strong>, decimales con coma. No se usa el símbolo de dólar
(en este sitio es delimitador de fórmula). Todos los precios cloud cambian sin previo aviso;
se indica la fecha de la fuente junto a cada dato.&lt;/p>
&lt;/blockquote>
&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>Un H100 SXM5 on-demand cuesta entre &lt;strong>2,49 USD/GPU-hora&lt;/strong> (Lambda, neocloud) y &lt;strong>12,29 USD/GPU-hora&lt;/strong>
(Azure ND H100 v5) según proveedor — una horquilla de &lt;strong>5× entre el piso del neocloud y el techo
del hyperscaler&lt;/strong>. El modo &lt;em>reserved&lt;/em> (compromiso de 1-3 años) baja el precio en un 20-40 % y es
el número comparable a la amortización de hierro propio; el modo &lt;em>spot/preemptible&lt;/em> baja otro
40-65 % adicional, pero con riesgo de interrupción en menos de 2 minutos de aviso. Para el análisis
on-prem vs cloud de la serie (artículo &lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>),
el &lt;em>reserved&lt;/em> del neocloud es la referencia correcta: a &lt;strong>1,49-2,10 USD/GPU-hora&lt;/strong> con compromiso
de 3 años, los neoclouds compiten directamente con el TCO de hierro propio a utilización media.&lt;/p>
&lt;hr>
&lt;h2 id="los-tres-modelos-de-compra-de-gpu-cloud">Los tres modelos de compra de GPU cloud&lt;/h2>
&lt;h3 id="on-demand">On-demand&lt;/h3>
&lt;p>Pago por uso sin compromiso, facturado por hora o por minuto. Máxima flexibilidad; precio máximo.
Aplica a: desarrollo, experimentación, picos de capacidad ocasionales y cualquier carga cuyo
tiempo de vida es impredecible. La ausencia de compromiso tiene un coste: la prima de on-demand
sobre &lt;em>reserved&lt;/em> oscila entre el 25 % y el 60 % según proveedor.&lt;/p>
&lt;h3 id="reserved--committed">Reserved / committed&lt;/h3>
&lt;p>Contrato de 1 o 3 años que garantiza capacidad a cambio de un descuento sobre la tarifa on-demand.
En hyperscalers adopta el nombre de &lt;em>Reserved Instance&lt;/em> (AWS), &lt;em>Committed Use Discount&lt;/em> (GCP) o
&lt;em>Azure Reservation&lt;/em>. En neoclouds, se negocia directamente y puede incluir la elección de nodo,
red (Ethernet o InfiniBand) y región. Descuentos típicos:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Plazo&lt;/th>
&lt;th>Descuento sobre on-demand (referencia de mercado)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>1 año&lt;/td>
&lt;td>20-37 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3 años&lt;/td>
&lt;td>30-45 %&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El &lt;em>reserved&lt;/em> es el modelo &lt;strong>comparable al on-prem&lt;/strong>: en ambos casos se contrae un coste fijo
anticipado (capex amortizado en el on-prem; pago comprometido en el cloud). La fórmula del coste
por GPU-hora efectiva es la misma en los dos casos:&lt;/p>
&lt;p>$$\text{coste/GPU-hora}_{reserved} = \frac{\text{precio comprometido (USD/GPU-h)} \times 8760}{\text{horas contratadas}}$$&lt;/p>
&lt;p>A diferencia del on-prem, el reserved cloud no incluye capex de hardware ni opex de operación,
pero tampoco incluye los beneficios de la utilización del hierro propio a carga alta (véase
&lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización de GPU como palanca FinOps&lt;/a>).&lt;/p>
&lt;h3 id="spot--preemptible">Spot / preemptible&lt;/h3>
&lt;p>Capacidad ociosa del proveedor ofertada con descuento de 40-65 % sobre on-demand, con la
condición de que puede ser reclamada con un preaviso de 30 segundos a 2 minutos
(&lt;a href="https://aws.amazon.com/ec2/spot/">AWS Spot&lt;/a>, &lt;a href="https://cloud.google.com/compute/docs/instances/spot">GCP Spot VMs&lt;/a>).
El descuento es real y reproducible; el riesgo de interrupción también.&lt;/p>
&lt;p>&lt;strong>Cargas aptas para spot:&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Carga&lt;/th>
&lt;th>Requiere checkpointing&lt;/th>
&lt;th>Apta para spot&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Pre-training de LLM (checkpoint-resume cada 15-30 min)&lt;/td>
&lt;td>sí&lt;/td>
&lt;td>sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Fine-tuning LoRA/QLoRA con checkpoint&lt;/td>
&lt;td>sí&lt;/td>
&lt;td>sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Inferencia batch offline (embeddings, evaluaciones)&lt;/td>
&lt;td>no (idempotente)&lt;/td>
&lt;td>sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Búsqueda de hiperparámetros&lt;/td>
&lt;td>no (repetible)&lt;/td>
&lt;td>sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Serving en producción con SLO de latencia&lt;/td>
&lt;td>no aplica&lt;/td>
&lt;td>&lt;strong>no&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Serving en producción con SLO de disponibilidad&lt;/td>
&lt;td>no aplica&lt;/td>
&lt;td>&lt;strong>no&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Un fine-tune de un modelo de 7B en 4× H100 durante 40 horas en spot alcanzó ahorros reales del
81 % sobre el on-demand equivalente (&lt;a href="https://www.spheron.network/blog/gpu-spot-instance-arbitrage-2026/">Spheron Blog, may. 2026&lt;/a>).
La tasa de interrupción típica en instancias H100 de alta fiabilidad es 2-8 % al día, lo que da
una probabilidad del 92-98 % de completar un turno de 24 horas sin corte
(&lt;a href="https://www.thundercompute.com/blog/cloud-gpu-spot-instance-availability">Thunder Compute, jun. 2026&lt;/a>).&lt;/p>
&lt;hr>
&lt;h2 id="los-neoclouds-gpu-specialised-clouds">Los neoclouds: GPU-specialised clouds&lt;/h2>
&lt;h3 id="definición-y-diferenciadores">Definición y diferenciadores&lt;/h3>
&lt;p>Los &lt;em>neoclouds&lt;/em> (o GPU-specialised clouds) son proveedores de infraestructura centrados
exclusivamente en cómputo GPU para cargas de IA, sin la diversidad de servicios de los
hyperscalers. SemiAnalysis acuñó el término en 2024 e identifica a CoreWeave, Nebius, Lambda y
Crusoe en el nivel superior (&lt;a href="https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity">SemiAnalysis, 2024&lt;/a>).&lt;/p>
&lt;p>Diferencias estructurales respecto a los hyperscalers:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Dimensión&lt;/th>
&lt;th>Neoclouds (CoreWeave, Lambda, Nebius…)&lt;/th>
&lt;th>Hyperscalers (AWS, GCP, Azure)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Precio H100 on-demand&lt;/strong>&lt;/td>
&lt;td>2,49-6,16 USD/GPU-hora&lt;/td>
&lt;td>6,88-12,29 USD/GPU-hora&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Red de interconexión&lt;/strong>&lt;/td>
&lt;td>InfiniBand NDR 400 Gbps (CoreWeave, Voltage Park), Ethernet 200+ Gbps (Lambda, Nebius)&lt;/td>
&lt;td>Ethernet propietaria (EFA, GVNIC) o InfiniBand (solo p5/H100 en AWS)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Acceso a hardware nuevo&lt;/strong>&lt;/td>
&lt;td>Priority access NVIDIA (CoreWeave es accionista NVIDIA); catálogo H200/B200 disponible antes&lt;/td>
&lt;td>Catálogo más lento; B200 en capacidad reservada o limitada en 2026&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Contratos&lt;/strong>&lt;/td>
&lt;td>1-36 meses, negociados directamente&lt;/td>
&lt;td>RI estándar (1-3 años), sin negociación de nodo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Servicios adicionales&lt;/strong>&lt;/td>
&lt;td>Kubernetes gestionado, almacenamiento, bare-metal&lt;/td>
&lt;td>Ecosistema completo (IAM, VPC, bases de datos, ML services…)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Egress&lt;/strong>&lt;/td>
&lt;td>Zero-egress o flat fee (Lambda, Voltage Park, Nebius)&lt;/td>
&lt;td>0,08-0,12 USD/GB (AWS, GCP, Azure)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Soberanía&lt;/strong>&lt;/td>
&lt;td>Varía: Nebius (UE), Crusoe (EE. UU. limpio), CoreWeave (EE. UU./UE)&lt;/td>
&lt;td>US CLOUD Act; no garantizan jurisdicción UE&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El mercado de neoclouds se estima en &lt;strong>20.000 M USD de ingresos en 2026&lt;/strong> y crece hacia
180.000 M USD en 2030 (&lt;a href="https://www.srgresearch.com/articles/neocloud-market-forecast-to-approach-400b-by-2031-driven-by-surging-ai-infrastructure-demand">Synergy Research Group, 2026&lt;/a>).
CoreWeave superó los 5.000 M USD de ARR más rápido que ninguna otra plataforma cloud.
Los neoclouds precio sus H100 un &lt;strong>60-85 % por debajo de AWS y Azure&lt;/strong> para el mismo silicio
(&lt;a href="https://www.signisys.com/blog/the-neocloud-revolution-how-20-billion-in-gpu-focused-providers-are-reshaping-the-cloud-market/">Signisys, 2026&lt;/a>).&lt;/p>
&lt;h3 id="perfiles-de-los-principales-neoclouds">Perfiles de los principales neoclouds&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>Hardware principal&lt;/th>
&lt;th>Red&lt;/th>
&lt;th>Jurisdicción&lt;/th>
&lt;th>Nota relevante&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>CoreWeave&lt;/strong>&lt;/td>
&lt;td>H100, H200, B200, GB200&lt;/td>
&lt;td>InfiniBand NDR (Quantum-2 SHARP)&lt;/td>
&lt;td>EE. UU. / UE&lt;/td>
&lt;td>Accionista NVIDIA; acceso prioritario a hardware; mayor neocloud por flota&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Lambda Labs&lt;/strong>&lt;/td>
&lt;td>H100, A100, B200&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>EE. UU.&lt;/td>
&lt;td>Zero-egress; sin spot; facturación por minuto&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Nebius&lt;/strong>&lt;/td>
&lt;td>H100, H200, B200, B300&lt;/td>
&lt;td>InfiniBand&lt;/td>
&lt;td>UE (Ámsterdam)&lt;/td>
&lt;td>Spin-off de Yandex Cloud; zero-egress; egress de objeto 0,015 USD/GiB; precio on-demand público&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Crusoe&lt;/strong>&lt;/td>
&lt;td>H100, A100, MI300X&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>EE. UU.&lt;/td>
&lt;td>Energía 100 % renovable/flare gas; AMD MI300X a 3,45 USD/hr&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Voltage Park&lt;/strong>&lt;/td>
&lt;td>H100&lt;/td>
&lt;td>Ethernet (1,99 USD) / InfiniBand 3200 Gbps (2,49 USD)&lt;/td>
&lt;td>EE. UU.&lt;/td>
&lt;td>Fusionado con Lightning AI en ene. 2026; sin mínimos; no-profit Navigation Fund&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Together AI&lt;/strong>&lt;/td>
&lt;td>H100, A100&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>EE. UU.&lt;/td>
&lt;td>Plataforma de inferencia + cómputo bruto&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>GMI Cloud&lt;/strong>&lt;/td>
&lt;td>H100, H200&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>Asia/EE. UU.&lt;/td>
&lt;td>H200 on-demand desde 2,60 USD/hr&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RunPod&lt;/strong>&lt;/td>
&lt;td>H100, H200, B200, A100&lt;/td>
&lt;td>Ethernet / Secure Cloud&lt;/td>
&lt;td>Global&lt;/td>
&lt;td>Comunidad + Secure Cloud con SLA; spot disponible&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Nota: claims de &amp;ldquo;zero-egress&amp;rdquo;, &amp;ldquo;renovable&amp;rdquo; y acceso prioritario a hardware son de marketing de
cada proveedor y no han sido verificados por auditorías independientes. Se reproducen con esa
advertencia.&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="tabla-de-precios-2026-h100-sxm-por-proveedor-y-modalidad">Tabla de precios 2026: H100 SXM por proveedor y modalidad&lt;/h2>
&lt;p>&lt;strong>Fuente y fecha de cada dato indicados. Los precios cambian sin previo aviso.&lt;/strong>&lt;/p>
&lt;h3 id="h100-sxm5-80-gb-hbm3--usd-por-gpu-hora">H100 SXM5 (80 GB HBM3) — USD por GPU-hora&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>On-demand&lt;/th>
&lt;th>Reserved 1 año&lt;/th>
&lt;th>Reserved 3 años&lt;/th>
&lt;th>Spot/Preemptible&lt;/th>
&lt;th>Fuente y fecha&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>CoreWeave&lt;/strong>&lt;/td>
&lt;td>~6,16&lt;/td>
&lt;td>~2,10-3,00 (negociado)&lt;/td>
&lt;td>~1,49-2,10 (negociado)&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.thundercompute.com/blog/coreweave-gpu-pricing-review">Thunder Compute, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Lambda Labs&lt;/strong>&lt;/td>
&lt;td>2,49-3,44&lt;/td>
&lt;td>~1,89 (37 % dto.)&lt;/td>
&lt;td>~1,84 (PCIe 3a)&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/lambda-cloud-h100-pricing-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Nebius&lt;/strong>&lt;/td>
&lt;td>&lt;strong>3,85&lt;/strong>&lt;/td>
&lt;td>descuento hasta 35 % (contactar)&lt;/td>
&lt;td>descuento hasta 35 % (contactar)&lt;/td>
&lt;td>&lt;strong>2,15&lt;/strong> (preemptible)&lt;/td>
&lt;td>&lt;a href="https://nebius.com/prices">nebius.com/prices, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Voltage Park&lt;/strong>&lt;/td>
&lt;td>&lt;strong>1,99&lt;/strong> (Ethernet) / &lt;strong>2,49&lt;/strong> (InfiniBand)&lt;/td>
&lt;td>contactar (≥6 meses)&lt;/td>
&lt;td>contactar&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.voltagepark.com/pricing">voltagepark.com/pricing, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RunPod&lt;/strong> (Secure)&lt;/td>
&lt;td>3,29&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>disponible (~59 % dto.)&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spheron&lt;/strong>&lt;/td>
&lt;td>2,50&lt;/td>
&lt;td>descuento volumen (contactar)&lt;/td>
&lt;td>descuento volumen (contactar)&lt;/td>
&lt;td>&lt;strong>1,03&lt;/strong>&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron pricing, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS&lt;/strong> (p5.48xlarge)&lt;/td>
&lt;td>&lt;strong>6,88&lt;/strong>&lt;/td>
&lt;td>~2,97 (3a, ~23,78 USD/h nodo ÷ 8)&lt;/td>
&lt;td>~2,97&lt;/td>
&lt;td>&lt;strong>~1,14&lt;/strong> (spot p5, 9,10 USD/h nodo)&lt;/td>
&lt;td>&lt;a href="https://instances.vantage.sh/aws/ec2/p5.48xlarge">Vantage, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>GCP&lt;/strong> (A3 High)&lt;/td>
&lt;td>&lt;strong>10,98&lt;/strong>&lt;/td>
&lt;td>~8,78 (CUD 1a)&lt;/td>
&lt;td>n.d.&lt;/td>
&lt;td>&lt;strong>~3,69&lt;/strong>&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/google-cloud-a3-h100-pricing/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Azure&lt;/strong> (ND H100 v5)&lt;/td>
&lt;td>&lt;strong>12,29&lt;/strong>&lt;/td>
&lt;td>~6,15-8,60 (reservation 1-3a)&lt;/td>
&lt;td>~6,15-8,60&lt;/td>
&lt;td>~2,27 (spot nodo ÷ 8)&lt;/td>
&lt;td>&lt;a href="https://instances.vantage.sh/azure/vm/nd96isrh100-v5">Vantage Azure, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;em>Todos los importes en USD/GPU-hora, redondeados a 2 decimales. La columna &amp;ldquo;Reserved 3 años&amp;rdquo; es
el número comparable al coste de amortización del hardware propio.&lt;/em>&lt;/p>
&lt;p>&lt;em>AWS p5.48xlarge: nodo de 8× H100; on-demand 55,04 USD/h → 6,88 USD/GPU-h; 3a reserved 23,78 USD/h
→ 2,97 USD/GPU-h; spot 9,10-25,35 USD/h (variable por región y disponibilidad).&lt;/em>
&lt;em>GCP a3-highgpu-8g: 8× H100 SXM5; on-demand 87,84 USD/h → 10,98 USD/GPU-h; spot ~3,69 USD/GPU-h
(us-central1, may. 2026).&lt;/em>
&lt;em>Azure ND96isr H100 v5: 8× H100; on-demand 98,32 USD/h → 12,29 USD/GPU-h; spot 18,17 USD/h nodo
→ ~2,27 USD/GPU-h (fuente: Vantage, jun. 2026, us-east-1).&lt;/em>&lt;/p>
&lt;hr>
&lt;h2 id="tabla-de-precios-2026-h200-y-b200">Tabla de precios 2026: H200 y B200&lt;/h2>
&lt;h3 id="h200-sxm-141-gb-hbm3e--usd-por-gpu-hora">H200 SXM (141 GB HBM3e) — USD por GPU-hora&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>On-demand&lt;/th>
&lt;th>Spot/Preemptible&lt;/th>
&lt;th>Fuente y fecha&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Nebius&lt;/strong>&lt;/td>
&lt;td>&lt;strong>4,50&lt;/strong>&lt;/td>
&lt;td>&lt;strong>2,45&lt;/strong> (preemptible)&lt;/td>
&lt;td>&lt;a href="https://nebius.com/prices">nebius.com/prices, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>GMI Cloud&lt;/strong>&lt;/td>
&lt;td>&lt;strong>2,60&lt;/strong>&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing">GMI Cloud, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RunPod&lt;/strong>&lt;/td>
&lt;td>4,39&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spheron&lt;/strong>&lt;/td>
&lt;td>4,54&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron pricing, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>CoreWeave&lt;/strong>&lt;/td>
&lt;td>&lt;strong>6,31&lt;/strong>&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing">GMI Cloud, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS&lt;/strong> (p5e)&lt;/td>
&lt;td>~4,98&lt;/td>
&lt;td>limitado&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Azure&lt;/strong>&lt;/td>
&lt;td>~13,78&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="b200-sxm6-192-gb-hbm3e--usd-por-gpu-hora">B200 SXM6 (192 GB HBM3e) — USD por GPU-hora&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>On-demand&lt;/th>
&lt;th>Spot&lt;/th>
&lt;th>Fuente y fecha&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Lambda Labs&lt;/strong>&lt;/td>
&lt;td>4,99-5,29&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Nebius&lt;/strong> (HGX B200)&lt;/td>
&lt;td>&lt;strong>7,15&lt;/strong>&lt;/td>
&lt;td>&lt;strong>3,95&lt;/strong> (preemptible)&lt;/td>
&lt;td>&lt;a href="https://nebius.com/prices">nebius.com/prices, jun. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RunPod&lt;/strong>&lt;/td>
&lt;td>5,89&lt;/td>
&lt;td>no disponible&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spheron&lt;/strong>&lt;/td>
&lt;td>6,02&lt;/td>
&lt;td>&lt;strong>2,12&lt;/strong>&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron pricing, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS&lt;/strong> (p6-B200)&lt;/td>
&lt;td>~14,24&lt;/td>
&lt;td>~3,24&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">Spheron Blog, may. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;em>La disponibilidad de B200 sigue siendo limitada en Q2 2026; muchos proveedores ofrecen solo
acceso por reserva anticipada. Los precios son estimaciones de mercado sujetas a cambios rápidos.&lt;/em>&lt;/p>
&lt;hr>
&lt;h2 id="cómo-encaja-en-el-comparativo-on-prem-vs-cloud">Cómo encaja en el comparativo on-prem vs cloud&lt;/h2>
&lt;p>El coste por GPU-hora del cloud es el número que se enfrenta al TCO on-prem calculado en
&lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>.
La relación entre los tres modos de compra y el análisis de coste es la siguiente:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modo cloud&lt;/th>
&lt;th>Qué representa en el comparativo&lt;/th>
&lt;th>Equivalente on-prem&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-demand&lt;/strong>&lt;/td>
&lt;td>coste marginal del pico de capacidad; suelo del build-vs-buy en utilización 100 %&lt;/td>
&lt;td>— (no comparable: on-prem no tiene elasticidad)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Reserved 3 años&lt;/strong>&lt;/td>
&lt;td>el coste comprometido comparable al capex amortizado a 3 años&lt;/td>
&lt;td>amortización del nodo + opex fijo anual&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spot&lt;/strong>&lt;/td>
&lt;td>el suelo de precio cloud, pero con riesgo de interrupción&lt;/td>
&lt;td>— (no comparable: el on-prem no se interrumpe)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La fórmula del &lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">coste por token&lt;/a> aplica igual al
cloud que al on-prem:&lt;/p>
&lt;p>$$\text{coste/1M tokens}_{cloud} = \frac{\text{precio GPU-hora (USD)} \times 10^6}{\text{throughput (tok/s)} \times 3600}$$&lt;/p>
&lt;p>Con un H100 SXM5 a 2.800 tok/s (throughput típico para un modelo de 70B en FP8):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modalidad&lt;/th>
&lt;th>Precio de referencia&lt;/th>
&lt;th>Coste/1M tokens (70B, 2800 tok/s)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Neocloud on-demand (Lambda)&lt;/td>
&lt;td>2,49 USD/GPU-h&lt;/td>
&lt;td>~0,247 USD (~0,23 €)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Neocloud reserved 3a (CoreWeave)&lt;/td>
&lt;td>~1,49 USD/GPU-h&lt;/td>
&lt;td>~0,148 USD (~0,14 €)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Neocloud spot (Spheron/Nebius)&lt;/td>
&lt;td>~1,03-2,15 USD/GPU-h&lt;/td>
&lt;td>~0,102-0,213 USD&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS on-demand (p5)&lt;/td>
&lt;td>6,88 USD/GPU-h&lt;/td>
&lt;td>~0,682 USD (~0,63 €)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS reserved 3a (p5)&lt;/td>
&lt;td>~2,97 USD/GPU-h&lt;/td>
&lt;td>~0,295 USD (~0,27 €)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP spot (A3)&lt;/td>
&lt;td>3,69 USD/GPU-h&lt;/td>
&lt;td>~0,366 USD (~0,34 €)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>On-prem amortizado, alta util. (80 %)&lt;/strong>&lt;/td>
&lt;td>~2,83 USD/GPU-h all-in&lt;/td>
&lt;td>&lt;strong>~0,281 USD (~0,26 €)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;em>Tipo de cambio de referencia: 1 USD = 0,924 €. El tipo fluctúa; los cálculos comparativos deben
hacerse con la misma divisa.&lt;/em>&lt;/p>
&lt;p>La lectura clave: a &lt;strong>alta utilización&lt;/strong>, el TCO on-prem (~2,83 USD/GPU-hora all-in según
&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron, 2026&lt;/a>) compite con
el &lt;strong>reserved de 3 años del neocloud (~1,49-2,97 USD/GPU-hora)&lt;/strong>. El on-prem gana a alta
utilización cuando el coste all-in baja de 2,5 USD; el neocloud reserved gana cuando la
utilización es media o baja, porque no paga el capex parado. El &lt;strong>spot baja el suelo del cloud
pero no es comparable&lt;/strong>: la interrupción lo hace incompatible con el serving continuo, que es el
caso donde el on-prem compite.&lt;/p>
&lt;div class="diagram" style="max-width:720px;margin:1rem auto;">
&lt;svg viewBox="0 0 720 230" role="img" aria-label="Comparacion de coste por GPU-hora segun modalidad: el spot del neocloud es el mas barato pero con riesgo de interrupcion; el reserved 3 anos del neocloud compite con el on-prem a alta utilizacion; los hyperscalers on-demand son los mas caros" xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.br{fill:none;stroke:currentColor;stroke-width:1.2}.lb{font:11px sans-serif;fill:currentColor}.tl{font:600 11px sans-serif;fill:currentColor}.sm{font:10px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="180" y1="20" x2="180" y2="195"/>
&lt;line class="ax" x1="180" y1="195" x2="710" y2="195"/>
&lt;text x="185" y="210" class="sm">0&lt;/text>
&lt;text x="283" y="210" class="sm">2&lt;/text>
&lt;text x="381" y="210" class="sm">4&lt;/text>
&lt;text x="479" y="210" class="sm">6&lt;/text>
&lt;text x="577" y="210" class="sm">8&lt;/text>
&lt;text x="675" y="210" class="sm">10&lt;/text>
&lt;text x="380" y="222" class="sm">USD/GPU-hora →&lt;/text>
&lt;line class="ax" x1="283" y1="192" x2="283" y2="197"/>
&lt;line class="ax" x1="381" y1="192" x2="381" y2="197"/>
&lt;line class="ax" x1="479" y1="192" x2="479" y2="197"/>
&lt;line class="ax" x1="577" y1="192" x2="577" y2="197"/>
&lt;line class="ax" x1="675" y1="192" x2="675" y2="197"/>
&lt;text x="5" y="35" class="tl">Spot Spheron H100&lt;/text>
&lt;rect class="br" x="180" y="22" width="52" height="14" fill="currentColor" opacity="0.18"/>
&lt;text x="237" y="33" class="sm">1,03&lt;/text>
&lt;text x="5" y="55" class="tl">Spot Nebius H100&lt;/text>
&lt;rect class="br" x="180" y="42" width="106" height="14" fill="currentColor" opacity="0.18"/>
&lt;text x="291" y="53" class="sm">2,15&lt;/text>
&lt;text x="5" y="75" class="tl">Neo reserved 3a&lt;/text>
&lt;text x="5" y="86" class="sm">(CoreWeave)&lt;/text>
&lt;rect class="br" x="180" y="60" width="75" height="14" fill="currentColor" opacity="0.28"/>
&lt;text x="260" y="72" class="sm">1,49&lt;/text>
&lt;text x="5" y="105" class="tl">Lambda on-demand&lt;/text>
&lt;rect class="br" x="180" y="92" width="123" height="14" fill="currentColor" opacity="0.28"/>
&lt;text x="308" y="103" class="sm">2,49&lt;/text>
&lt;text x="5" y="125" class="tl">Voltage Park OD&lt;/text>
&lt;rect class="br" x="180" y="112" width="99" height="14" fill="currentColor" opacity="0.28"/>
&lt;text x="284" y="123" class="sm">1,99&lt;/text>
&lt;text x="5" y="145" class="tl">On-prem TCO (80 %)&lt;/text>
&lt;rect class="br" x="180" y="132" width="140" height="14" fill="currentColor" opacity="0.35"/>
&lt;text x="325" y="143" class="sm">~2,83&lt;/text>
&lt;text x="5" y="165" class="tl">AWS p5 on-demand&lt;/text>
&lt;rect class="br" x="180" y="152" width="341" height="14" fill="currentColor" opacity="0.45"/>
&lt;text x="526" y="163" class="sm">6,88&lt;/text>
&lt;text x="5" y="185" class="tl">Azure ND H100 v5&lt;/text>
&lt;rect class="br" x="180" y="172" width="610" height="14" fill="currentColor" opacity="0.55"/>
&lt;text x="795" y="183" class="sm">12,29&lt;/text>
&lt;text x="185" y="183" class="lb">12,29 USD/GPU-h&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="factores-de-red-infiniband-vs-ethernet">Factores de red: InfiniBand vs Ethernet&lt;/h2>
&lt;p>Para training distribuido y large-scale inference (tensor parallelism entre nodos), el ancho de
banda de la red de interconexión entre GPUs es crítico. Los neoclouds difieren en lo que ofrecen:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>Red GPU-GPU&lt;/th>
&lt;th>Ancho de banda&lt;/th>
&lt;th>Aplica a&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>CoreWeave&lt;/td>
&lt;td>InfiniBand NDR (Quantum-2, SHARP)&lt;/td>
&lt;td>400 Gbps/GPU&lt;/td>
&lt;td>clústeres HGX multi-nodo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Voltage Park&lt;/td>
&lt;td>InfiniBand Quantum-2&lt;/td>
&lt;td>3200 Gbps (nodo 8-GPU)&lt;/td>
&lt;td>tier a 2,49 USD/hr&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Voltage Park&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>200 Gbps&lt;/td>
&lt;td>tier a 1,99 USD/hr&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Lambda Labs&lt;/td>
&lt;td>Ethernet&lt;/td>
&lt;td>200 Gbps&lt;/td>
&lt;td>todos los nodos&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Nebius&lt;/td>
&lt;td>InfiniBand&lt;/td>
&lt;td>400 Gbps/GPU&lt;/td>
&lt;td>HGX H100/H200/B200&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS p5&lt;/td>
&lt;td>EFA (Elastic Fabric Adapter)&lt;/td>
&lt;td>3200 Gbps (nodo)&lt;/td>
&lt;td>clusters EC2&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP A3&lt;/td>
&lt;td>GVNIC + RoCE&lt;/td>
&lt;td>200 Gbps/GPU&lt;/td>
&lt;td>A3 High&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Azure ND H100 v5&lt;/td>
&lt;td>InfiniBand NDR&lt;/td>
&lt;td>400 Gbps/GPU&lt;/td>
&lt;td>ND96isr H100 v5&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>InfiniBand NDR con SHARP (in-network collective reduction) reduce la latencia de las operaciones
allreduce en training distribuido. Para inference serving con tensor parallelism dentro de un nodo
(NVLink), la red inter-nodo es menos crítica; para training multi-nodo o prefill-decode
disaggregated (&lt;a href="https://blog.lo0.es/posts/tres-ejes-coste-rendimiento-energia-inferencia-llm/">tres ejes de la serie&lt;/a>),
la red entre nodos importa.&lt;/p>
&lt;hr>
&lt;h2 id="neoclouds-y-soberanía-qué-cambia">Neoclouds y soberanía: qué cambia&lt;/h2>
&lt;p>A diferencia de los hyperscalers estadounidenses sujetos a la US CLOUD Act, algunos neoclouds
ofrecen opciones con jurisdicción fuera de EE. UU.:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor&lt;/th>
&lt;th>Región UE&lt;/th>
&lt;th>Aplicación US CLOUD Act&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Nebius&lt;/td>
&lt;td>Ámsterdam (NL), Frankfurt (DE)&lt;/td>
&lt;td>No (entidad legal neerlandesa)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CoreWeave&lt;/td>
&lt;td>Frankfurt (DE), Londres (GB)&lt;/td>
&lt;td>Sí (empresa estadounidense)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Lambda Labs&lt;/td>
&lt;td>Solo EE. UU.&lt;/td>
&lt;td>Sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Voltage Park&lt;/td>
&lt;td>Solo EE. UU.&lt;/td>
&lt;td>Sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Scaleway&lt;/td>
&lt;td>París (FR), Ámsterdam (NL)&lt;/td>
&lt;td>No (empresa francesa)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Hyperscalers US&lt;/td>
&lt;td>Regiones UE disponibles&lt;/td>
&lt;td>&lt;strong>Sí&lt;/strong> (CLOUD Act aplica)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para datos sujetos a RGPD, solo los proveedores con entidad legal UE/EFTA garantizan la
ausencia de la CLOUD Act. La discusión completa del eje de soberanía está en
&lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>.
Para planning de capacidad con estos datos, ver &lt;a href="https://blog.lo0.es/posts/capacity-planning-inferencia-llm-on-premise/">capacity planning de inferencia on-premise&lt;/a>.&lt;/p>
&lt;hr>
&lt;h2 id="tabla-de-decisión-modalidad-de-compra-según-eje-costeriesgosoberanía">Tabla de decisión: modalidad de compra según eje coste/riesgo/soberanía&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modalidad&lt;/th>
&lt;th>Coste&lt;/th>
&lt;th>Riesgo operativo&lt;/th>
&lt;th>Soberanía (UE)&lt;/th>
&lt;th>Cuándo usar&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-demand neocloud&lt;/strong>&lt;/td>
&lt;td>medio (2-4 USD/GPU-h)&lt;/td>
&lt;td>bajo (sin interrupción)&lt;/td>
&lt;td>depende del proveedor&lt;/td>
&lt;td>desarrollo, picos impredecibles, serving con SLO&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Reserved 1a neocloud&lt;/strong>&lt;/td>
&lt;td>bajo-medio (1,5-3 USD/GPU-h)&lt;/td>
&lt;td>bajo (sin interrupción, capacidad garantizada)&lt;/td>
&lt;td>depende del proveedor&lt;/td>
&lt;td>serving estable, training programado; workload validado&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Reserved 3a neocloud&lt;/strong>&lt;/td>
&lt;td>bajo (1,5-2,1 USD/GPU-h)&lt;/td>
&lt;td>bajo, compromiso financiero&lt;/td>
&lt;td>depende del proveedor&lt;/td>
&lt;td>comparable al on-prem amortizado; carga base muy estable&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spot neocloud&lt;/strong>&lt;/td>
&lt;td>mínimo (1-2,5 USD/GPU-h)&lt;/td>
&lt;td>alto (interrupción &amp;lt;2 min)&lt;/td>
&lt;td>depende del proveedor&lt;/td>
&lt;td>batch, fine-tuning con checkpoint, hyperparameter search&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>On-demand hyperscaler&lt;/strong>&lt;/td>
&lt;td>alto (6,9-12,3 USD/GPU-h)&lt;/td>
&lt;td>bajo&lt;/td>
&lt;td>NO (CLOUD Act)&lt;/td>
&lt;td>integración con servicios AWS/GCP/Azure; sin alternativa&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Reserved hyperscaler&lt;/strong>&lt;/td>
&lt;td>medio-alto (3-9 USD/GPU-h)&lt;/td>
&lt;td>bajo&lt;/td>
&lt;td>NO (CLOUD Act)&lt;/td>
&lt;td>lock-in en ecosistema hyperscaler justificado&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Spot hyperscaler&lt;/strong>&lt;/td>
&lt;td>medio (1,1-3,7 USD/GPU-h)&lt;/td>
&lt;td>alto (interrupción)&lt;/td>
&lt;td>NO (CLOUD Act)&lt;/td>
&lt;td>batch sin requisito de soberanía; mayor disponibilidad que neocloud spot&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>On-prem amortizado (&amp;gt;70 % util.)&lt;/strong>&lt;/td>
&lt;td>bajo (~2,3-2,8 USD/GPU-h all-in)&lt;/td>
&lt;td>bajo (sin interrupción)&lt;/td>
&lt;td>&lt;strong>total (hardware propio)&lt;/strong>&lt;/td>
&lt;td>carga base estable y alta; soberanía máxima&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;em>El on-prem compite con el neocloud reserved 3a cuando la utilización supera el 65-70 % (ver
&lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como FinOps&lt;/a>).&lt;/em>&lt;/p>
&lt;hr>
&lt;h2 id="cálculo-de-ahorro-spot-ejemplo-con-checkpointing">Cálculo de ahorro spot: ejemplo con checkpointing&lt;/h2>
&lt;p>Parámetros de referencia para validar si el spot vale la pena:&lt;/p>
&lt;p>$$\text{ahorro spot} = (\text{precio OD} - \text{precio spot}) \times \text{GPU-horas totales} - \text{coste de reintento}$$&lt;/p>
&lt;p>$$\text{coste de reintento} = \text{tasa de interrupción} \times \text{trabajo perdido (GPU-horas)} \times \text{precio spot}$$&lt;/p>
&lt;p>Con checkpointing cada 30 minutos, trabajo perdido por interrupción ≤ 0,5 GPU-horas por evento.
A una tasa de interrupción del 4 % diario sobre una GPU H100:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Concepto&lt;/th>
&lt;th>Valor de referencia&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Precio on-demand (neocloud)&lt;/td>
&lt;td>2,50 USD/GPU-h&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Precio spot&lt;/td>
&lt;td>1,03 USD/GPU-h&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ahorro bruto por GPU-hora&lt;/td>
&lt;td>1,47 USD&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Interrupciones esperadas en 40 h (4 %/día)&lt;/td>
&lt;td>~0,67 eventos&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Trabajo re-ejecutado por evento (0,5 h × 1,03 USD)&lt;/td>
&lt;td>~0,34 USD&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Ahorro neto en un job de 40 h × 4 GPU&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~234 USD&lt;/strong> (frente a 400 USD en on-demand)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El ahorro del 58 % se materializa solo si el job implementa checkpoint-resume correctamente.
Sin checkpoint, una sola interrupción obliga a reiniciar desde cero: el ahorro se convierte en
sobrecoste por trabajo duplicado.&lt;/p>
&lt;hr>
&lt;h2 id="integración-en-el-modelo-tco-de-la-serie">Integración en el modelo TCO de la serie&lt;/h2>
&lt;p>El €/GPU-hora cloud es el número que alimenta el análisis de la serie FinOps. La cadena:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Coste del hierro cloud&lt;/strong> (esta tabla de precios) → equivalente al capex amortizado + opex del on-prem.&lt;/li>
&lt;li>&lt;strong>Throughput&lt;/strong> (medido con genai-perf, track B de la serie) → el denominador.&lt;/li>
&lt;li>&lt;strong>Coste por token&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">coste por token y por request&lt;/a>) → la métrica comparativa final.&lt;/li>
&lt;li>&lt;strong>Utilización&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como FinOps&lt;/a>) → en cloud on-demand, la utilización no penaliza el coste (pagas lo que usas); en reserved y en on-prem, sí penaliza porque el coste es fijo.&lt;/li>
&lt;/ol>
&lt;p>La comparación correcta es &lt;strong>neocloud reserved 3a vs on-prem amortizado a 3a&lt;/strong>, con los mismos
supuestos de throughput, egress y utilización. El spot es el suelo de precio cloud pero no el
suelo comparable: su naturaleza interrumpible lo excluye de la comparación con un cluster on-prem
que sirve tráfico continuo.&lt;/p>
&lt;hr>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Spheron Blog · GPU Cloud Pricing 2026: H100 from 1,03 USD/hr, B200 from 2,12 USD/hr (15+ providers), may. 2026 — &lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/&lt;/a>&lt;/li>
&lt;li>Vantage · p5.48xlarge pricing and specs (AWS), actualizado jun. 2026 — &lt;a href="https://instances.vantage.sh/aws/ec2/p5.48xlarge">https://instances.vantage.sh/aws/ec2/p5.48xlarge&lt;/a>&lt;/li>
&lt;li>Nebius · NVIDIA GPU Pricing (página oficial, jun. 2026) — &lt;a href="https://nebius.com/prices">https://nebius.com/prices&lt;/a>&lt;/li>
&lt;li>Voltage Park · H100 GPU Pricing (página oficial, jun. 2026) — &lt;a href="https://www.voltagepark.com/pricing">https://www.voltagepark.com/pricing&lt;/a>&lt;/li>
&lt;li>Thunder Compute · CoreWeave GPU Pricing Review (jun. 2026) — &lt;a href="https://www.thundercompute.com/blog/coreweave-gpu-pricing-review">https://www.thundercompute.com/blog/coreweave-gpu-pricing-review&lt;/a>&lt;/li>
&lt;li>Thunder Compute · NVIDIA H100 Pricing (Jun 2026) — &lt;a href="https://www.thundercompute.com/blog/nvidia-h100-pricing">https://www.thundercompute.com/blog/nvidia-h100-pricing&lt;/a>&lt;/li>
&lt;li>Spheron Blog · Lambda Cloud H100 Pricing 2026 — &lt;a href="https://www.spheron.network/blog/lambda-cloud-h100-pricing-2026/">https://www.spheron.network/blog/lambda-cloud-h100-pricing-2026/&lt;/a>&lt;/li>
&lt;li>Spheron Blog · AWS H100 Pricing 2026: P5 Instance Cost — &lt;a href="https://www.spheron.network/blog/aws-h100-pricing-2026/">https://www.spheron.network/blog/aws-h100-pricing-2026/&lt;/a>&lt;/li>
&lt;li>Spheron Blog · Google Cloud A3 H100 Pricing 2026 — &lt;a href="https://www.spheron.network/blog/google-cloud-a3-h100-pricing/">https://www.spheron.network/blog/google-cloud-a3-h100-pricing/&lt;/a>&lt;/li>
&lt;li>Spheron Blog · Azure H100 Pricing 2026: ND H100 v5 — &lt;a href="https://www.spheron.network/blog/azure-h100-pricing/">https://www.spheron.network/blog/azure-h100-pricing/&lt;/a>&lt;/li>
&lt;li>GMI Cloud · H200 GPU Provider Pricing 2026 (CoreWeave, Lambda, Nebius, GMI) — &lt;a href="https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing">https://www.gmicloud.ai/en/blog/h200-gpu-provider-pricing&lt;/a>&lt;/li>
&lt;li>Spheron Blog · GPU Spot Instance Arbitrage 2026 — &lt;a href="https://www.spheron.network/blog/gpu-spot-instance-arbitrage-2026/">https://www.spheron.network/blog/gpu-spot-instance-arbitrage-2026/&lt;/a>&lt;/li>
&lt;li>Thunder Compute · Cloud GPU Spot Instance Availability and Interruption Rates — &lt;a href="https://www.thundercompute.com/blog/cloud-gpu-spot-instance-availability">https://www.thundercompute.com/blog/cloud-gpu-spot-instance-availability&lt;/a>&lt;/li>
&lt;li>Synergy Research Group · Neocloud Market Forecast to Approach 400B USD by 2031 — &lt;a href="https://www.srgresearch.com/articles/neocloud-market-forecast-to-approach-400b-by-2031-driven-by-surging-ai-infrastructure-demand">https://www.srgresearch.com/articles/neocloud-market-forecast-to-approach-400b-by-2031-driven-by-surging-ai-infrastructure-demand&lt;/a>&lt;/li>
&lt;li>Signisys · The Neocloud Revolution: How 20 Billion USD in GPU Providers Reshapes Cloud Market — &lt;a href="https://www.signisys.com/blog/the-neocloud-revolution-how-20-billion-in-gpu-focused-providers-are-reshaping-the-cloud-market/">https://www.signisys.com/blog/the-neocloud-revolution-how-20-billion-in-gpu-focused-providers-are-reshaping-the-cloud-market/&lt;/a>&lt;/li>
&lt;li>SemiAnalysis · The Great GPU Shortage: Rental Capacity (neocloud taxonomy original) — &lt;a href="https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity">https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity&lt;/a>&lt;/li>
&lt;li>Spheron Blog · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even — &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/&lt;/a>&lt;/li>
&lt;li>IntuitionLabs · H100 Rental Prices Compared 1,49-6,98 USD/hr Across 15+ Cloud Providers (2026) — &lt;a href="https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison">https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison&lt;/a>&lt;/li>
&lt;/ul></description></item></channel></rss>