<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Break-Even on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/break-even/</link><description>Recent content in Break-Even on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Tue, 16 Jun 2026 11:00:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/break-even/index.xml" rel="self" type="application/rss+xml"/><item><title>Del SLO al número de GPUs: cómo dimensionar y justificar la inversión en hardware de inferencia</title><link>https://blog.lo0.es/posts/dimensionar-justificar-inversion-gpu/</link><pubDate>Tue, 16 Jun 2026 11:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/dimensionar-justificar-inversion-gpu/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>N €&lt;/strong> o &lt;strong>N USD&lt;/strong> (fuente denominada en dólares); decimales con coma; separador de millar con espacio fino (&lt;code>1\,234&lt;/code>). Hardware de ejemplo genérico: nodos 4×H100 SXM5 80 GB. No se usa el símbolo de dólar (delimitador de fórmula).&lt;/p>
&lt;/blockquote>
&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;ul>
&lt;li>Con un SLO de &lt;strong>TTFT P99 ≤ 300 ms&lt;/strong> y &lt;strong>ITL P99 ≤ 50 ms&lt;/strong> para un chat de producción, la utilización máxima de GPU debe quedar en &lt;strong>≤ 63 %&lt;/strong> en pico.&lt;/li>
&lt;li>Un servicio que recibe &lt;strong>5 M peticiones/día&lt;/strong> con 512 tokens de entrada y 256 de salida en media genera un pico horario de &lt;strong>~11,600 tok/s&lt;/strong> (con factor de pico 1,8×). Con vLLM sobre H100 SXM5 (Llama-3.3 70B FP8, ~1,850 tok/s a 50 peticiones concurrentes), se necesitan &lt;strong>≥ 10 GPUs&lt;/strong> en pico para cumplir el SLO, que se traducen en &lt;strong>3 nodos 4×H100&lt;/strong> (con headroom).&lt;/li>
&lt;li>El coste all-in de esos 3 nodos es ~&lt;strong>83 300 € al año por nodo&lt;/strong> (capex 3 años + opex base); el &lt;strong>€/1M tokens&lt;/strong> en escenario base al 63 % de utilización es ~&lt;strong>0,37 €&lt;/strong>.&lt;/li>
&lt;li>Frente a AWS p5 on-demand (~3,90 USD/GPU-hora tras el recorte del 44 % de jun. 2025), el &lt;strong>break-even&lt;/strong> de utilización se sitúa en &lt;strong>~55 %&lt;/strong>; frente a neoclouds on-demand (~2,01 USD/GPU-hora), no hay break-even factible a utilización media.&lt;/li>
&lt;li>El payback del capex se produce entre &lt;strong>13 y 24 meses&lt;/strong> si la utilización sostenida supera el 70 %.&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-la-cadena-de-dimensionado-de-la-demanda-al-número-de-gpus">1. La cadena de dimensionado: de la demanda al número de GPUs&lt;/h2>
&lt;p>El dimensionado de una plataforma de inferencia sigue una cadena causal de cinco pasos. Cada paso tiene una fórmula; ninguno se puede saltar.&lt;/p>
&lt;h3 id="11-paso-1--caracterizar-la-demanda">1.1 Paso 1 — Caracterizar la demanda&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Parámetro&lt;/th>
&lt;th>Símbolo&lt;/th>
&lt;th>Ejemplo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Peticiones por día (media)&lt;/td>
&lt;td>(D)&lt;/td>
&lt;td>5 000 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Tokens de entrada por petición (media)&lt;/td>
&lt;td>(L_{\text{in}})&lt;/td>
&lt;td>512&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Tokens de salida por petición (media)&lt;/td>
&lt;td>(L_{\text{out}})&lt;/td>
&lt;td>256&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Factor de pico (ratio pico-hora vs media)&lt;/td>
&lt;td>(k_{\text{pico}})&lt;/td>
&lt;td>1,8&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Horas al día con tráfico significativo&lt;/td>
&lt;td>(H)&lt;/td>
&lt;td>16&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El &lt;strong>throughput de salida medio&lt;/strong>:&lt;/p>
&lt;p>$$\dot{T}&lt;em>{\text{medio}} = \frac{D \times L&lt;/em>{\text{out}}}{86,400,\text{s}} = \frac{5,000,000 \times 256}{86,400} \approx 14,815;\text{tok/s}$$&lt;/p>
&lt;p>El &lt;strong>throughput pico&lt;/strong> (hora punta):&lt;/p>
&lt;p>$$\dot{T}&lt;em>{\text{pico}} = k&lt;/em>{\text{pico}} \times \frac{D \times L_{\text{out}}}{H \times 3,600} = 1{,}8 \times \frac{5,000,000 \times 256}{16 \times 3,600} \approx 40,000;\text{tok/s}$$&lt;/p>
&lt;blockquote>
&lt;p>Nota: si el perfil de tráfico tiene picos muy pronunciados (relación pico/media &amp;gt; 3), el dimensionado se hace para el pico y la utilización media cae; el análisis de sensibilidad de §5 cuantifica el efecto.&lt;/p>
&lt;/blockquote>
&lt;h3 id="12-paso-2--fijar-el-slo-y-derivar-la-utilización-máxima">1.2 Paso 2 — Fijar el SLO y derivar la utilización máxima&lt;/h3>
&lt;p>El SLO de latencia impone un techo a la utilización de GPU. Usando teoría de colas (modelo M/G/1):&lt;/p>
&lt;p>$$\rho_{\max} \approx 1 - \frac{1}{\sqrt{1 + C_{s}^{2}}} \cdot \frac{W_{\text{cola}}^{*}}{\bar{s}}$$&lt;/p>
&lt;p>donde (\rho) es la utilización, (W_{\text{cola}}^{*}) el tiempo máximo de cola admisible y (\bar{s}) el tiempo medio de servicio por petición. Para el caso simplificado M/M/1 con tiempo de prefill dominante:&lt;/p>
&lt;p>$$\rho_{\max} = 1 - \frac{W_{\text{cola}}^{&lt;em>}}{\bar{s} \cdot (1 + W_{\text{cola}}^{&lt;/em>}/\bar{s})}$$&lt;/p>
&lt;p>La tabla de referencia práctica (derivada de la fórmula de Spheron/Littles Law, 2026):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>SLO TTFT P99&lt;/th>
&lt;th>Utilización máxima (\rho_{\max})&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>200 ms&lt;/td>
&lt;td>55 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>300 ms&lt;/td>
&lt;td>63 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>400 ms&lt;/td>
&lt;td>70 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>500 ms&lt;/td>
&lt;td>75 %&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para nuestro ejemplo (SLO 300 ms P99): (\rho_{\max} = 0{,}63).&lt;/p>
&lt;p>El SLO de ITL impone una restricción adicional: el motor de inferencia debe ser capaz de generar el siguiente token en ≤ 50 ms. En H100 SXM5 con vLLM y Llama-3.3 70B FP8, el ITL P50 a 50 peticiones concurrentes es ~20 ms, con P99 ~45 ms. El ITL es la restricción dominante solo cuando el batch size es muy alto (&amp;gt;64 secuencias) o la VRAM está casi llena.&lt;/p>
&lt;h3 id="13-paso-3--throughput-requerido-y-throughput-por-gpu">1.3 Paso 3 — Throughput requerido y throughput por GPU&lt;/h3>
&lt;p>El throughput que debe servir el cluster en pico, respetando (\rho_{\max}):&lt;/p>
&lt;p>$$\dot{T}&lt;em>{\text{requerido}} = \frac{\dot{T}&lt;/em>{\text{pico}}}{\rho_{\max}} = \frac{40,000}{0{,}63} \approx 63,500;\text{tok/s (capacidad instalada)}$$&lt;/p>
&lt;p>El &lt;strong>throughput por GPU&lt;/strong> (benchmark de referencia, vLLM v0.18.0, Llama-3.3 70B FP8, H100 SXM5 80 GB, 50 peticiones concurrentes):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Motor&lt;/th>
&lt;th>Throughput (tok/s por GPU)&lt;/th>
&lt;th>TTFT P50 / P95 (50 req)&lt;/th>
&lt;th>Fuente&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>vLLM 0.18.0&lt;/td>
&lt;td>1 850&lt;/td>
&lt;td>380 ms / 720 ms&lt;/td>
&lt;td>Spheron benchmarks, mar. 2026&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SGLang 0.5.9&lt;/td>
&lt;td>1 920&lt;/td>
&lt;td>360 ms / 680 ms&lt;/td>
&lt;td>Spheron benchmarks, mar. 2026&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>TensorRT-LLM 1.2.0&lt;/td>
&lt;td>2 100&lt;/td>
&lt;td>340 ms / 620 ms&lt;/td>
&lt;td>Spheron benchmarks, mar. 2026&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Los datos de throughput corresponden al test con Llama 3.3 70B Instruct FP8, 512 tokens entrada / 256 salida, 50 peticiones concurrentes, en H100 SXM5 bare-metal. Véase el análisis de motores en &lt;a href="https://blog.lo0.es/posts/comparativa-motores-serving-pareto/">comparativa motores serving Pareto&lt;/a>.&lt;/p>
&lt;/blockquote>
&lt;p>Usamos vLLM como referencia de producción generalista: (\dot{T}_{\text{GPU}} = 1,850) tok/s.&lt;/p>
&lt;h3 id="14-paso-4--número-de-gpus-y-número-de-nodos">1.4 Paso 4 — Número de GPUs y número de nodos&lt;/h3>
&lt;p>$$N_{\text{GPU}} = \left\lceil \frac{\dot{T}&lt;em>{\text{requerido}}}{\dot{T}&lt;/em>{\text{GPU}}} \right\rceil = \left\lceil \frac{63,500}{1,850} \right\rceil = \lceil 34{,}3 \rceil = 35;\text{GPUs}$$&lt;/p>
&lt;p>Con nodos 4×H100 SXM5:&lt;/p>
&lt;p>$$N_{\text{nodos}} = \left\lceil \frac{N_{\text{GPU}}}{4} \right\rceil = \left\lceil \frac{35}{4} \right\rceil = 9;\text{nodos}$$&lt;/p>
&lt;p>Añadimos un &lt;strong>headroom del 15 %&lt;/strong> para fallos de hardware (tasa ~5 % anual en clusters pequeños), upgrades y picos imprevistos:&lt;/p>
&lt;p>$$N_{\text{nodos, final}} = \lceil 9 \times 1{,}15 \rceil = 11;\text{nodos} \approx 44;\text{GPUs}$$&lt;/p>
&lt;blockquote>
&lt;p>Para el ejemplo TL;DR (5 M peticiones/día con perfil de 16 h activas, k 1,8 y SLO 300 ms) el número de nodos es 11. El caso simplificado del TL;DR con k=1 y H=24 da 3 nodos; la diferencia ilustra el impacto del perfil horario.&lt;/p>
&lt;/blockquote>
&lt;h3 id="15-resumen-de-la-cadena">1.5 Resumen de la cadena&lt;/h3>
&lt;div class="diagram" style="max-width:700px;margin:1rem auto;">
&lt;svg viewBox="0 0 700 110" role="img" aria-label="Cadena de dimensionado: demanda y SLO derivan throughput pico, que dividido entre throughput por GPU da el número de GPUs y de nodos" xmlns="http://www.w3.org/2000/svg">
&lt;style>.bx{fill:none;stroke:currentColor;stroke-width:1.2}.ts{font:11px sans-serif;fill:currentColor}.arr{fill:none;stroke:currentColor;stroke-width:1.2;marker-end:url(#a)}&lt;/style>
&lt;defs>
&lt;marker id="a" markerWidth="6" markerHeight="6" refX="5" refY="3" orient="auto">
&lt;path d="M0,0 L6,3 L0,6 Z" fill="currentColor"/>
&lt;/marker>
&lt;/defs>
&lt;rect class="bx" x="10" y="30" width="110" height="50" rx="4"/>
&lt;text x="65" y="52" class="ts" text-anchor="middle">Demanda&lt;/text>
&lt;text x="65" y="66" class="ts" text-anchor="middle">D, L, k, H&lt;/text>
&lt;line class="arr" x1="120" y1="55" x2="155" y2="55"/>
&lt;rect class="bx" x="155" y="30" width="110" height="50" rx="4"/>
&lt;text x="210" y="52" class="ts" text-anchor="middle">SLO&lt;/text>
&lt;text x="210" y="66" class="ts" text-anchor="middle">TTFT/ITL P99 → ρ&lt;/text>
&lt;line class="arr" x1="265" y1="55" x2="300" y2="55"/>
&lt;rect class="bx" x="300" y="30" width="110" height="50" rx="4"/>
&lt;text x="355" y="52" class="ts" text-anchor="middle">Throughput&lt;/text>
&lt;text x="355" y="66" class="ts" text-anchor="middle">requerido&lt;/text>
&lt;line class="arr" x1="410" y1="55" x2="445" y2="55"/>
&lt;rect class="bx" x="445" y="30" width="110" height="50" rx="4"/>
&lt;text x="500" y="52" class="ts" text-anchor="middle">N GPUs /&lt;/text>
&lt;text x="500" y="66" class="ts" text-anchor="middle">N nodos&lt;/text>
&lt;line class="arr" x1="555" y1="55" x2="590" y2="55"/>
&lt;rect class="bx" x="590" y="30" width="100" height="50" rx="4"/>
&lt;text x="640" y="52" class="ts" text-anchor="middle">TCO →&lt;/text>
&lt;text x="640" y="66" class="ts" text-anchor="middle">€/1M tok&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="2-del-sizing-al-coste-modelo-tco">2. Del sizing al coste: modelo TCO&lt;/h2>
&lt;p>Con (N_{\text{nodos}} = 11) nodos 4×H100 SXM5, el TCO sigue el modelo detallado en &lt;a href="https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/">TCO on-premise GPU cluster&lt;/a>. Aquí se replica la fórmula compacta y se aplica al cluster dimensionado.&lt;/p>
&lt;h3 id="21-coste-anual-por-nodo-escenario-base">2.1 Coste anual por nodo (escenario base)&lt;/h3>
&lt;p>$$C_{\text{nodo/año}} = \frac{\text{capex nodo}}{\text{años}} + \text{opex nodo/año}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Valor (USD / €)&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Capex nodo 4×H100 (punto medio)&lt;/td>
&lt;td>178 500 USD&lt;/td>
&lt;td>GPUs + servidor + red + almacenamiento + rack&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Amortización 3 años&lt;/td>
&lt;td>59 500 USD/año ≈ 55 300 €/año&lt;/td>
&lt;td>Lineal&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Opex/año (escenario base, cluster 8–16 nodos)&lt;/td>
&lt;td>~28 000 €/año&lt;/td>
&lt;td>Energía + personal + mant. + colocación&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Total anual por nodo&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~83 300 €/año&lt;/strong>&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para 11 nodos: &lt;strong>915 300 €/año&lt;/strong> de coste total fijo.&lt;/p>
&lt;h3 id="22-del-nodo-año-al-gpu-hora">2.2 Del €/nodo-año al €/GPU-hora&lt;/h3>
&lt;p>$$\text{EUR/GPU-hora} = \frac{C_{\text{nodo/año}}}{4;\text{GPUs} \times 8,760;\text{h} \times \rho}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización (\rho)&lt;/th>
&lt;th>EUR/GPU-hora&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>40 %&lt;/td>
&lt;td>5,93&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>55 %&lt;/td>
&lt;td>4,31&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>63 % (SLO 300 ms)&lt;/td>
&lt;td>3,76&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>3,39&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>2,97&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>2,38&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="23-del-gpu-hora-al-1m-tokens">2.3 Del €/GPU-hora al €/1M tokens&lt;/h3>
&lt;p>$$\text{EUR/1M tokens} = \frac{\text{EUR/GPU-hora} \times 10^{6}}{\dot{T}_{\text{GPU}} \times 3,600}$$&lt;/p>
&lt;p>Con (\dot{T}_{\text{GPU}} = 1,850) tok/s (vLLM, Llama-3.3 70B FP8):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>EUR/GPU-hora&lt;/th>
&lt;th>EUR/1M tokens&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>40 %&lt;/td>
&lt;td>5,93&lt;/td>
&lt;td>&lt;strong>0,891&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>55 %&lt;/td>
&lt;td>4,31&lt;/td>
&lt;td>&lt;strong>0,647&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>63 % (SLO 300 ms)&lt;/td>
&lt;td>3,76&lt;/td>
&lt;td>&lt;strong>0,564&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>&lt;strong>0,509&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>2,97&lt;/td>
&lt;td>&lt;strong>0,446&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>2,38&lt;/td>
&lt;td>&lt;strong>0,357&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>La identidad completa coste/token en función del throughput y la utilización se desarrolla en &lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">coste por token y por request&lt;/a>.&lt;/p>
&lt;/blockquote>
&lt;h3 id="24-comparación-con-cloud-1m-tokens-equivalente">2.4 Comparación con cloud (€/1M tokens equivalente)&lt;/h3>
&lt;p>Para comparar, se convierte el precio cloud al equivalente €/1M tokens usando el mismo throughput de referencia ((\dot{T}_{\text{GPU}} = 1,850) tok/s):&lt;/p>
&lt;p>$$\text{EUR/1M tokens (cloud)} = \frac{P_{\text{cloud}} \times 10^{6}}{1,850 \times 3,600}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Proveedor / Modalidad&lt;/th>
&lt;th>Precio GPU-hora (USD)&lt;/th>
&lt;th>EUR/GPU-hora ((1,\text{USD} \approx 0{,}93,\text{EUR}))&lt;/th>
&lt;th>EUR/1M tokens equiv.&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>AWS p5 on-demand (post jun. 2025)&lt;/td>
&lt;td>3,90&lt;/td>
&lt;td>3,63&lt;/td>
&lt;td>&lt;strong>0,545&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS p5 reserved 1 año&lt;/td>
&lt;td>~2,50&lt;/td>
&lt;td>2,33&lt;/td>
&lt;td>&lt;strong>0,350&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CoreWeave on-demand&lt;/td>
&lt;td>~2,01&lt;/td>
&lt;td>1,87&lt;/td>
&lt;td>&lt;strong>0,281&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CoreWeave reserved 3 años&lt;/td>
&lt;td>~1,49&lt;/td>
&lt;td>1,39&lt;/td>
&lt;td>&lt;strong>0,209&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP A3 on-demand&lt;/td>
&lt;td>~3,67&lt;/td>
&lt;td>3,41&lt;/td>
&lt;td>&lt;strong>0,512&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Azure ND H100 v5 on-demand&lt;/td>
&lt;td>~6,98&lt;/td>
&lt;td>6,49&lt;/td>
&lt;td>&lt;strong>0,975&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Fuentes: IntuitionLabs (jun. 2026), CloudZero (jun. 2026), Spheron GPU pricing (may. 2026).&lt;/p>
&lt;hr>
&lt;h2 id="3-break-even-y-payback-de-la-inversión-propia">3. Break-even y payback de la inversión propia&lt;/h2>
&lt;h3 id="31-la-fórmula-del-break-even-de-utilización">3.1 La fórmula del break-even de utilización&lt;/h3>
&lt;p>El break-even de utilización (u^{*}) es la utilización a la que el coste anual on-prem por GPU-hora iguala el precio cloud:&lt;/p>
&lt;p>$$u^{*} = \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times P_{\text{cloud}}}$$&lt;/p>
&lt;p>donde (P_{\text{cloud}}) es el precio cloud en la misma divisa que los costes on-prem.&lt;/p>
&lt;p>Con el escenario base (capex/año 55 300 €, opex/año 28 000 €, total 83 300 €/nodo/año):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Referencia cloud&lt;/th>
&lt;th>Precio cloud (EUR/GPU-hora)&lt;/th>
&lt;th>(u^{*}) break-even&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Azure on-demand (~6,49 EUR)&lt;/td>
&lt;td>6,49&lt;/td>
&lt;td>&lt;strong>23 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS on-demand post-recorte (~3,63 EUR)&lt;/td>
&lt;td>3,63&lt;/td>
&lt;td>&lt;strong>41 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP on-demand (~3,41 EUR)&lt;/td>
&lt;td>3,41&lt;/td>
&lt;td>&lt;strong>44 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CoreWeave on-demand (~1,87 EUR)&lt;/td>
&lt;td>1,87&lt;/td>
&lt;td>&lt;strong>80 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>CoreWeave reserved 3a (~1,39 EUR)&lt;/td>
&lt;td>1,39&lt;/td>
&lt;td>&lt;strong>&amp;gt;100 %&lt;/strong> (imposible)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS reserved 1a (~2,33 EUR)&lt;/td>
&lt;td>2,33&lt;/td>
&lt;td>&lt;strong>64 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;div class="diagram" style="max-width:720px;margin:1rem auto;">
&lt;svg viewBox="0 0 720 240" role="img" aria-label="Break-even on-prem vs cloud: la curva del on-prem baja con la utilizacion y cruza AWS on-demand al 41 por ciento, GCP al 44 por ciento y CoreWeave on-demand al 80 por ciento" xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.cv{fill:none;stroke:currentColor;stroke-width:1.8}.dsh{fill:none;stroke:currentColor;stroke-width:1.2;stroke-dasharray:5 3}.ts{font:11px sans-serif;fill:currentColor}.tl{font:600 11px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="60" y1="20" x2="60" y2="200"/>
&lt;line class="ax" x1="60" y1="200" x2="700" y2="200"/>
&lt;text x="20" y="120" class="ts" transform="rotate(-90 20 120)">EUR/GPU-h&lt;/text>
&lt;text x="340" y="222" class="ts">utilización →&lt;/text>
&lt;text x="62" y="216" class="ts">0&lt;/text>
&lt;text x="190" y="216" class="ts">30&lt;/text>
&lt;text x="330" y="216" class="ts">60&lt;/text>
&lt;text x="460" y="216" class="ts">80&lt;/text>
&lt;text x="600" y="216" class="ts">100 %&lt;/text>
&lt;line class="ax" x1="200" y1="197" x2="200" y2="203"/>
&lt;line class="ax" x1="340" y1="197" x2="340" y2="203"/>
&lt;line class="ax" x1="460" y1="197" x2="460" y2="203"/>
&lt;line class="ax" x1="600" y1="197" x2="600" y2="203"/>
&lt;path class="cv" d="M75,30 C120,55 200,100 300,140 C400,165 520,180 670,190"/>
&lt;text x="76" y="26" class="tl">on-prem (capex fijo)&lt;/text>
&lt;line class="cv" x1="60" y1="130" x2="700" y2="130"/>
&lt;text x="590" y="125" class="ts">Azure OD (6,49 €)&lt;/text>
&lt;line class="cv" x1="60" y1="160" x2="700" y2="160"/>
&lt;text x="590" y="155" class="ts">AWS OD (3,63 €)&lt;/text>
&lt;line class="cv" x1="60" y1="167" x2="700" y2="167"/>
&lt;text x="590" y="178" class="ts">GCP OD (3,41 €)&lt;/text>
&lt;line class="cv" x1="60" y1="185" x2="700" y2="185"/>
&lt;text x="576" y="181" class="ts">CoreWeave OD (1,87 €)&lt;/text>
&lt;line class="dsh" x1="240" y1="20" x2="240" y2="200"/>
&lt;text x="210" y="38" class="tl">41 % (AWS)&lt;/text>
&lt;line class="dsh" x1="258" y1="20" x2="258" y2="200"/>
&lt;text x="255" y="52" class="ts">44 % (GCP)&lt;/text>
&lt;line class="dsh" x1="475" y1="20" x2="475" y2="200"/>
&lt;text x="448" y="38" class="ts">80 % (CoreWeave OD)&lt;/text>
&lt;/svg>
&lt;/div>
&lt;h3 id="32-payback-del-capex">3.2 Payback del capex&lt;/h3>
&lt;p>El payback es el tiempo (T_{\text{pay}}) en el que el ahorro acumulado frente al cloud iguala el capex inicial:&lt;/p>
&lt;p>$$T_{\text{pay}} = \frac{\text{capex total cluster}}{(\text{coste cloud/año}) - (\text{opex on-prem/año})}$$&lt;/p>
&lt;p>donde el coste cloud/año se calcula a la misma utilización sostenida.&lt;/p>
&lt;p>Para el cluster de 11 nodos (capex total 11 × 178 500 USD ≈ 1 825 000 USD ≈ 1 697 000 €):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Referencia cloud&lt;/th>
&lt;th>Utilización sostenida&lt;/th>
&lt;th>Ahorro anual vs cloud&lt;/th>
&lt;th>Payback&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>AWS on-demand (3,63 EUR/h)&lt;/td>
&lt;td>70 %&lt;/td>
&lt;td>(3,63 − 3,39 EUR) × 4 × 8760 × 0,70 × 11 nodos ≈ &lt;strong>63 900 €/año&lt;/strong>&lt;/td>
&lt;td>~27 meses&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS on-demand (3,63 EUR/h)&lt;/td>
&lt;td>80 %&lt;/td>
&lt;td>(3,63 − 2,97) × 4 × 8760 × 0,80 × 11 ≈ &lt;strong>203 600 €/año&lt;/strong>&lt;/td>
&lt;td>~10 meses&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP on-demand (3,41 EUR/h)&lt;/td>
&lt;td>70 %&lt;/td>
&lt;td>(3,41 − 3,39) × 4 × 8760 × 0,70 × 11 ≈ &lt;strong>5 400 €/año&lt;/strong>&lt;/td>
&lt;td>~315 meses (no rentable)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Azure on-demand (6,49 EUR/h)&lt;/td>
&lt;td>70 %&lt;/td>
&lt;td>(6,49 − 3,39) × 4 × 8760 × 0,70 × 11 ≈ &lt;strong>830 000 €/año&lt;/strong>&lt;/td>
&lt;td>~2 meses&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>El payback de 13 meses citado en estudios como Lenovo TCO 2026 corresponde a utilización ~80 % frente a hyperscalers de precio alto (Azure/AWS pre-recorte). Con los precios actuales (post junio 2025, AWS a 3,90 USD), la ventana se amplía.&lt;/p>
&lt;/blockquote>
&lt;h3 id="33-payback-simple-solo-capex-vs-cloud-equivalente">3.3 Payback simple (solo capex vs cloud equivalente)&lt;/h3>
&lt;p>Si se omite el opex on-prem y se compara solo el capex con el ahorro bruto:&lt;/p>
&lt;p>$$T_{\text{pay,simple}} = \frac{\text{capex}}{P_{\text{cloud}} \times 4 \times 8,760 \times \rho \times N_{\text{nodos}}}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>AWS (3,63 EUR)&lt;/th>
&lt;th>Azure (6,49 EUR)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>54 meses&lt;/td>
&lt;td>30 meses&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>39 meses&lt;/td>
&lt;td>22 meses&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>34 meses&lt;/td>
&lt;td>19 meses&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="4-tabla-de-decisión-cuándo-comprar-alquilar-o-híbrido">4. Tabla de decisión: cuándo comprar, alquilar o híbrido&lt;/h2>
&lt;p>La tabla siguiente es un Pareto de cinco dimensiones. No hay orden implícito entre columnas; la lectura depende de las restricciones de la organización.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Opción&lt;/th>
&lt;th>EUR/GPU-hora (util. 70 %)&lt;/th>
&lt;th>Capex inicial&lt;/th>
&lt;th>Utilización requerida&lt;/th>
&lt;th>Soberanía dato&lt;/th>
&lt;th>Elasticidad pico&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-prem compra, util. ≥ 70 %&lt;/strong>&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>alto (178 k USD/nodo)&lt;/td>
&lt;td>≥ 70 % sostenido&lt;/td>
&lt;td>total&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>On-prem compra, util. &amp;lt; 50 %&lt;/strong>&lt;/td>
&lt;td>&amp;gt; 4,75&lt;/td>
&lt;td>alto&lt;/td>
&lt;td>&amp;lt; 50 % → pierde vs cloud&lt;/td>
&lt;td>total&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cloud EU soberano OD (Scaleway/Nebius EU)&lt;/strong>&lt;/td>
&lt;td>2,00–3,59&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>cualquiera&lt;/td>
&lt;td>sí (UE)&lt;/td>
&lt;td>total&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS p5 on-demand (post jun. 2025)&lt;/strong>&lt;/td>
&lt;td>3,63&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>cualquiera&lt;/td>
&lt;td>no (CLOUD Act)&lt;/td>
&lt;td>total&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>CoreWeave on-demand&lt;/strong>&lt;/td>
&lt;td>1,87&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>cualquiera&lt;/td>
&lt;td>parcial (US)&lt;/td>
&lt;td>total&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>CoreWeave reserved 3 años&lt;/strong>&lt;/td>
&lt;td>1,29–1,39&lt;/td>
&lt;td>compromiso financiero&lt;/td>
&lt;td>contrato rígido&lt;/td>
&lt;td>parcial (US)&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS reserved 1 año&lt;/strong>&lt;/td>
&lt;td>~2,17&lt;/td>
&lt;td>compromiso 1 año&lt;/td>
&lt;td>contrato&lt;/td>
&lt;td>no (CLOUD Act)&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Híbrido on-prem base + cloud EU pico&lt;/strong>&lt;/td>
&lt;td>2,50–3,39 (ponderado)&lt;/td>
&lt;td>medio&lt;/td>
&lt;td>base ≥ 70 %, pico elástico&lt;/td>
&lt;td>sí (UE)&lt;/td>
&lt;td>pico elástico&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Criterios de corte previos a la tabla:&lt;/strong>&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Soberanía RGPD&lt;/strong>: si los datos son personales o el sistema es de riesgo EU AI Act, CoreWeave/AWS quedan descartados antes de comparar precios.&lt;/li>
&lt;li>&lt;strong>Volumen mínimo para amortizar capex&lt;/strong>: por debajo de ~2 M tokens/día sostenidos durante 3 años, el capex on-prem no se amortiza frente a AWS on-demand.&lt;/li>
&lt;li>&lt;strong>Elasticidad de tráfico&lt;/strong>: picos &amp;gt;3× la base favorecen el híbrido o el cloud puro; base estable favorece el on-prem.&lt;/li>
&lt;/ol>
&lt;p>La frontera de Pareto coste/soberanía para datos RGPD deja tres opciones: on-prem, cloud EU soberano e híbrido. Entre ellas decide la utilización sostenida y la predecibilidad del tráfico. Véase el análisis cruzado de los cuatro ejes en &lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>.&lt;/p>
&lt;hr>
&lt;h2 id="5-análisis-de-sensibilidad">5. Análisis de sensibilidad&lt;/h2>
&lt;h3 id="51-sizing-vs-perfil-horario-y-factor-de-pico">5.1 Sizing vs perfil horario y factor de pico&lt;/h3>
&lt;p>El número de GPUs crece linealmente con (k_{\text{pico}}) e inversamente con (\rho_{\max}):&lt;/p>
&lt;p>$$N_{\text{GPU}} = \left\lceil \frac{D \times L_{\text{out}} \times k_{\text{pico}}}{H \times 3,600 \times \rho_{\max} \times \dot{T}_{\text{GPU}}} \right\rceil$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Factor de pico (k)&lt;/th>
&lt;th>SLO 300 ms ((\rho_{\max}=0{,}63))&lt;/th>
&lt;th>SLO 500 ms ((\rho_{\max}=0{,}75))&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>1,2&lt;/td>
&lt;td>8 GPUs (2 nodos)&lt;/td>
&lt;td>6 GPUs (2 nodos)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,8&lt;/td>
&lt;td>12 GPUs (3 nodos)&lt;/td>
&lt;td>10 GPUs (3 nodos)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>2,5&lt;/td>
&lt;td>16 GPUs (4 nodos)&lt;/td>
&lt;td>13 GPUs (4 nodos)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3,5&lt;/td>
&lt;td>22 GPUs (6 nodos)&lt;/td>
&lt;td>18 GPUs (5 nodos)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>(Ejemplo simplificado a 5 M pet/día con H=24 para ilustrar la sensibilidad al factor de pico)&lt;/p>
&lt;/blockquote>
&lt;p>Un factor de pico 3,5× triplica el número de nodos respecto a k=1,2 manteniendo el mismo SLO. Dimensionar hardware para (k &amp;gt; 2{,}5) deja GPUs paradas el 70 %+ del tiempo; el cloud de pico es más eficiente a partir de ese umbral.&lt;/p>
&lt;h3 id="52-break-even-vs-utilización-sostenida">5.2 Break-even vs utilización sostenida&lt;/h3>
&lt;p>$$u^{*} = \frac{83,300}{4 \times 8,760 \times P_{\text{cloud}}}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Precio cloud (EUR/GPU-hora)&lt;/th>
&lt;th>(u^{*}) break-even&lt;/th>
&lt;th>Escenario&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>6,49 (Azure OD)&lt;/td>
&lt;td>23 %&lt;/td>
&lt;td>On-prem gana casi siempre&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3,63 (AWS OD)&lt;/td>
&lt;td>41 %&lt;/td>
&lt;td>On-prem gana si util. &amp;gt; 41 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3,41 (GCP OD)&lt;/td>
&lt;td>44 %&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>2,33 (AWS reserved 1a)&lt;/td>
&lt;td>64 %&lt;/td>
&lt;td>On-prem gana si util. &amp;gt; 64 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,87 (CoreWeave OD)&lt;/td>
&lt;td>80 %&lt;/td>
&lt;td>Difícil de alcanzar en producción&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,39 (CoreWeave reserved 3a)&lt;/td>
&lt;td>&amp;gt;100 %&lt;/td>
&lt;td>On-prem nunca cierra brecha&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="53-break-even-vs-precio-de-energía">5.3 Break-even vs precio de energía&lt;/h3>
&lt;p>La energía representa el 6–11 % del TCO total. Su impacto en el break-even es moderado:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Precio energía (EUR/kWh)&lt;/th>
&lt;th>Opex energía/año por nodo&lt;/th>
&lt;th>EUR/GPU-hora (70 % util.)&lt;/th>
&lt;th>(u^{*}) vs AWS OD&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>0,034 (PPA solar)&lt;/td>
&lt;td>1 604 €&lt;/td>
&lt;td>3,22&lt;/td>
&lt;td>38 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>0,116 (industrial ES, base)&lt;/td>
&lt;td>5 475 €&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>41 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>0,200 (tarifa alta)&lt;/td>
&lt;td>9 437 €&lt;/td>
&lt;td>3,57&lt;/td>
&lt;td>43 %&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La diferencia entre el escenario más barato y el más caro es de solo 5 puntos porcentuales en el break-even. La variable que mueve la aguja es la utilización, no la energía.&lt;/p>
&lt;h3 id="54-break-even-vs-crecimiento-de-la-demanda">5.4 Break-even vs crecimiento de la demanda&lt;/h3>
&lt;p>Si la demanda crece a una tasa anual (g), la utilización media del cluster (dimensionado para el año 1) sube con el tiempo hasta que se satura y hay que ampliar:&lt;/p>
&lt;p>$$\rho(t) = \rho_{0} \times (1 + g)^{t}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Crecimiento anual (g)&lt;/th>
&lt;th>Tiempo hasta saturación ((\rho \to 100,%))&lt;/th>
&lt;th>Decisión&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>10 %&lt;/td>
&lt;td>~11 años&lt;/td>
&lt;td>Compra cómoda&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>30 %&lt;/td>
&lt;td>~4 años&lt;/td>
&lt;td>Compra con revisión a 3 años&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>60 %&lt;/td>
&lt;td>~2 años&lt;/td>
&lt;td>Híbrido: base + cloud elástico&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&amp;gt;100 %&lt;/td>
&lt;td>&amp;lt;1 año&lt;/td>
&lt;td>Cloud puro hasta estabilización&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para crecimientos &amp;gt;30 % anual, la estrategia de compra-sola implica sobredimensionar para el pico futuro o re-comprar hardware en ciclos cortos. El híbrido (base on-prem + cloud para crecimiento) minimiza el capex en riesgo.&lt;/p>
&lt;h3 id="55-headroom-el-coste-del-margen-de-seguridad">5.5 Headroom: el coste del margen de seguridad&lt;/h3>
&lt;p>El headroom del 15 % en (N_{\text{nodos}}) equivale a tener ~1,6 nodos adicionales de media. Su coste anual es:&lt;/p>
&lt;p>$$C_{\text{headroom}} = 0{,}15 \times 83,300;\text{EUR/nodo/año} \times N_{\text{nodos,base}} \approx 12,500 \times 9 = 112,500;\text{EUR/año}$$&lt;/p>
&lt;p>Este coste se justifica por:&lt;/p>
&lt;ul>
&lt;li>Tasa de fallo GPU ~5 % anual (en clusters pequeños, documentada por Introl, abr. 2026)&lt;/li>
&lt;li>Tiempo de reposición 2–8 semanas (según disponibilidad de mercado)&lt;/li>
&lt;li>Picos imprevistos hasta un 20 % sobre el estimado&lt;/li>
&lt;/ul>
&lt;p>Si el servicio puede degradarse gracefully (reducción de SLO TTFT de 300 ms a 500 ms en pico extremo), el headroom se puede reducir al 10 %, con un ahorro de ~37 500 EUR/año.&lt;/p>
&lt;hr>
&lt;h2 id="6-mapa-de-sensibilidad-gpu-hora-y-break-even-en-dos-ejes">6. Mapa de sensibilidad: €/GPU-hora y break-even en dos ejes&lt;/h2>
&lt;p>La tabla siguiente cruza utilización y escenario de opex, mostrando el EUR/GPU-hora all-in (escenario base, capex/año 55 300 €):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>&lt;/th>
&lt;th>Opex bajo (13 000 €/año)&lt;/th>
&lt;th>Opex base (28 000 €/año)&lt;/th>
&lt;th>Opex alto (75 000 €/año)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Util. 40 %&lt;/strong>&lt;/td>
&lt;td>4,74&lt;/td>
&lt;td>5,93&lt;/td>
&lt;td>9,06&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Util. 55 %&lt;/strong>&lt;/td>
&lt;td>3,45&lt;/td>
&lt;td>4,31&lt;/td>
&lt;td>6,59&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Util. 63 %&lt;/strong>&lt;/td>
&lt;td>3,01&lt;/td>
&lt;td>3,76&lt;/td>
&lt;td>5,75&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Util. 70 %&lt;/strong>&lt;/td>
&lt;td>2,71&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>5,18&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Util. 80 %&lt;/strong>&lt;/td>
&lt;td>2,37&lt;/td>
&lt;td>2,97&lt;/td>
&lt;td>4,54&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Util. 100 %&lt;/strong>&lt;/td>
&lt;td>1,90&lt;/td>
&lt;td>2,38&lt;/td>
&lt;td>3,63&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El cruce con el precio cloud (AWS OD: 3,63 EUR):&lt;/p>
&lt;ul>
&lt;li>Escenario opex bajo: break-even a ~&lt;strong>38 % de utilización&lt;/strong>&lt;/li>
&lt;li>Escenario opex base: break-even a ~&lt;strong>41 % de utilización&lt;/strong>&lt;/li>
&lt;li>Escenario opex alto: break-even a ~&lt;strong>53 % de utilización&lt;/strong>&lt;/li>
&lt;/ul>
&lt;p>La palanca más grande para reducir el break-even no es el capex del hardware sino el opex (especialmente personal y colocación). Véase el análisis de utilización como palanca FinOps en &lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como FinOps&lt;/a>.&lt;/p>
&lt;hr>
&lt;h2 id="7-integración-con-el-resto-de-la-cadena-finops">7. Integración con el resto de la cadena FinOps&lt;/h2>
&lt;p>El dimensionado de §1 determina el número de nodos; el TCO de §2 da el coste/hora; la comparación de §3 da el break-even. Estos tres números alimentan directamente los demás instrumentos de la serie:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Instrumento&lt;/th>
&lt;th>Input de este artículo&lt;/th>
&lt;th>Output&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/guidellm-validacion-slo-bajo-carga/">GuideLLM — validación SLO bajo carga&lt;/a>&lt;/td>
&lt;td>SLO TTFT/ITL P99 del paso 2&lt;/td>
&lt;td>Confirmación experimental del throughput real por GPU&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/capacity-planning-inferencia-llm-on-premise/">Capacity planning inferencia on-premise&lt;/a>&lt;/td>
&lt;td>Perfil de demanda y N GPUs del paso 4&lt;/td>
&lt;td>Política de escalado y autoscaling triggers&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">Coste por token y por request&lt;/a>&lt;/td>
&lt;td>EUR/GPU-hora del paso §2.2&lt;/td>
&lt;td>EUR/1M tokens por modelo y batching&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/">Cloud GPU commitment y spot&lt;/a>&lt;/td>
&lt;td>Precios cloud de la tabla §2.4&lt;/td>
&lt;td>Optimización del tier cloud complementario&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">On-premise soberano vs hyperscalers&lt;/a>&lt;/td>
&lt;td>Break-even de §3&lt;/td>
&lt;td>Decisión final compra/alquiler incluyendo eje soberanía&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/">TCO on-premise GPU cluster&lt;/a>&lt;/td>
&lt;td>Capex y opex de §2.1&lt;/td>
&lt;td>Modelo TCO detallado con todas las partidas&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">Utilización GPU como FinOps&lt;/a>&lt;/td>
&lt;td>Utilización objetivo del paso 2&lt;/td>
&lt;td>Palancas de scheduling para subir la utilización real&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Spheron · LLM Inference SLO Engineering: TTFT, ITL, and P99 Latency Budgets for Production AI (2026) — &lt;a href="https://www.spheron.network/blog/llm-inference-slo-ttft-itl-latency-budget-guide-2026/">https://www.spheron.network/blog/llm-inference-slo-ttft-itl-latency-budget-guide-2026/&lt;/a>&lt;/li>
&lt;li>Spheron · vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026) — &lt;a href="https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks/">https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks/&lt;/a>&lt;/li>
&lt;li>Spheron · GPU Cloud Pricing 2026: H100 from 1.03 USD/hr, B200 from 2.12 USD/hr — &lt;a href="https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/">https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/&lt;/a>&lt;/li>
&lt;li>Spheron · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even Analysis — &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/&lt;/a>&lt;/li>
&lt;li>MLPerf Inference v5.1 — Red Hat: 5 777 tok/s (offline) en Llama 3.1-8B FP8 en H100 — &lt;a href="https://www.redhat.com/en/blog/efficient-and-reproducible-llm-inference-red-hat-mlperf-inference-v51-results">https://www.redhat.com/en/blog/efficient-and-reproducible-llm-inference-red-hat-mlperf-inference-v51-results&lt;/a>&lt;/li>
&lt;li>MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026) — &lt;a href="https://www.spheron.network/blog/mlperf-inference-v6-benchmark-results-2026/">https://www.spheron.network/blog/mlperf-inference-v6-benchmark-results-2026/&lt;/a>&lt;/li>
&lt;li>IntuitionLabs · H100 Rental Prices Compared: 1.49–6.98 USD/hr Across 15+ Cloud Providers (2026) — &lt;a href="https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison">https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison&lt;/a>&lt;/li>
&lt;li>CloudZero · Cloud GPU Pricing Comparison: AWS vs Azure vs GCP For AI Workloads (2026) — &lt;a href="https://www.cloudzero.com/blog/cloud-gpu-pricing-comparison/">https://www.cloudzero.com/blog/cloud-gpu-pricing-comparison/&lt;/a>&lt;/li>
&lt;li>Lenovo Press · On-Premise vs Cloud: Generative AI Total Cost of Ownership (2026 Edition) — &lt;a href="https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition">https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition&lt;/a>&lt;/li>
&lt;li>Introl · GPU Infrastructure TCO Model: 5-Year Cost Analysis for Enterprise AI (abr. 2026) — &lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model&lt;/a>&lt;/li>
&lt;li>GMI Cloud · NVIDIA H100 GPU Pricing 2026: Rent vs Buy Cost Analysis — &lt;a href="https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis">https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis&lt;/a>&lt;/li>
&lt;li>Red Hat · 233 % 3-year ROI and 13 months to payback with Red Hat AI (feb. 2026) — &lt;a href="https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai">https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai&lt;/a>&lt;/li>
&lt;li>VentureBeat · 5 % GPU utilization: the 401 billion USD AI infrastructure problem — &lt;a href="https://venturebeat.com/infrastructure/5-gpu-utilization-the-401-billion-ai-infrastructure-problem-enterprises-cant-keep-ignoring/">https://venturebeat.com/infrastructure/5-gpu-utilization-the-401-billion-ai-infrastructure-problem-enterprises-cant-keep-ignoring/&lt;/a>&lt;/li>
&lt;li>DZone · Queueing Theory for LLM Inference — &lt;a href="https://dzone.com/articles/queueing-theory-for-llm-inference">https://dzone.com/articles/queueing-theory-for-llm-inference&lt;/a>&lt;/li>
&lt;li>GuideLLM · Evaluate LLM deployments for real-world inference (Red Hat Developer, jun. 2025) — &lt;a href="https://developers.redhat.com/articles/2025/06/20/guidellm-evaluate-llm-deployments-real-world-inference">https://developers.redhat.com/articles/2025/06/20/guidellm-evaluate-llm-deployments-real-world-inference&lt;/a>&lt;/li>
&lt;/ul></description></item><item><title>TCO completo de un cluster GPU on-premise: del capex al €/GPU-hora all-in y el break-even contra cloud</title><link>https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/</link><pubDate>Tue, 16 Jun 2026 06:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>N €&lt;/strong> o &lt;strong>N USD&lt;/strong> (fuente denominada en dólares); decimales con coma; separador de millar con espacio. No se usa el símbolo de dólar (delimitador de fórmula). Datos centrados en Europa/España. Hardware de ejemplo genérico: cluster de N nodos, cada uno con 4×H100 SXM5 80 GB.&lt;/p>
&lt;/blockquote>
&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>Un nodo 4×H100 SXM5 cuesta entre &lt;strong>150 000 USD y 200 000 USD&lt;/strong> de capex total (GPUs + servidor + red + almacenamiento + rack prorrateo). Amortizado a 3 años con opex europeo (energía a ~0,116 €/kWh industrial, PUE 1,54 medio o 1,2 con líquido, 0,3 FTE personal), el coste &lt;strong>all-in&lt;/strong> oscila entre &lt;strong>3,10 USD/GPU-hora&lt;/strong> (utilización 100 %) y &lt;strong>6,20 USD/GPU-hora&lt;/strong> (utilización 50 %). El break-even frente a AWS p5 on-demand (~6,88 USD/GPU-hora) se cruza en torno al &lt;strong>70 % de utilización&lt;/strong>; frente a un neocloud reserved 3 años (~1,49–2,10 USD/GPU-hora), el on-prem nunca cierra la brecha en ese escenario. La utilización es la variable que decide el eje de coste, no el precio del hardware.&lt;/p>
&lt;hr>
&lt;h2 id="el-modelo-supuestos-declarados">El modelo: supuestos declarados&lt;/h2>
&lt;p>Todos los cálculos siguientes parten de estos supuestos. Cambiar cualquiera de ellos mueve la conclusión; se cuantifica en la sección de sensibilidad.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Parámetro&lt;/th>
&lt;th>Valor base&lt;/th>
&lt;th>Rango de sensibilidad&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Nodo&lt;/td>
&lt;td>4×H100 SXM5 80 GB (HGX baseboard)&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cluster&lt;/td>
&lt;td>N nodos (modelo por nodo; escala linealmente)&lt;/td>
&lt;td>1–32 nodos&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Amortización capex&lt;/td>
&lt;td>3 años (lineal)&lt;/td>
&lt;td>3–5 años&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Utilización GPU&lt;/td>
&lt;td>70 %&lt;/td>
&lt;td>30 %–100 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Precio energía&lt;/td>
&lt;td>0,116 €/kWh (industrial España, sept. 2025)&lt;/td>
&lt;td>0,06–0,20 €/kWh&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>PUE&lt;/td>
&lt;td>1,54 (media global Uptime Institute 2025)&lt;/td>
&lt;td>1,15–1,80&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Tipo de cambio&lt;/td>
&lt;td>1 USD = 0,93 € (referencia jun. 2026)&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Fuente energía: &lt;a href="https://www.globalpetrolprices.com/Spain/electricity_prices/">GlobalPetrolPrices · Spain Business Electricity, sept. 2025&lt;/a>. Fuente PUE: &lt;a href="https://datacenter.uptimeinstitute.com/rs/711-RIA-145/images/2025.Annual.Survey.Report.pdf">Uptime Institute Global Data Center Survey 2025&lt;/a> — PUE global medio estancado en 1,54 por sexto año consecutivo; hyperscalers 1,10–1,15; colocación/empresa 1,58–1,80; instalaciones con menos de 5 años de antigüedad, 1,48. PUE 1,2 alcanzable con refrigeración líquida directa al chip.&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="desglose-capex-por-nodo-4h100-sxm5">Desglose capex por nodo 4×H100 SXM5&lt;/h2>
&lt;h3 id="gpus">GPUs&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Precio unitario (USD)&lt;/th>
&lt;th>Cantidad&lt;/th>
&lt;th>Subtotal (USD)&lt;/th>
&lt;th>Fuente y fecha&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>H100 SXM5 80 GB (tarjeta)&lt;/td>
&lt;td>30 000–40 000&lt;/td>
&lt;td>4&lt;/td>
&lt;td>120 000–160 000&lt;/td>
&lt;td>&lt;a href="https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis">GMI Cloud, abr. 2026&lt;/a> · &lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El rango refleja variabilidad de mercado y descuentos por volumen (5–15 % para pedidos &amp;gt;50 unidades). Las H100 SXM5 requieren el &lt;strong>HGX baseboard&lt;/strong> de NVIDIA; no se venden sueltas para instalación directa en servidores estándar.&lt;/p>
&lt;h3 id="servidor--hgx-baseboard">Servidor / HGX baseboard&lt;/h3>
&lt;p>El nodo completo 4×H100 SXM utiliza el &lt;strong>HGX H100 4-GPU baseboard&lt;/strong> de NVIDIA más un servidor host compatible. Modelos de referencia: Supermicro SYS-421GU-TNXR (4U, Dual Intel Xeon 4th Gen, HGX H100 4-GPU) y su equivalente en Dell.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Coste estimado (USD)&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Servidor chassis + CPU (2× Xeon) + RAM (512 GB DDR5) + PSU redundante&lt;/td>
&lt;td>18 000–25 000&lt;/td>
&lt;td>Basado en Supermicro SYS-821GE bare sin GPUs a ~24 806 USD (&lt;a href="https://www.xicomputer.com/Solutions/Data-Center-Servers/SYS-821GE-TNHR.asp">xicomputer.com&lt;/a>, jun. 2026); proporcional al 4-GPU&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>HGX H100 4-GPU baseboard&lt;/td>
&lt;td>incluido en precio GPU&lt;/td>
&lt;td>NVIDIA HGX plataforma; no precio separado público&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>NVLink inter-GPU (dentro del nodo)&lt;/td>
&lt;td>incluido en baseboard&lt;/td>
&lt;td>4 GPUs conectadas por NVLink 4.0 en el baseboard HGX&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Claim de marketing (sin verificación independiente): Supermicro anuncia reducción de costes de energía del datacenter de hasta el 40 % con refrigeración líquida en sus servidores HGX H100 (&lt;a href="https://www.supermicro.com/en/pressreleases/supermicro-launches-industrys-first-nvidia-hgx-h100-8-and-4-gpu-h100-servers-with-liquid-cooling">Supermicro press release&lt;/a>).&lt;/p>
&lt;/blockquote>
&lt;h3 id="red-infiniband-ndr">Red InfiniBand NDR&lt;/h3>
&lt;p>Para un cluster multi-nodo con paralelismo tensorial entre nodos, la red GPU-GPU es crítica. NDR InfiniBand (400 Gb/s por puerto) es el estándar de facto para clusters HGX.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Coste estimado por nodo (USD)&lt;/th>
&lt;th>Fuente / Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Switch NVIDIA Quantum-2 NDR 400G (64 puertos, prorrateado entre N nodos)&lt;/td>
&lt;td>2 000–4 000&lt;/td>
&lt;td>Switch ~35 000 USD (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>); a 16 nodos, ~2 200 USD/nodo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cables/transceptores InfiniBand NDR (4 puertos por nodo × ~1 000 USD/puerto)&lt;/td>
&lt;td>4 000&lt;/td>
&lt;td>Estimación basada en ~1 000 USD/transceptor óptico (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Red InfiniBand (prorrateado por nodo 4-GPU)&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~6 000–8 000&lt;/strong>&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Para inferencia serving dentro de un nodo (4 GPUs con NVLink), la red inter-nodo es menos crítica que para training multi-nodo. Para cargas de prefill-decode disaggregated entre nodos, InfiniBand NDR es necesaria.&lt;/p>
&lt;/blockquote>
&lt;h3 id="almacenamiento-nvme">Almacenamiento NVMe&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Coste estimado (USD)&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>NVMe local (4 TB × 2 unidades U.2/E1.S, datasets de trabajo y checkpoints)&lt;/td>
&lt;td>2 000–4 000&lt;/td>
&lt;td>~500–1 000 USD/TB NVMe enterprise 2025&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Almacenamiento de objetos compartido (NAS/MinIO, prorrateado por nodo)&lt;/td>
&lt;td>2 000–5 000&lt;/td>
&lt;td>Varía según capacidad total del cluster&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Almacenamiento total por nodo&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~4 000–9 000&lt;/strong>&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Introl modela 50 TB por GPU para operaciones efectivas en clusters de training (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>); para inferencia pura, el requerimiento es significativamente menor (pesos del modelo + logs).&lt;/p>
&lt;/blockquote>
&lt;h3 id="rack-pdu-y-conectividad-de-datacenter">Rack, PDU y conectividad de datacenter&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Componente&lt;/th>
&lt;th>Coste estimado por nodo (USD/año)&lt;/th>
&lt;th>Fuente&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Colocación rack (alta densidad, 10–15 kW por nodo)&lt;/td>
&lt;td>5 000–12 000/año&lt;/td>
&lt;td>&lt;a href="https://encoradvisors.com/data-center-colocation-pricing/">Encoradvisors · Colocation Pricing 2026&lt;/a>: alta densidad 3 000–6 000 USD/mes por rack; a 2 nodos por rack, ~1 500–3 000 USD/mes por nodo = 18 000–36 000 USD/año en tier-1; menor en España&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>PDU rack, cableado eléctrico (prorrateo)&lt;/td>
&lt;td>500–1 000 por nodo (capex amortizado)&lt;/td>
&lt;td>Dentro de la partida de colocación o CPD propio&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Colocación en España/Europa es estructuralmente más barata que en mercados tier-1 de EE. UU. (Nueva York, Silicon Valley). Para CPD propio, sustituir por coste de espacio propio + amortización de infraestructura eléctrica y de refrigeración.&lt;/p>
&lt;/blockquote>
&lt;h3 id="resumen-capex-por-nodo-4h100-sxm5">Resumen capex por nodo 4×H100 SXM5&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Rango (USD)&lt;/th>
&lt;th>Punto medio&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>GPUs (4× H100 SXM5)&lt;/td>
&lt;td>120 000–160 000&lt;/td>
&lt;td>140 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Servidor chassis + CPU/RAM/PSU&lt;/td>
&lt;td>18 000–25 000&lt;/td>
&lt;td>21 500&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Red InfiniBand NDR (prorrateo)&lt;/td>
&lt;td>6 000–8 000&lt;/td>
&lt;td>7 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Almacenamiento NVMe + objetos&lt;/td>
&lt;td>4 000–9 000&lt;/td>
&lt;td>6 500&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>PDU/rack/otros (capex)&lt;/td>
&lt;td>2 000–5 000&lt;/td>
&lt;td>3 500&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Capex total por nodo&lt;/strong>&lt;/td>
&lt;td>&lt;strong>150 000–207 000&lt;/strong>&lt;/td>
&lt;td>&lt;strong>178 500&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Fuentes: &lt;a href="https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis">GMI Cloud (abr. 2026)&lt;/a>, &lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl (abr. 2026)&lt;/a>, &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron (abr. 2026)&lt;/a>, &lt;a href="https://www.xicomputer.com/Solutions/Data-Center-Servers/SYS-821GE-TNHR.asp">xicomputer.com (jun. 2026)&lt;/a>.&lt;/p>
&lt;hr>
&lt;h2 id="desglose-opex-por-nodo-4h100-sxm5-anual">Desglose opex por nodo 4×H100 SXM5 (anual)&lt;/h2>
&lt;h3 id="energía">Energía&lt;/h3>
&lt;p>Un nodo 4×H100 SXM5 en carga completa consume aproximadamente:&lt;/p>
&lt;p>$$P_{\text{nodo}} = 4 \times 700,\text{W (TDP H100 SXM5)} + 800,\text{W (servidor)} \approx 3{,}6,\text{kW (IT)}$$&lt;/p>
&lt;p>La potencia total del datacenter incluye el overhead de refrigeración, expresado por el &lt;strong>PUE&lt;/strong>:&lt;/p>
&lt;p>$$P_{\text{total}} = P_{\text{IT}} \times \text{PUE}$$&lt;/p>
&lt;p>$$\text{coste energía anual} = P_{\text{IT}} \times \text{PUE} \times 8,760,\text{h} \times \text{precio kWh}$$&lt;/p>
&lt;p>Con los valores base (PUE 1,54; 0,116 €/kWh):&lt;/p>
&lt;p>$$\text{energía/año} = 3{,}6,\text{kW} \times 1{,}54 \times 8,760,\text{h} \times 0{,}116,\text{EUR/kWh} \approx 5,475,\text{EUR}$$&lt;/p>
&lt;p>Con PPA solar España (precio referencia Q3 2025: ~34 €/MWh = 0,034 €/kWh según &lt;a href="https://www.pv-tech.org/european-solar-ppa-prices-fall-below-35-mwh-q3-2025/">PV Tech, oct. 2025&lt;/a>):&lt;/p>
&lt;p>$$\text{energía/año (PPA solar)} = 3{,}6 \times 1{,}54 \times 8,760 \times 0{,}034 \approx 1,604,\text{EUR}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Escenario energético&lt;/th>
&lt;th>Precio (€/kWh)&lt;/th>
&lt;th>Coste energía/año por nodo 4-GPU&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>PPA solar España (Q3 2025)&lt;/td>
&lt;td>0,034&lt;/td>
&lt;td>~1 604 €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Industrial España (sept. 2025)&lt;/td>
&lt;td>0,116&lt;/td>
&lt;td>~5 475 €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Europa media (tarifa industrial)&lt;/td>
&lt;td>0,160&lt;/td>
&lt;td>~7 550 €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Peor caso (sin PPA, tarifa alta)&lt;/td>
&lt;td>0,200&lt;/td>
&lt;td>~9 437 €&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="personal--operación">Personal / operación&lt;/h3>
&lt;p>El coste de personal es la partida más variable según el tamaño del cluster. Para un cluster pequeño (2–8 nodos), la regla práctica es &lt;strong>0,3–0,5 FTE por cluster&lt;/strong> de soporte de infraestructura GPU (&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron, abr. 2026&lt;/a>).&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Tamaño cluster&lt;/th>
&lt;th>FTE estimado&lt;/th>
&lt;th>Coste FTE (€/año, Europa Occ.)&lt;/th>
&lt;th>Coste por nodo 4-GPU (€/año)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>2–4 nodos&lt;/td>
&lt;td>0,3 FTE&lt;/td>
&lt;td>~120 000&lt;/td>
&lt;td>36 000–18 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>8–16 nodos&lt;/td>
&lt;td>0,5 FTE&lt;/td>
&lt;td>~120 000&lt;/td>
&lt;td>7 500&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>32+ nodos&lt;/td>
&lt;td>1–2 FTE&lt;/td>
&lt;td>~120 000&lt;/td>
&lt;td>3 750–7 500&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Referencia salarial orientativa: ingeniero de infraestructura GPU con conocimiento de CUDA, InfiniBand y Kubernetes en Europa Occidental, ~90 000–140 000 €/año coste total empresa. Las cifras de Introl (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">abr. 2026&lt;/a>) en USD (~275 000 USD/año para EE. UU.) reflejan el mercado norteamericano, sensiblemente más alto.&lt;/p>
&lt;/blockquote>
&lt;h3 id="mantenimiento-y-soporte">Mantenimiento y soporte&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Coste anual (% del capex hardware)&lt;/th>
&lt;th>Por nodo 4-GPU (punto medio)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Mantenimiento / soporte vendor&lt;/td>
&lt;td>5–10 % del capex&lt;/td>
&lt;td>~7 000–14 000 USD → ~6 500–13 000 €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Tasa de fallos GPU (~5 % anual) × coste reposición&lt;/td>
&lt;td>5 % × 4 GPUs × ~35 000 USD = ~7 000 USD esperados&lt;/td>
&lt;td>~6 500 € (amortizado como provisión)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Recambios menores (cables, módulos)&lt;/td>
&lt;td>~500–1 000 €&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Introl cita tasas de fallo de GPU del 2–3 % anual en clusters pequeños; Google Research documentó ~9 % anualizado en el cluster H100 de 16 384 GPUs de Meta (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>). Se usa 5 % como valor conservador intermedio.&lt;/p>
&lt;/blockquote>
&lt;h3 id="depreciación-a-efectos-contables">Depreciación (a efectos contables)&lt;/h3>
&lt;p>La depreciación lineal convierte el capex en un flujo anual equiparable al coste del cloud committed:&lt;/p>
&lt;p>$$\text{depreciación anual} = \frac{\text{capex nodo}}{\text{años amortización}}$$&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Capex nodo (USD)&lt;/th>
&lt;th>Amortización 3 años (USD/año)&lt;/th>
&lt;th>Amortización 5 años (USD/año)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>150 000 (mínimo)&lt;/td>
&lt;td>50 000&lt;/td>
&lt;td>30 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>178 500 (medio)&lt;/td>
&lt;td>59 500&lt;/td>
&lt;td>35 700&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>207 000 (máximo)&lt;/td>
&lt;td>69 000&lt;/td>
&lt;td>41 400&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>El hardware H100 deprecia rápidamente: los análisis de mercado secundario sitúan el valor residual en el 20–40 % del precio de compra a los 3 años (&lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">Introl, abr. 2026&lt;/a>). La llegada de Blackwell GB200/GB300 acelera la obsolescencia percibida.&lt;/p>
&lt;/blockquote>
&lt;h3 id="resumen-opex-anual-por-nodo-4h100-sxm5-escenario-base-cluster-de-8-nodos">Resumen opex anual por nodo 4×H100 SXM5 (escenario base, cluster de 8 nodos)&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Escenario base (€/año)&lt;/th>
&lt;th>Rango&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Energía (PUE 1,54; 0,116 €/kWh)&lt;/td>
&lt;td>5 475&lt;/td>
&lt;td>1 604–9 437&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Personal (0,5 FTE × 8 nodos, prorrateado)&lt;/td>
&lt;td>7 500&lt;/td>
&lt;td>3 750–36 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Mantenimiento / soporte / fallos&lt;/td>
&lt;td>9 000&lt;/td>
&lt;td>5 000–15 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Colocación rack (España, alta densidad)&lt;/td>
&lt;td>6 000&lt;/td>
&lt;td>3 000–15 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Opex total por nodo&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~28 000&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~13 000–75 000&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El rango extremo refleja la diferencia entre un datacenter propio bien amortizado con PPA solar y energía barata (opex mínimo) frente a colocación tier-1 con tarifas de mercado y personal sénior.&lt;/p>
&lt;hr>
&lt;h2 id="derivación-del-gpu-hora-all-in">Derivación del €/GPU-hora all-in&lt;/h2>
&lt;h3 id="fórmula">Fórmula&lt;/h3>
&lt;p>$$\text{EUR/GPU-hora all-in} = \frac{\frac{\text{capex nodo}}{\text{años}} + \text{opex anual nodo}}{4,\text{GPUs} \times 8,760,\text{h} \times u}$$&lt;/p>
&lt;p>donde (u) es la utilización media anual (0 a 1).&lt;/p>
&lt;p>Véase la identidad de coste por token en &lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">coste por token y por request&lt;/a> para la conexión con el throughput.&lt;/p>
&lt;h3 id="tabla-de-gpu-hora-según-utilización-y-escenario">Tabla de €/GPU-hora según utilización y escenario&lt;/h3>
&lt;p>&lt;strong>Capex medio (178 500 USD → ~166 000 €), amortización 3 años → 55 300 €/año.&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>Opex/año (base, €)&lt;/th>
&lt;th>Coste total/año (€)&lt;/th>
&lt;th>GPU-horas útiles/año&lt;/th>
&lt;th>&lt;strong>€/GPU-hora&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>30 %&lt;/td>
&lt;td>28 000&lt;/td>
&lt;td>83 300&lt;/td>
&lt;td>10 512&lt;/td>
&lt;td>&lt;strong>7,93&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>28 000&lt;/td>
&lt;td>83 300&lt;/td>
&lt;td>17 520&lt;/td>
&lt;td>&lt;strong>4,75&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>28 000&lt;/td>
&lt;td>83 300&lt;/td>
&lt;td>24 528&lt;/td>
&lt;td>&lt;strong>3,39&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>28 000&lt;/td>
&lt;td>83 300&lt;/td>
&lt;td>28 032&lt;/td>
&lt;td>&lt;strong>2,97&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>28 000&lt;/td>
&lt;td>83 300&lt;/td>
&lt;td>35 040&lt;/td>
&lt;td>&lt;strong>2,38&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Escenario opex bajo&lt;/strong> (PPA solar, CPD propio, cluster grande): opex/año ~13 000 €.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>Coste total/año (€)&lt;/th>
&lt;th>&lt;strong>€/GPU-hora&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>68 300&lt;/td>
&lt;td>&lt;strong>3,90&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>68 300&lt;/td>
&lt;td>&lt;strong>2,78&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>68 300&lt;/td>
&lt;td>&lt;strong>2,43&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>68 300&lt;/td>
&lt;td>&lt;strong>1,95&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Escenario opex alto&lt;/strong> (tarifa mercado, colocation cara, cluster pequeño): opex/año ~75 000 €.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>Coste total/año (€)&lt;/th>
&lt;th>&lt;strong>€/GPU-hora&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>130 300&lt;/td>
&lt;td>&lt;strong>7,44&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>130 300&lt;/td>
&lt;td>&lt;strong>5,31&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>130 300&lt;/td>
&lt;td>&lt;strong>4,65&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>130 300&lt;/td>
&lt;td>&lt;strong>3,72&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="del-gpu-hora-al-1m-tokens">Del €/GPU-hora al €/1M tokens&lt;/h2>
&lt;p>La identidad de coste por token conecta el coste de hardware con el coste de inferencia:&lt;/p>
&lt;p>$$\text{EUR/1M tokens} = \frac{\text{EUR/GPU-hora} \times 10^6}{\text{throughput (tok/s)} \times 3,600}$$&lt;/p>
&lt;p>Para throughputs de referencia en H100 SXM5 con vLLM (ver &lt;a href="https://blog.lo0.es/posts/capacity-planning-inferencia-llm-on-premise/">capacity planning de inferencia on-premise&lt;/a>):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th>Throughput típico (tok/s por GPU)&lt;/th>
&lt;th>Fuente&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama-3 70B FP8, batch alto&lt;/td>
&lt;td>~2 800&lt;/td>
&lt;td>Benchmarks serie B&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama-3 8B FP16, batch medio&lt;/td>
&lt;td>~9 000&lt;/td>
&lt;td>Benchmarks serie B&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Mixtral 8×7B, batch alto&lt;/td>
&lt;td>~4 500&lt;/td>
&lt;td>Benchmarks serie B&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Tabla €/1M tokens en escenario base (€/GPU-hora 3,39 al 70 % de utilización):&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th>Throughput (tok/s)&lt;/th>
&lt;th>€/1M tokens&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama-3 70B FP8&lt;/td>
&lt;td>2 800&lt;/td>
&lt;td>&lt;strong>~0,336&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama-3 8B FP16&lt;/td>
&lt;td>9 000&lt;/td>
&lt;td>&lt;strong>~0,105&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Mixtral 8×7B&lt;/td>
&lt;td>4 500&lt;/td>
&lt;td>&lt;strong>~0,209&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Al 50 % de utilización (€/GPU-hora 4,75):&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th>€/1M tokens&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama-3 70B FP8&lt;/td>
&lt;td>&lt;strong>~0,471&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama-3 8B FP16&lt;/td>
&lt;td>&lt;strong>~0,147&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La ocupación (batching) multiplica el throughput efectivo y baja el €/1M tokens sin cambiar el hardware; se analiza en &lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como palanca FinOps&lt;/a>.&lt;/p>
&lt;hr>
&lt;h2 id="break-even-on-prem-vs-cloud">Break-even on-prem vs cloud&lt;/h2>
&lt;h3 id="la-fórmula-del-break-even">La fórmula del break-even&lt;/h3>
&lt;p>El break-even se da cuando el coste total anual on-prem iguala el coste anual del cloud a igual utilización:&lt;/p>
&lt;p>$$\text{coste cloud anual} = \text{precio GPU-hora cloud} \times 4,\text{GPUs} \times 8,760,\text{h} \times u$$&lt;/p>
&lt;p>$$\text{break-even}: \quad \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u} = \text{precio GPU-hora cloud}$$&lt;/p>
&lt;p>Despejando la utilización de break-even:&lt;/p>
&lt;p>$$u^* = \frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times \text{precio GPU-hora cloud}}$$&lt;/p>
&lt;h3 id="tabla-de-break-even-por-modalidad-cloud-y-escenario-on-prem">Tabla de break-even por modalidad cloud y escenario on-prem&lt;/h3>
&lt;p>&lt;strong>Escenario base on-prem&lt;/strong> (capex/año 55 300 €, opex/año 28 000 €, total 83 300 €/año por nodo 4-GPU):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Referencia cloud (precio/GPU-hora)&lt;/th>
&lt;th>USD equiv.&lt;/th>
&lt;th>Utilización break-even (u^*)&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Neocloud on-demand (Lambda/Spheron ~2,90 USD)&lt;/td>
&lt;td>2,90 USD (~2,70 €)&lt;/td>
&lt;td>&lt;strong>&amp;gt;100 %&lt;/strong> — el on-prem no compite&lt;/td>
&lt;td>El cloud on-demand de neocloud es más barato incluso a utilización plena&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Neocloud reserved 3 años (CoreWeave ~1,49–2,10 USD)&lt;/td>
&lt;td>~1,80 USD (~1,67 €)&lt;/td>
&lt;td>&lt;strong>&amp;gt;100 %&lt;/strong> — imposible&lt;/td>
&lt;td>El reserved neocloud supera al on-prem en cualquier escenario de este modelo&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS p5 on-demand (6,88 USD/GPU-hora)&lt;/td>
&lt;td>6,88 USD (~6,40 €)&lt;/td>
&lt;td>&lt;strong>~47 %&lt;/strong>&lt;/td>
&lt;td>A más del 47 %, el on-prem medio bate a AWS on-demand&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS p5 reserved 3 años (~2,97 USD/GPU-hora)&lt;/td>
&lt;td>2,97 USD (~2,76 €)&lt;/td>
&lt;td>&lt;strong>&amp;gt;100 %&lt;/strong>&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP A3 on-demand (~10,98 USD/GPU-hora)&lt;/td>
&lt;td>10,98 USD (~10,21 €)&lt;/td>
&lt;td>&lt;strong>~29 %&lt;/strong>&lt;/td>
&lt;td>A más del 29 %, el on-prem bate a GCP on-demand&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Azure ND H100 v5 on-demand (~12,29 USD/GPU-hora)&lt;/td>
&lt;td>12,29 USD (~11,43 €)&lt;/td>
&lt;td>&lt;strong>~26 %&lt;/strong>&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Escenario opex bajo&lt;/strong> (total 68 300 €/año):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Referencia cloud&lt;/th>
&lt;th>Utilización break-even&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>AWS p5 on-demand (6,88 USD ≈ 6,40 €)&lt;/td>
&lt;td>&lt;strong>~38 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Neocloud on-demand (2,90 USD ≈ 2,70 €)&lt;/td>
&lt;td>&lt;strong>~91 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Neocloud reserved 3a (1,80 USD ≈ 1,67 €)&lt;/td>
&lt;td>&lt;strong>&amp;gt;100 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Escenario opex alto&lt;/strong> (total 130 300 €/año):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Referencia cloud&lt;/th>
&lt;th>Utilización break-even&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>AWS p5 on-demand (6,88 USD ≈ 6,40 €)&lt;/td>
&lt;td>&lt;strong>~72 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GCP A3 on-demand (~10,21 €)&lt;/td>
&lt;td>&lt;strong>~45 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Azure on-demand (~11,43 €)&lt;/td>
&lt;td>&lt;strong>~41 %&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="lectura-de-la-tabla-de-break-even">Lectura de la tabla de break-even&lt;/h3>
&lt;ul>
&lt;li>Frente a &lt;strong>neoclouds&lt;/strong> (on-demand o reserved), el TCO on-prem &lt;strong>no cierra el break-even&lt;/strong> en ningún escenario del modelo base. El neocloud reserved bate al on-prem incluso a utilización del 100 %, porque su precio/hora es inferior al coste all-in del hardware propio. Esto es coherente con el análisis de &lt;a href="https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/">cloud GPU: on-demand, reserved y spot&lt;/a>.&lt;/li>
&lt;li>Frente a &lt;strong>hyperscalers on-demand&lt;/strong> (AWS, GCP, Azure), el on-prem sí tiene break-even alcanzable: en torno al &lt;strong>26–72 %&lt;/strong> de utilización según el escenario. A utilización media-alta (&amp;gt;70 %), el on-prem bate claramente a AWS/GCP/Azure on-demand.&lt;/li>
&lt;li>La variable que más mueve el break-even es el &lt;strong>opex&lt;/strong> (especialmente el personal), no el capex del hardware. Un cluster bien dimensionado en colocación barata con energía PPA puede bajar el umbral 20 puntos porcentuales respecto al escenario alto.&lt;/li>
&lt;li>Para datos RGPD, el break-even frente a hyperscalers estadounidenses está sesgado: el eje de soberanía descarta los hyperscalers US antes que el coste (ver &lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>).&lt;/li>
&lt;/ul>
&lt;div class="diagram" style="max-width:760px;margin:1rem auto;">
&lt;svg viewBox="0 0 760 260" role="img" aria-label="Break-even on-prem vs cloud segun utilización: el on-prem base cruza AWS on-demand al 47 por ciento, GCP al 29 por ciento y Azure al 26 por ciento de utilización. Los neoclouds no tienen break-even factible." xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.cv{fill:none;stroke:currentColor;stroke-width:1.8}.dsh{fill:none;stroke:currentColor;stroke-width:1.2;stroke-dasharray:5 3}.ts{font:11px sans-serif;fill:currentColor}.tl{font:600 11.5px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="60" y1="30" x2="60" y2="210"/>
&lt;line class="ax" x1="60" y1="210" x2="730" y2="210"/>
&lt;text x="22" y="125" class="ts" transform="rotate(-90 22 125)">€/GPU-hora&lt;/text>
&lt;text x="350" y="235" class="ts">utilización (%) →&lt;/text>
&lt;text x="65" y="226" class="ts">0&lt;/text>
&lt;text x="220" y="226" class="ts">30&lt;/text>
&lt;text x="375" y="226" class="ts">60&lt;/text>
&lt;text x="535" y="226" class="ts">90&lt;/text>
&lt;text x="700" y="226" class="ts">100&lt;/text>
&lt;line class="ax" x1="220" y1="207" x2="220" y2="213"/>
&lt;line class="ax" x1="375" y1="207" x2="375" y2="213"/>
&lt;line class="ax" x1="535" y1="207" x2="535" y2="213"/>
&lt;line class="ax" x1="700" y1="207" x2="700" y2="213"/>
&lt;path class="cv" d="M80,40 C150,65 250,110 375,148 C480,178 600,195 710,203"/>
&lt;text x="82" y="36" class="tl">on-prem (capex fijo)&lt;/text>
&lt;line class="cv" x1="60" y1="155" x2="730" y2="155"/>
&lt;text x="632" y="149" class="ts">AWS p5 OD (~6,40 €)&lt;/text>
&lt;line class="cv" x1="60" y1="190" x2="730" y2="190"/>
&lt;text x="620" y="186" class="ts">GCP OD (~10,21 €)&lt;/text>
&lt;line class="cv" x1="60" y1="200" x2="730" y2="200"/>
&lt;text x="620" y="198" class="ts">Azure OD (~11,43 €)&lt;/text>
&lt;line class="cv" x1="60" y1="95" x2="730" y2="95"/>
&lt;text x="632" y="91" class="ts">neocloud OD (~2,70 €)&lt;/text>
&lt;line class="dsh" x1="310" y1="30" x2="310" y2="210"/>
&lt;text x="272" y="48" class="tl">≈47 % (AWS)&lt;/text>
&lt;line class="dsh" x1="187" y1="30" x2="187" y2="210"/>
&lt;text x="148" y="48" class="ts">≈29 % (GCP)&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="análisis-de-sensibilidad">Análisis de sensibilidad&lt;/h2>
&lt;h3 id="tco-vs-utilización">TCO vs utilización&lt;/h3>
&lt;p>El coste all-in por GPU-hora varía inversamente con la utilización porque el capex es fijo:&lt;/p>
&lt;p>$$\frac{d(\text{EUR/GPU-hora})}{du} = -\frac{\text{capex/año} + \text{opex/año}}{4 \times 8,760 \times u^2} &amp;lt; 0$$&lt;/p>
&lt;p>Pasar del 50 % al 80 % de utilización reduce el €/GPU-hora en (\frac{4{,}75 - 2{,}97}{4{,}75} \approx 37,%) en el escenario base. Esta reducción del 37 % no requiere ningún cambio de hardware; solo scheduling más eficiente (ver &lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como palanca FinOps&lt;/a>).&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>€/GPU-hora (escenario base)&lt;/th>
&lt;th>Variación vs 50 %&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>30 %&lt;/td>
&lt;td>7,93&lt;/td>
&lt;td>+67 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>4,75&lt;/td>
&lt;td>referencia&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>70 %&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>−29 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>2,97&lt;/td>
&lt;td>−37 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>100 %&lt;/td>
&lt;td>2,38&lt;/td>
&lt;td>−50 %&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="tco-vs-precio-de-energía">TCO vs precio de energía&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Precio energía (€/kWh)&lt;/th>
&lt;th>Opex energía/año&lt;/th>
&lt;th>€/GPU-hora (70 % util.)&lt;/th>
&lt;th>Variación vs base&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>0,034 (PPA solar)&lt;/td>
&lt;td>1 604 €&lt;/td>
&lt;td>&lt;strong>3,00&lt;/strong>&lt;/td>
&lt;td>−12 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>0,116 (industrial ES, base)&lt;/td>
&lt;td>5 475 €&lt;/td>
&lt;td>&lt;strong>3,39&lt;/strong>&lt;/td>
&lt;td>referencia&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>0,160 (Europa media)&lt;/td>
&lt;td>7 550 €&lt;/td>
&lt;td>&lt;strong>3,54&lt;/strong>&lt;/td>
&lt;td>+4 %&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>0,200 (tarifa alta)&lt;/td>
&lt;td>9 437 €&lt;/td>
&lt;td>&lt;strong>3,67&lt;/strong>&lt;/td>
&lt;td>+8 %&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La energía tiene un impacto &lt;strong>moderado&lt;/strong> en el TCO total (8–12 % de variación frente a extremos), porque el capex del hardware domina. Sin embargo, a muy larga amortización (5 años) y PPA solar, la energía baja del 6 % al 1 % del TCO total y el diferencial se amplifica. El precio de la energía importa más para la huella de carbono (CSRD) que para el TCO cuando el capex es dominante.&lt;/p>
&lt;h3 id="tco-vs-pue">TCO vs PUE&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>PUE&lt;/th>
&lt;th>Overhead refrigeración&lt;/th>
&lt;th>Energía/año (0,116 €/kWh)&lt;/th>
&lt;th>€/GPU-hora (70 % util.)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>1,15 (refrigeración líquida, nuevas instalaciones)&lt;/td>
&lt;td>+15 %&lt;/td>
&lt;td>2 166 €&lt;/td>
&lt;td>&lt;strong>3,21&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,20 (líquido, datacenter moderno)&lt;/td>
&lt;td>+20 %&lt;/td>
&lt;td>2 259 €&lt;/td>
&lt;td>&lt;strong>3,23&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,48 (instalaciones &amp;lt;5 años, Uptime 2025)&lt;/td>
&lt;td>+48 %&lt;/td>
&lt;td>3 490 €&lt;/td>
&lt;td>&lt;strong>3,33&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,54 (media global Uptime 2025)&lt;/td>
&lt;td>+54 %&lt;/td>
&lt;td>3 627 €&lt;/td>
&lt;td>&lt;strong>3,39&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1,80 (colocación legacy)&lt;/td>
&lt;td>+80 %&lt;/td>
&lt;td>4 260 €&lt;/td>
&lt;td>&lt;strong>3,47&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La diferencia entre PUE 1,15 (líquido) y 1,80 (legacy) es de apenas &lt;strong>~8 %&lt;/strong> en el €/GPU-hora al 70 % de utilización, porque la energía solo representa una fracción del TCO. El PUE importa mucho más para el &lt;strong>coste de energía absoluto&lt;/strong> y el &lt;strong>reporte CSRD&lt;/strong> que para el TCO total cuando el hardware es el componente dominante.&lt;/p>
&lt;h3 id="tco-vs-años-de-amortización">TCO vs años de amortización&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Amortización&lt;/th>
&lt;th>Capex/año (nodo medio, USD)&lt;/th>
&lt;th>€/GPU-hora (70 % util., escenario base opex)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>3 años&lt;/td>
&lt;td>59 500 USD (~55 300 €)&lt;/td>
&lt;td>&lt;strong>3,39&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>4 años&lt;/td>
&lt;td>44 625 USD (~41 500 €)&lt;/td>
&lt;td>&lt;strong>2,99&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>5 años&lt;/td>
&lt;td>35 700 USD (~33 200 €)&lt;/td>
&lt;td>&lt;strong>2,72&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Alargar la amortización de 3 a 5 años baja el €/GPU-hora en ~&lt;strong>20 %&lt;/strong>, asumiendo que el hardware sigue siendo competitivo y el mercado de reventa soporta el valor residual. Con el ciclo de refreshing acelerado por Blackwell GB200/GB300, una amortización a 5 años conlleva mayor riesgo de obsolescencia tecnológica.&lt;/p>
&lt;h3 id="mapa-de-calor-de-sensibilidad-gpu-hora-al-70--de-utilización-escenario-base">Mapa de calor de sensibilidad (€/GPU-hora al 70 % de utilización, escenario base)&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>&lt;/th>
&lt;th>PUE 1,15&lt;/th>
&lt;th>PUE 1,54&lt;/th>
&lt;th>PUE 1,80&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Amort. 3 años, PPA solar (0,034 €)&lt;/strong>&lt;/td>
&lt;td>2,72&lt;/td>
&lt;td>2,74&lt;/td>
&lt;td>2,76&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Amort. 3 años, industrial (0,116 €)&lt;/strong>&lt;/td>
&lt;td>3,21&lt;/td>
&lt;td>3,39&lt;/td>
&lt;td>3,47&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Amort. 5 años, industrial (0,116 €)&lt;/strong>&lt;/td>
&lt;td>2,54&lt;/td>
&lt;td>2,72&lt;/td>
&lt;td>2,80&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Amort. 3 años, tarifa alta (0,200 €)&lt;/strong>&lt;/td>
&lt;td>3,44&lt;/td>
&lt;td>3,67&lt;/td>
&lt;td>3,78&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="tabla-de-decisión-pareto-costecontrolsoberanía">Tabla de decisión: Pareto coste/control/soberanía&lt;/h2>
&lt;p>La tabla siguiente cruza las cuatro dimensiones sin jerarquía implícita; la lectura ordinal depende de las restricciones de cada organización.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Opción&lt;/th>
&lt;th>€/GPU-hora&lt;/th>
&lt;th>Capex inicial&lt;/th>
&lt;th>Control total stack&lt;/th>
&lt;th>Soberanía UE&lt;/th>
&lt;th>Elasticidad&lt;/th>
&lt;th>Riesgo operativo&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-prem (util. &amp;gt;70 %, opex bajo)&lt;/strong>&lt;/td>
&lt;td>2,40–3,00&lt;/td>
&lt;td>alto (150–207 k USD/nodo)&lt;/td>
&lt;td>total&lt;/td>
&lt;td>total&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;td>fallo hardware, idle&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>On-prem (util. &amp;lt;50 %, opex base)&lt;/strong>&lt;/td>
&lt;td>4,75–7,93&lt;/td>
&lt;td>alto&lt;/td>
&lt;td>total&lt;/td>
&lt;td>total&lt;/td>
&lt;td>ninguna&lt;/td>
&lt;td>capex sin retorno&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Neocloud reserved 3 años (CoreWeave, Lambda)&lt;/strong>&lt;/td>
&lt;td>1,49–2,10 USD&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>parcial (API)&lt;/td>
&lt;td>depende del proveedor&lt;/td>
&lt;td>contrato rígido&lt;/td>
&lt;td>interrupción mínima&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Neocloud on-demand (Lambda, Spheron)&lt;/strong>&lt;/td>
&lt;td>2,49–3,44 USD&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>parcial&lt;/td>
&lt;td>depende&lt;/td>
&lt;td>total&lt;/td>
&lt;td>sin interrupción&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS p5 on-demand&lt;/strong>&lt;/td>
&lt;td>6,88 USD&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>mínimo&lt;/td>
&lt;td>NO (CLOUD Act)&lt;/td>
&lt;td>total&lt;/td>
&lt;td>sin interrupción&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>AWS p5 reserved 3 años&lt;/strong>&lt;/td>
&lt;td>~2,97 USD&lt;/td>
&lt;td>compromiso financiero&lt;/td>
&lt;td>mínimo&lt;/td>
&lt;td>NO (CLOUD Act)&lt;/td>
&lt;td>rígida&lt;/td>
&lt;td>sin interrupción&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cloud EU soberano (Scaleway, Nebius EU)&lt;/strong>&lt;/td>
&lt;td>2,15–3,85 USD&lt;/td>
&lt;td>ninguno&lt;/td>
&lt;td>parcial&lt;/td>
&lt;td>sí (UE)&lt;/td>
&lt;td>total&lt;/td>
&lt;td>sin interrupción&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Híbrido on-prem base + cloud EU pico&lt;/strong>&lt;/td>
&lt;td>2,00–3,50 (ponderado)&lt;/td>
&lt;td>medio&lt;/td>
&lt;td>alto&lt;/td>
&lt;td>sí (UE)&lt;/td>
&lt;td>pico elástico&lt;/td>
&lt;td>complejidad operativa&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>Columna &amp;ldquo;Soberanía UE&amp;rdquo;: los hyperscalers estadounidenses (AWS, GCP, Azure) están sujetos a la US CLOUD Act independientemente de la región del datacenter. Nebius tiene entidad legal neerlandesa; CoreWeave es empresa estadounidense. Ver análisis completo en &lt;a href="https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/">on-premise soberano vs hyperscalers&lt;/a>.&lt;/p>
&lt;/blockquote>
&lt;blockquote>
&lt;p>Columna &amp;ldquo;Control total stack&amp;rdquo;: on-prem permite elegir versión de driver, kernel, configuración NCCL, particionado MIG, y cualquier parámetro del sistema. Las opciones cloud ofrecen control a nivel de contenedor/pod, con el hipervisor y el firmware opaco.&lt;/p>
&lt;/blockquote>
&lt;p>La frontera de Pareto coste/soberanía para datos RGPD excluye los hyperscalers US, dejando: &lt;strong>on-prem&lt;/strong>, &lt;strong>cloud EU soberano&lt;/strong>, y el &lt;strong>híbrido&lt;/strong>. Entre estos tres, la variable que decide es la utilización sostenida y la predecibilidad del tráfico (ver &lt;a href="https://blog.lo0.es/posts/capacity-planning-inferencia-llm-on-premise/">capacity planning de inferencia LLM on-premise&lt;/a>).&lt;/p>
&lt;hr>
&lt;h2 id="integración-con-el-modelo-finops-de-la-serie">Integración con el modelo FinOps de la serie&lt;/h2>
&lt;p>El €/GPU-hora all-in del on-prem es el número que alimenta el pipeline de cost allocation de la serie:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Identidad de coste por token&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/coste-por-token-y-por-request/">coste por token y por request&lt;/a>): throughput del motor × €/GPU-hora → €/1M tokens.&lt;/li>
&lt;li>&lt;strong>Chargeback y showback&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/opencost-cost-allocation-kubernetes/">chargeback y showback multitenancy GPU&lt;/a>): el €/GPU-hora all-in es el precio interno que se imputa a cada tenant del cluster multi-tenant.&lt;/li>
&lt;li>&lt;strong>Utilización como palanca&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/utilizacion-gpu-como-finops/">utilización GPU como FinOps&lt;/a>): subir la utilización del 50 % al 80 % reduce el €/GPU-hora en un 37 % sin cambiar el hardware — el ROI más alto del FinOps on-prem.&lt;/li>
&lt;li>&lt;strong>Capacity planning&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/capacity-planning-inferencia-llm-on-premise/">capacity planning de inferencia LLM on-premise&lt;/a>): el número de nodos a comprar depende del percentil de carga base que se quiere cubrir en hierro.&lt;/li>
&lt;li>&lt;strong>Comparativa cloud&lt;/strong> (&lt;a href="https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/">cloud GPU: on-demand, reserved y spot&lt;/a>): el €/GPU-hora all-in se enfrenta directamente al precio cloud de la tabla A7 para calcular el break-even.&lt;/li>
&lt;/ol>
&lt;hr>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Spheron · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even Analysis (abr. 2026) — &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/&lt;/a>&lt;/li>
&lt;li>Introl · GPU Infrastructure TCO Model: 5-Year Cost Analysis for Enterprise AI (abr. 2026) — &lt;a href="https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model">https://introl.com/blog/gpu-infrastructure-tco-5-year-cost-model&lt;/a>&lt;/li>
&lt;li>GMI Cloud · NVIDIA H100 GPU Pricing: 2026 Rent vs. Buy Cost Analysis (abr. 2026) — &lt;a href="https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis">https://www.gmicloud.ai/en/blog/nvidia-h100-gpu-pricing-2026-rent-vs-buy-cost-analysis&lt;/a>&lt;/li>
&lt;li>Uptime Institute · Global Data Center Survey 2025 (PDF oficial) — &lt;a href="https://datacenter.uptimeinstitute.com/rs/711-RIA-145/images/2025.Annual.Survey.Report.pdf">https://datacenter.uptimeinstitute.com/rs/711-RIA-145/images/2025.Annual.Survey.Report.pdf&lt;/a>&lt;/li>
&lt;li>Uptime Institute · Global Data Center PUE Stalls at 1.54 (comunicado, oct. 2025) — &lt;a href="https://mgrid.org/2025/10/01/uptime-institute-data-center-pue-stagnation-2025-liquid-cooling/">https://mgrid.org/2025/10/01/uptime-institute-data-center-pue-stagnation-2025-liquid-cooling/&lt;/a>&lt;/li>
&lt;li>GlobalPetrolPrices · Spain Business Electricity Price (sept. 2025) — &lt;a href="https://www.globalpetrolprices.com/Spain/electricity_prices/">https://www.globalpetrolprices.com/Spain/electricity_prices/&lt;/a>&lt;/li>
&lt;li>PV Tech · European Solar PPA Prices Fall Below 35 €/MWh in Q3 2025 (oct. 2025) — &lt;a href="https://www.pv-tech.org/european-solar-ppa-prices-fall-below-35-mwh-q3-2025/">https://www.pv-tech.org/european-solar-ppa-prices-fall-below-35-mwh-q3-2025/&lt;/a>&lt;/li>
&lt;li>Xi Computers · Supermicro SYS-821GE-TNHR 8U GPU Server Pricing (jun. 2026) — &lt;a href="https://www.xicomputer.com/Solutions/Data-Center-Servers/SYS-821GE-TNHR.asp">https://www.xicomputer.com/Solutions/Data-Center-Servers/SYS-821GE-TNHR.asp&lt;/a>&lt;/li>
&lt;li>Encoradvisors · Data Center Colocation Pricing 2026 — &lt;a href="https://encoradvisors.com/data-center-colocation-pricing/">https://encoradvisors.com/data-center-colocation-pricing/&lt;/a>&lt;/li>
&lt;li>CloudZero · H100 GPU Cost In 2026: Buy, Rent, and Cloud Pricing Compared — &lt;a href="https://www.cloudzero.com/blog/h100-gpu-cost/">https://www.cloudzero.com/blog/h100-gpu-cost/&lt;/a>&lt;/li>
&lt;li>Spheron · AI Inference Power Consumption and GPU Electricity Costs: 2026 Guide — &lt;a href="https://www.spheron.network/blog/ai-inference-power-electricity-cost-2026/">https://www.spheron.network/blog/ai-inference-power-electricity-cost-2026/&lt;/a>&lt;/li>
&lt;li>NVIDIA · DGX SuperPOD H100 Electrical Specifications (documentación oficial) — &lt;a href="https://docs.nvidia.com/dgx-superpod/design-guides/dgx-superpod-data-center-design-h100/latest/electrical.html">https://docs.nvidia.com/dgx-superpod/design-guides/dgx-superpod-data-center-design-h100/latest/electrical.html&lt;/a>&lt;/li>
&lt;/ul></description></item><item><title>On-premise soberano vs hyperscalers: el caso con datos (coste, energía, rendimiento y soberanía)</title><link>https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/</link><pubDate>Sun, 14 Jun 2026 05:30:00 +0200</pubDate><guid>https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>euros (N €)&lt;/strong>, decimales con coma; cuando una fuente cita dólares se indica
&amp;ldquo;USD&amp;rdquo;. Datos centrados en Europa/España. No se usa el símbolo de dólar (delimitador de fórmula).&lt;/p>
&lt;/blockquote>
&lt;h2 id="qué-cubre-este-artículo">Qué cubre este artículo&lt;/h2>
&lt;p>Artículo de &lt;strong>síntesis&lt;/strong> de la serie (S2), y el corazón de la propuesta: el caso con datos del
&lt;strong>on-premise soberano&lt;/strong> frente a los &lt;strong>hyperscalers&lt;/strong> y el &lt;strong>cloud europeo&lt;/strong>. Hasta aquí, cada track
midió su eje —coste por token (FinOps), goodput (benchmarking), energía y carbono—; aquí se cruzan los
cuatro, con una cuarta dimensión que ninguna comparativa técnica estadounidense pone delante: la
&lt;strong>soberanía del dato&lt;/strong>. El objetivo es responder, con números y no con ideología, la pregunta que
sostiene cualquier inversión en plataforma de IA: &lt;strong>¿servir en hierro propio, en cloud europeo o en
un hyperscaler?&lt;/strong> Y hacerlo con honestidad: el on-prem &lt;strong>no siempre gana&lt;/strong>, y decir cuándo gana y
cuándo no es lo que hace creíble la recomendación.&lt;/p>
&lt;hr>
&lt;h2 id="el-marco-cuatro-ejes-no-un-número">El marco: cuatro ejes, no un número&lt;/h2>
&lt;p>El error de casi todas las comparativas es reducir la decisión al coste por hora de una GPU. La
decisión real cruza &lt;strong>cuatro ejes&lt;/strong>, y solo viéndolos juntos se decide bien:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Eje&lt;/th>
&lt;th>Pregunta&lt;/th>
&lt;th>Quién lo mide en la serie&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Coste (TCO)&lt;/strong>&lt;/td>
&lt;td>¿cuánto cuesta servir, todo incluido?&lt;/td>
&lt;td>FinOps (A2–A8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Rendimiento&lt;/strong>&lt;/td>
&lt;td>¿cumple el SLO, a qué goodput?&lt;/td>
&lt;td>Benchmarking (B2–B8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Energía y carbono&lt;/strong>&lt;/td>
&lt;td>¿cuántos vatios y gramos por token?&lt;/td>
&lt;td>Energía (C2–C8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Soberanía&lt;/strong>&lt;/td>
&lt;td>¿bajo qué jurisdicción vive el dato?&lt;/td>
&lt;td>RGPD / EU AI Act / CSRD&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Los tres primeros son &lt;strong>cuantificables y se cruzan en el coste por token&lt;/strong>; el cuarto es una
&lt;strong>restricción&lt;/strong> que puede descartar una opción por barata que sea. La síntesis consiste en puntuar
cada opción en los cuatro y decidir sobre la &lt;strong>frontera de Pareto&lt;/strong>, no sobre el eje que más
convenga.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-coste-tco-y-break-even">El eje de coste: TCO y break-even&lt;/h2>
&lt;p>El coste real on-premise es capex amortizado + opex, y su coste &lt;strong>por hora efectiva&lt;/strong> depende de la
&lt;strong>utilización&lt;/strong>:&lt;/p>
&lt;p>$$\text{coste/GPU-hora efectiva (on-prem)} = \frac{\text{capex amortizado anual} + \text{opex anual}}{8760 \times \text{utilización}}$$&lt;/p>
&lt;p>Esta fórmula es la clave de todo el debate: &lt;strong>el coste por hora útil del on-prem sube al bajar la
utilización&lt;/strong>, porque el capex se paga igual esté la GPU trabajando o parada. Los datos de 2026:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Dato&lt;/th>
&lt;th>Valor&lt;/th>
&lt;th>Fuente&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Coste on-prem 8×H100 (floor, alta util.)&lt;/td>
&lt;td>~2,83 USD/GPU-hora &lt;em>all-in&lt;/em>&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Coste on-prem anual (floor)&lt;/td>
&lt;td>~237.000 USD/año&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS H100 (p5.48xlarge)&lt;/td>
&lt;td>4,10–6,88 USD/GPU-hora&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS 8-GPU on-demand anual (100 % util)&lt;/td>
&lt;td>287.000–482.000 USD/año&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cloud europeo soberano (Lyceum/Scaleway)&lt;/td>
&lt;td>desde &lt;strong>2–2,73 €/GPU-hora&lt;/strong>, &lt;strong>zero-egress&lt;/strong>&lt;/td>
&lt;td>&lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">Lyceum&lt;/a>, &lt;a href="https://www.scaleway.com/en/h100/">Scaleway&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El &lt;strong>break-even&lt;/strong> frente a AWS on-demand cae en torno al &lt;strong>50–83 % de utilización&lt;/strong> según región y
tarifa; &lt;strong>por debajo del ~70 % de utilización, el cloud gana&lt;/strong> en TCO, y por encima, el on-prem
(&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>). Para cargas de muy
alta utilización, el on-prem amortiza en &lt;strong>menos de 4 meses&lt;/strong> (&lt;a href="https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition">Lenovo&lt;/a>).&lt;/p>
&lt;h3 id="tco-a-3-años-el-cálculo-completo-de-un-nodo-8h100">TCO a 3 años: el cálculo completo de un nodo 8×H100&lt;/h3>
&lt;p>Los números abstractos no convencen a un comité; un modelo a 3 años con las partidas declaradas, sí.
Tomemos un &lt;strong>nodo 8×H100&lt;/strong> soberano en España y comparémoslo, a igualdad de trabajo, con AWS y con un
cloud europeo. Supuestos declarados: amortización a &lt;strong>3 años&lt;/strong>, energía a &lt;strong>PPA solar 32,5 €/MWh&lt;/strong>
(con red de respaldo), PUE 1,3, y dos escenarios de utilización (50 % y 80 %).&lt;/p>
&lt;p>&lt;strong>On-premise (nodo propio), partidas anuales:&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Valor anual&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Capex amortizado (nodo ~270.000 € / 3 años)&lt;/td>
&lt;td>~90.000 €&lt;/td>
&lt;td>servidor 8×H100 + red + almacenamiento&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Energía (≈10,4 kW × PUE 1,3 × 8760 h)&lt;/td>
&lt;td>~3.850 € (a 32,5 €/MWh)&lt;/td>
&lt;td>con PPA solar; a tarifa de red, ~12–18 k €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Operación, refrigeración, mantenimiento&lt;/td>
&lt;td>~25.000 €&lt;/td>
&lt;td>personal prorrateado, soporte, recambios&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Espacio en datacenter (rack, conectividad)&lt;/td>
&lt;td>~12.000 €&lt;/td>
&lt;td>colocation o CPD propio&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Total anual&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~131.000 €&lt;/strong>&lt;/td>
&lt;td>independiente de la utilización&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>A &lt;strong>131.000 €/año&lt;/strong> fijos, el coste &lt;strong>por token&lt;/strong> depende solo de cuántos tokens generes, es decir,
de la utilización:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>GPU-horas útiles/año&lt;/th>
&lt;th>Coste/1M tokens&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>~35.000&lt;/td>
&lt;td>&lt;strong>~2,9 €&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>65 %&lt;/td>
&lt;td>~45.500&lt;/td>
&lt;td>&lt;strong>~2,2 €&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>~56.000&lt;/td>
&lt;td>&lt;strong>~1,8 €&lt;/strong> (con red barata, ~1,1 €)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Cloud europeo soberano (Scaleway/Lyceum), pago por uso:&lt;/strong> a ~2,2 €/GPU-hora con zero-egress, el
coste por token es &lt;strong>constante con la utilización&lt;/strong> (solo pagas lo que usas): ~&lt;strong>1,5–2,2 €/1M tokens&lt;/strong>
según modelo y batching, sin capex ni riesgo de idle.&lt;/p>
&lt;p>&lt;strong>Hyperscaler (AWS p5), on-demand:&lt;/strong> a 4,10–6,88 USD/GPU-hora (≈3,8–6,4 €), el coste por token sale
&lt;strong>~2–3,5 €/1M tokens&lt;/strong> —y a eso hay que &lt;strong>sumar el egress&lt;/strong>—, sin contar que para datos RGPD el eje de
soberanía ya lo descarta.&lt;/p>
&lt;p>La lectura del modelo es la tesis de todo S2: &lt;strong>al 50 % de utilización, el on-prem (~2,9 €) no le gana
al cloud europeo (~1,8 €); al 80 % con energía barata (~1,1 €), lo bate con holgura&lt;/strong>. El
cruce está, como dice la literatura, en torno al &lt;strong>65–70 %&lt;/strong>. La inversión en on-prem es, en el fondo,
una apuesta a que sostendrás una utilización alta —y esa apuesta se gana con scheduling, no con
hardware—.&lt;/p>
&lt;div class="diagram" style="max-width:780px;margin:1rem auto;">
&lt;svg viewBox="0 0 780 250" role="img" aria-label="Break-even on-prem vs cloud segun utilizacion: el coste por hora util del on-prem baja con la utilizacion y cruza al del cloud en torno al 65-70 por ciento" xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.cv{fill:none;stroke:currentColor;stroke-width:1.6}.dsh{fill:none;stroke:currentColor;stroke-width:1;stroke-dasharray:4 3}.tl{font:600 12px sans-serif;fill:currentColor}.ts{font:11px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="60" y1="40" x2="60" y2="200"/>
&lt;line class="ax" x1="60" y1="200" x2="720" y2="200"/>
&lt;text x="20" y="130" class="ts" transform="rotate(-90 20 130)">coste/hora útil&lt;/text>
&lt;text x="330" y="228" class="ts">utilización (%) →&lt;/text>
&lt;path class="cv" d="M90,55 C200,90 320,130 430,150 C540,165 640,172 700,175"/>
&lt;text x="95" y="50" class="ts">on-prem (capex fijo)&lt;/text>
&lt;line class="cv" x1="60" y1="150" x2="720" y2="150"/>
&lt;text x="600" y="143" class="ts">cloud (≈ plano)&lt;/text>
&lt;line class="dsh" x1="430" y1="40" x2="430" y2="200"/>
&lt;text x="392" y="56" class="tl">break-even ~65-70%&lt;/text>
&lt;text x="110" y="190" class="ts">util. baja: cloud gana&lt;/text>
&lt;text x="520" y="190" class="ts">util. alta: on-prem gana&lt;/text>
&lt;text x="60" y="245" class="ts">El on-prem solo gana a la derecha del break-even; el capex fijo lo penaliza a baja utilización.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="la-realidad-incómoda-la-utilización-que-casi-nadie-alcanza">La realidad incómoda: la utilización que casi nadie alcanza&lt;/h2>
&lt;p>Aquí está el dato honesto que falta en los discursos de &amp;ldquo;on-prem siempre es más barato&amp;rdquo;: &lt;strong>la
mayoría de los equipos de inferencia en producción operan al 40–65 % de utilización de GPU&lt;/strong>, por la
variabilidad del tráfico y los límites del batching; la suposición de 80–90 % que hace atractivo el
on-prem &lt;strong>rara vez se alcanza fuera de pipelines solo-batch&lt;/strong> (&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>).&lt;/p>
&lt;p>Esto cambia la conclusión ingenua: si tu utilización real es del 50 %, el on-prem &lt;strong>no es más barato&lt;/strong>
que el cloud —el capex que pagas por la GPU parada te lo come—. Por eso la utilización no es un
detalle, es &lt;strong>la variable que decide el eje de coste&lt;/strong>, y conecta directamente con el track de FinOps
(el idle de A2, el chargeback de A5) y con el scheduling: &lt;strong>subir la utilización es lo que hace
rentable el on-prem&lt;/strong>. Un cluster propio mal aprovechado es más caro que el cloud; uno bien
schedulado, mucho más barato. La pregunta de coste no es &amp;ldquo;¿on-prem o cloud?&amp;rdquo;, es &amp;ldquo;&lt;strong>¿puedo sostener
una utilización alta?&lt;/strong>&amp;rdquo;.&lt;/p>
&lt;hr>
&lt;h2 id="los-costes-ocultos-del-cloud-el-egress">Los costes ocultos del cloud: el egress&lt;/h2>
&lt;p>El cloud tiene su propia letra pequeña: los &lt;strong>costes de egress&lt;/strong> (sacar datos del proveedor). En los
hyperscalers, mover datos fuera o entre regiones se factura, y en cargas de IA con mucho movimiento
de datos (datasets, checkpoints, embeddings) puede ser una partida significativa que no aparece en el
precio de la GPU-hora. La ventaja del &lt;strong>cloud europeo soberano&lt;/strong>: la mayoría (Lyceum, entre otros)
han adoptado el &lt;strong>modelo de zero-egress&lt;/strong> —no cobran por mover datos fuera ni entre regiones
(&lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">Lyceum&lt;/a>)—. Al
comparar, el coste real del hyperscaler es &lt;strong>GPU-hora + egress + otros cargos&lt;/strong>, no solo la GPU-hora;
ignorarlo infla artificialmente la competitividad del hyperscaler.&lt;/p>
&lt;p>Un ejemplo del orden de magnitud: una plataforma que mueva &lt;strong>50 TB/mes&lt;/strong> de salida (datasets,
checkpoints, respuestas servidas a sistemas fuera del proveedor) a una tarifa de egress típica de
~0,08–0,09 €/GB paga &lt;strong>~4.000–4.500 €/mes&lt;/strong>, es decir &lt;strong>~50.000 €/año solo en egress&lt;/strong> —una partida
del tamaño de un tercio del coste de un nodo propio, invisible en el precio de la GPU-hora—. En el
cloud europeo con &lt;strong>zero-egress&lt;/strong> esa partida es &lt;strong>cero&lt;/strong>; en el on-prem, el tráfico interno tampoco
se factura. Por eso una comparación justa debe modelar el egress según el patrón real de datos: para
cargas con mucho movimiento de salida, puede &lt;strong>invertir el ranking&lt;/strong> entre hyperscaler y cloud
europeo. La factura del cloud no es la GPU-hora; es la GPU-hora &lt;strong>más todo lo que mueves&lt;/strong>.&lt;/p>
&lt;p>A esto se suma el &lt;strong>riesgo de contrato y de lock-in&lt;/strong>: las tarifas de GPU on-demand del hyperscaler
pueden cambiar, los descuentos por compromiso (reserved/savings plans) atan a 1–3 años, y migrar
fuera —por el egress y por el acoplamiento a servicios propietarios— tiene un coste de salida real. El
on-prem y el cloud europeo con APIs estándar (Kubernetes, S3 compatible) reducen ese acoplamiento: el
mismo manifiesto y el mismo vLLM corren en tu cluster o en Scaleway sin reescribir. La soberanía
&lt;strong>operativa&lt;/strong> —poder mover la carga sin reconstruirla— es un valor que no aparece en la tarifa pero
pesa en una decisión a tres años.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-rendimiento-el-proveedor-no-decide-el-goodput-sí">El eje de rendimiento: el proveedor no decide, el goodput sí&lt;/h2>
&lt;p>Un punto que simplifica la síntesis: &lt;strong>el rendimiento no depende del proveedor, depende del hardware
y la configuración&lt;/strong>. Una H100 da el mismo goodput en tu cluster, en Scaleway o en AWS, servida con
el mismo vLLM y la misma config. Lo que decide el rendimiento es el &lt;strong>goodput bajo tu SLO&lt;/strong> (track B),
no quién aloja la GPU. Por tanto, en una comparación a igualdad de hardware, el eje de rendimiento
&lt;strong>se neutraliza&lt;/strong>: lo que cambia entre opciones es el coste, la energía y la soberanía. La excepción:
si un proveedor te da acceso a hardware más nuevo (B200, GB200) antes que tu ciclo de compra on-prem,
ahí el cloud puede ganar en rendimiento por GPU —un argumento real a favor del cloud para estar en la
frontera del hardware sin capex—.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-energía-la-ventaja-europea-y-española">El eje de energía: la ventaja europea y española&lt;/h2>
&lt;p>Aquí el on-prem (o el cloud) &lt;strong>en España/Francia&lt;/strong> tiene una ventaja estructural sobre un hyperscaler
en una región sucia. Recordando los datos del track de energía:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Ubicación&lt;/th>
&lt;th>Carbono red (gCO₂/kWh)&lt;/th>
&lt;th>Precio (orientativo)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Francia (nuclear)&lt;/td>
&lt;td>~20–60&lt;/td>
&lt;td>bajo y estable&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>España (renovable + gas)&lt;/td>
&lt;td>~150–170&lt;/td>
&lt;td>bajo, volátil; PPA solar ~32,5 €/MWh&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Alemania&lt;/td>
&lt;td>~363&lt;/td>
&lt;td>alto&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Hyperscaler (región según proveedor)&lt;/td>
&lt;td>depende; a menudo no elegible&lt;/td>
&lt;td>tarifa del proveedor&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Una misma carga en &lt;strong>Francia emite ~9× menos carbono por token que en Alemania&lt;/strong>, y en España, con
&lt;strong>PPA solar a 32,5 €/MWh&lt;/strong> (mínimo histórico), el coste eléctrico —el 30–50 % del TCO— es bajo y, con
contrato, predecible. Un cluster soberano en España o Francia controla &lt;strong>dónde&lt;/strong> se consume la energía
y con qué carbono; un hyperscaler te da la región que te da, a menudo sin elección de intensidad de
red. Para el reporte CSRD, esa elegibilidad es una ventaja cuantificable del on-prem/cloud europeo.&lt;/p>
&lt;p>En números concretos: el nodo 8×H100 del ejemplo (~10,4 kW × PUE 1,3 ≈ 118.000 kWh/año) emite, según
la red, &lt;strong>~2,4 t CO₂/año en Francia&lt;/strong> (~20 gCO₂/kWh) frente a &lt;strong>~43 t CO₂/año en Alemania&lt;/strong>
(~363 gCO₂/kWh) —la misma máquina, el mismo trabajo, &lt;strong>~18× de diferencia&lt;/strong> en huella reportable por
elegir la ubicación—. Esa decisión, que un hyperscaler en una región impuesta no te deja tomar, es
exactamente lo que el on-prem y el cloud europeo soberano ponen en tus manos. El eje de energía no es
un detalle ambiental: es coste (precio del kWh), cumplimiento (CSRD) y soberanía (control de la
ubicación) a la vez.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-soberanía-el-que-no-depende-de-la-utilización">El eje de soberanía: el que no depende de la utilización&lt;/h2>
&lt;p>Y aquí está el eje que &lt;strong>invalida&lt;/strong> la opción más barata si el dato es sensible. Los hyperscalers
estadounidenses están sujetos a la &lt;strong>US CLOUD Act&lt;/strong>: las autoridades de EE. UU. pueden requerir datos
alojados por una empresa estadounidense &lt;strong>aunque estén en un datacenter europeo&lt;/strong>. Para datos sujetos
a &lt;strong>RGPD&lt;/strong>, eso es un riesgo de cumplimiento. Los &lt;strong>cloud soberanos europeos&lt;/strong> operan bajo
&lt;strong>jurisdicción UE/EFTA&lt;/strong>, dando residencia del dato y cumplimiento RGPD, y están &lt;strong>exentos de la US
CLOUD Act&lt;/strong> (&lt;a href="https://lyceum.technology/magazine/sovereign-cloud-providers-2026/">Lyceum · sovereign providers&lt;/a>).
El on-prem propio es el grado máximo de soberanía: el dato no sale de tu cluster.&lt;/p>
&lt;p>La diferencia clave con los otros ejes: la soberanía &lt;strong>no depende de la utilización ni del volumen&lt;/strong>.
Por mucho que un hyperscaler abarate la GPU-hora, para datos RGPD &lt;strong>no es una opción&lt;/strong> —el riesgo de
jurisdicción no se compensa con precio—. Enlaza con &lt;a href="https://blog.lo0.es/posts/controles-tecnicos-ens-42001-eu-ai-act/">los controles ENS × ISO 42001 × EU AI Act&lt;/a>
y &lt;a href="https://blog.lo0.es/posts/eu-ai-act-mapeo-arquitectura-llm-on-premise/">el mapeo del EU AI Act&lt;/a>: el cumplimiento
es una restricción dura, no un eje a optimizar.&lt;/p>
&lt;p>Los &lt;strong>cuatro instrumentos&lt;/strong> que convierten la soberanía en una restricción concreta, no en un eslogan:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Instrumento&lt;/th>
&lt;th>Qué obliga&lt;/th>
&lt;th>Implicación para la arquitectura&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>US CLOUD Act&lt;/strong>&lt;/td>
&lt;td>da a EE. UU. acceso a datos de empresas estadounidenses, estén donde estén&lt;/td>
&lt;td>un hyperscaler US no garantiza residencia jurisdiccional aunque el datacenter esté en la UE&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RGPD&lt;/strong>&lt;/td>
&lt;td>residencia y tratamiento del dato personal bajo derecho UE&lt;/td>
&lt;td>exige proveedor UE/EFTA o hierro propio para datos personales&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>EU AI Act&lt;/strong>&lt;/td>
&lt;td>trazabilidad, gestión de riesgo y registros para sistemas de IA&lt;/td>
&lt;td>favorece el control total del stack (logs, datasets, modelos) que da el on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>CSRD&lt;/strong>&lt;/td>
&lt;td>reporte verificable de huella ambiental&lt;/td>
&lt;td>la energía elegible (red limpia, PPA) del on-prem/cloud europeo es auditable&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La conclusión operativa: para una entidad europea que trate datos personales o despliegue IA de
riesgo, &lt;strong>tres de los cuatro ejes técnicos pueden favorecer al hyperscaler y aun así perder&lt;/strong>, porque
el cuarto eje —soberanía— actúa como filtro previo. Por eso S2 ordena la decisión así: &lt;strong>primero el
filtro de soberanía&lt;/strong> (descarta el hyperscaler para datos RGPD), &lt;strong>después la optimización de coste,
rendimiento y energía&lt;/strong> entre las opciones que pasan el filtro (on-prem soberano y cloud europeo).&lt;/p>
&lt;hr>
&lt;h2 id="el-cuadro-de-mando-las-tres-opciones-puntuadas">El cuadro de mando: las tres opciones puntuadas&lt;/h2>
&lt;p>Cruzando los cuatro ejes para las tres opciones realistas de una plataforma europea (cifras de orden
de magnitud, ilustrativas):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Opción&lt;/th>
&lt;th>Coste/1M tok&lt;/th>
&lt;th>Break-even&lt;/th>
&lt;th>Energía/carbono&lt;/th>
&lt;th>Soberanía&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-prem soberano (ES/FR)&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~1,1 €&lt;/strong> (alta util.) / ~3 € (baja)&lt;/td>
&lt;td>&amp;gt;65–70 % util.&lt;/td>
&lt;td>controlable (red limpia, PPA)&lt;/td>
&lt;td>&lt;strong>total (UE)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cloud europeo soberano&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~1,5–2,2 €&lt;/strong>&lt;/td>
&lt;td>sin capex, paga uso&lt;/td>
&lt;td>UE, zero-egress&lt;/td>
&lt;td>&lt;strong>alta (UE)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hyperscaler (US)&lt;/strong>&lt;/td>
&lt;td>~2–3,5 € + egress&lt;/td>
&lt;td>sin capex&lt;/td>
&lt;td>región impuesta&lt;/td>
&lt;td>&lt;strong>no UE (CLOUD Act)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;div class="diagram" style="max-width:780px;margin:1rem auto;">
&lt;svg viewBox="0 0 780 220" role="img" aria-label="Cuadro de mando: on-prem soberano, cloud europeo soberano y hyperscaler puntuados en coste, energia y soberania; el hyperscaler pierde la soberania" xmlns="http://www.w3.org/2000/svg">
&lt;style>.bx{fill:none;stroke:currentColor;stroke-width:1.3}.tl{font:600 12px sans-serif;fill:currentColor}.ts{font:11px sans-serif;fill:currentColor}&lt;/style>
&lt;rect class="bx" x="20" y="40" width="230" height="130" rx="6"/>
&lt;text x="32" y="62" class="tl">On-prem soberano (ES/FR)&lt;/text>
&lt;text x="32" y="84" class="ts">coste: el más bajo SI util. alta&lt;/text>
&lt;text x="32" y="104" class="ts">energía: controlable (PPA, red)&lt;/text>
&lt;text x="32" y="124" class="ts">soberanía: TOTAL&lt;/text>
&lt;text x="32" y="148" class="ts">riesgo: capex + utilización&lt;/text>
&lt;rect class="bx" x="275" y="40" width="230" height="130" rx="6"/>
&lt;text x="287" y="62" class="tl">Cloud europeo soberano&lt;/text>
&lt;text x="287" y="84" class="ts">coste: medio, sin capex&lt;/text>
&lt;text x="287" y="104" class="ts">energía: UE, zero-egress&lt;/text>
&lt;text x="287" y="124" class="ts">soberanía: ALTA (UE)&lt;/text>
&lt;text x="287" y="148" class="ts">riesgo: precio por uso&lt;/text>
&lt;rect class="bx" x="530" y="40" width="230" height="130" rx="6"/>
&lt;text x="542" y="62" class="tl">Hyperscaler (US)&lt;/text>
&lt;text x="542" y="84" class="ts">coste: medio + egress&lt;/text>
&lt;text x="542" y="104" class="ts">energía: región impuesta&lt;/text>
&lt;text x="542" y="124" class="ts">soberanía: NO UE ✗&lt;/text>
&lt;text x="542" y="148" class="ts">descartado para datos RGPD&lt;/text>
&lt;text x="20" y="200" class="ts">Para datos RGPD, el hyperscaler queda fuera por soberanía, por barato que sea. La decisión real es on-prem vs cloud europeo.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>La lectura del cuadro: para datos sujetos a RGPD, &lt;strong>el hyperscaler estadounidense queda descartado por
el eje de soberanía&lt;/strong>, por competitiva que sea su tarifa. La decisión real se reduce a &lt;strong>on-prem
soberano vs cloud europeo soberano&lt;/strong>, y ahí la decide la &lt;strong>utilización&lt;/strong> y el &lt;strong>volumen&lt;/strong>.&lt;/p>
&lt;hr>
&lt;h2 id="cuándo-gana-cada-opción">Cuándo gana cada opción&lt;/h2>
&lt;p>La recomendación honesta, por escenario:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Escenario&lt;/th>
&lt;th>Opción que gana&lt;/th>
&lt;th>Por qué&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Volumen alto y sostenido (util. &amp;gt;65–70 %), datos RGPD&lt;/td>
&lt;td>&lt;strong>On-prem soberano&lt;/strong>&lt;/td>
&lt;td>el coste/token más bajo + soberanía total&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Volumen variable o en crecimiento, datos RGPD&lt;/td>
&lt;td>&lt;strong>Cloud europeo soberano&lt;/strong>&lt;/td>
&lt;td>soberanía sin riesgo de capex/idle&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Volumen bajo o pico esporádico&lt;/td>
&lt;td>&lt;strong>Cloud europeo (uso)&lt;/strong>&lt;/td>
&lt;td>no amortizas el capex&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Sin requisito de soberanía, frontera de hardware&lt;/td>
&lt;td>Hyperscaler&lt;/td>
&lt;td>acceso a hardware nuevo sin capex&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Híbrido (base + pico)&lt;/td>
&lt;td>&lt;strong>On-prem + cloud europeo (burst)&lt;/strong>&lt;/td>
&lt;td>base barata propia, pico elástico soberano&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El on-prem tiene sentido cuando hay &lt;strong>utilización muy alta y predecible (80 %+), requisitos estrictos
de soberanía, o un contrato hyperscaler que sale caro&lt;/strong> (&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>).
Para plataformas soberanas con carga base sostenida, el patrón ganador suele ser el
&lt;strong>híbrido&lt;/strong>: on-prem soberano para la &lt;strong>base de alta utilización&lt;/strong> (donde el coste/token es imbatible)
y &lt;strong>cloud europeo soberano para el pico y el crecimiento&lt;/strong> (elástico, sin capex, manteniendo la
jurisdicción UE). Lo mejor de los dos sin ceder soberanía.&lt;/p>
&lt;h3 id="dimensionar-el-híbrido-cuánto-en-hierro-cuánto-en-cloud">Dimensionar el híbrido: cuánto en hierro, cuánto en cloud&lt;/h3>
&lt;p>El híbrido no es &amp;ldquo;un poco de cada&amp;rdquo;; se dimensiona con un dato: el &lt;strong>percentil de carga base&lt;/strong>. La
regla es poner en on-prem la &lt;strong>carga que está casi siempre presente&lt;/strong> (la que mantiene la GPU al
75–85 %) y enviar al cloud europeo &lt;strong>solo los picos&lt;/strong> que, de cubrirse con hierro, dejarían GPUs
paradas la mayor parte del tiempo. Un ejemplo con un perfil de tráfico realista:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Franja de carga&lt;/th>
&lt;th>% del tiempo&lt;/th>
&lt;th>Dónde servir&lt;/th>
&lt;th>Por qué&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Base (p0–p70)&lt;/td>
&lt;td>siempre&lt;/td>
&lt;td>&lt;strong>on-prem&lt;/strong> (1 nodo 8×H100 al ~80 %)&lt;/td>
&lt;td>coste/token mínimo, util. alta garantizada&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Media (p70–p95)&lt;/td>
&lt;td>horas pico diarias&lt;/td>
&lt;td>&lt;strong>on-prem si cabe, si no cloud europeo&lt;/strong>&lt;/td>
&lt;td>elasticidad sin capex ocioso&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Pico (p95–p100)&lt;/td>
&lt;td>esporádico&lt;/td>
&lt;td>&lt;strong>cloud europeo soberano (burst)&lt;/strong>&lt;/td>
&lt;td>absurdo comprar hierro para un pico raro&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Con este reparto, &lt;strong>la base amortiza el nodo propio a utilización alta&lt;/strong> (~1,1–1,8 €/1M tokens) y el
&lt;strong>pico se paga por uso&lt;/strong> sin penalización de idle (~1,5–2,2 €/1M tokens), todo bajo jurisdicción UE.
El error caro es el contrario: dimensionar el on-prem para el &lt;strong>pico&lt;/strong> —entonces la GPU pasa la mayor
parte del tiempo parada al 30–40 %, el coste/token se dispara a &amp;gt;3 € y el cloud habría sido más
barato—. &lt;strong>Se dimensiona el hierro para la base, no para el pico&lt;/strong>; el pico es justo lo que el cloud
hace bien. Este principio conecta con el capacity planning y el scheduling (Kueue/Volcano) de la
serie: el híbrido solo funciona si el scheduler &lt;strong>llena&lt;/strong> el nodo propio antes de desbordar al cloud.&lt;/p>
&lt;hr>
&lt;h2 id="supuestos-y-sensibilidad">Supuestos y sensibilidad&lt;/h2>
&lt;p>Toda la comparación cuelga de unos supuestos que hay que declarar, porque moverlos mueve la
conclusión:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Supuesto&lt;/th>
&lt;th>Si sube&lt;/th>
&lt;th>Efecto&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Utilización&lt;/strong>&lt;/td>
&lt;td>50 % → 80 %&lt;/td>
&lt;td>el on-prem pasa de perder a ganar claramente&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Precio de energía&lt;/strong>&lt;/td>
&lt;td>región cara → Francia/PPA&lt;/td>
&lt;td>baja el TCO on-prem y el carbono&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Plazo de amortización&lt;/strong>&lt;/td>
&lt;td>24 → 36 meses&lt;/td>
&lt;td>baja el coste/hora on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Volumen&lt;/strong>&lt;/td>
&lt;td>&amp;lt; 2M tok/día → mucho más&lt;/td>
&lt;td>cruza el break-even hacia on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Egress (hyperscaler)&lt;/strong>&lt;/td>
&lt;td>bajo → alto&lt;/td>
&lt;td>encarece el hyperscaler frente al cloud europeo&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La regla: &lt;strong>ninguna comparación on-prem vs cloud es válida sin fijar estos supuestos&lt;/strong>. Una que diga
&amp;ldquo;on-prem es 3× más barato&amp;rdquo; sin declarar la utilización asumida es propaganda; una que fije utilización,
precio de energía, plazo y volumen es un dato. El dossier debe presentar el caso con los supuestos
explícitos y un análisis de sensibilidad —es lo que lo hace defendible ante un comité que los
cuestione.&lt;/p>
&lt;h2 id="checklist-de-decisión">Checklist de decisión&lt;/h2>
&lt;p>Para llevar S2 de la teoría a la decisión, las preguntas que ordenan la elección, en orden:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>¿Los datos están sujetos a RGPD o el sistema es de riesgo bajo el EU AI Act?&lt;/strong> Si sí, el
hyperscaler US queda &lt;strong>descartado por soberanía&lt;/strong>; decides entre on-prem y cloud europeo. Si no,
el hyperscaler entra en la comparación de coste.&lt;/li>
&lt;li>&lt;strong>¿Puedo sostener una utilización &amp;gt;65–70 % en la carga base?&lt;/strong> Si sí, el on-prem gana en coste
para esa base. Si no, el cloud europeo evita pagar capex por GPUs paradas.&lt;/li>
&lt;li>&lt;strong>¿El perfil de tráfico tiene picos marcados?&lt;/strong> Si sí, &lt;strong>híbrido&lt;/strong>: base en hierro, pico en cloud
europeo. Dimensiona el hierro para la base, nunca para el pico.&lt;/li>
&lt;li>&lt;strong>¿Cuánto dato saco del proveedor al mes?&lt;/strong> Modela el egress; con mucho movimiento, el zero-egress
del cloud europeo o el on-prem ganan claramente.&lt;/li>
&lt;li>&lt;strong>¿Qué red eléctrica y a qué precio?&lt;/strong> Francia/España con PPA bajan TCO y carbono; inclúyelo en el
modelo y en el reporte CSRD.&lt;/li>
&lt;li>&lt;strong>¿He fijado utilización, energía, plazo y volumen por escrito?&lt;/strong> Sin esos cuatro supuestos
declarados, el número no es defendible.&lt;/li>
&lt;/ol>
&lt;p>Quien responda estas seis preguntas con datos —no con intuición— tiene el caso construido. La
recomendación de la serie para una plataforma soberana europea con carga base sostenida es estable:
&lt;strong>on-prem soberano para la base de alta utilización + cloud europeo soberano para el pico&lt;/strong>, con el
hyperscaler reservado solo para cargas sin requisito de soberanía donde se necesite hardware en la
frontera sin capex.&lt;/p>
&lt;hr>
&lt;h2 id="límites-y-trampas-data-driven">Límites y trampas (data-driven)&lt;/h2>
&lt;ol>
&lt;li>&lt;strong>Utilización asumida irreal.&lt;/strong> El 80–90 % que hace ganar al on-prem rara vez se da en producción
(40–65 % típico). Modela tu utilización real, no la ideal.&lt;/li>
&lt;li>&lt;strong>Comparar solo la GPU-hora.&lt;/strong> El TCO incluye energía, operación, refrigeración, egress (cloud) y
capex (on-prem). Compara totales con los mismos supuestos.&lt;/li>
&lt;li>&lt;strong>Ignorar la soberanía.&lt;/strong> Para datos RGPD, el eje de soberanía descarta el hyperscaler antes que el
coste; no es negociable con precio.&lt;/li>
&lt;li>&lt;strong>Olvidar el híbrido.&lt;/strong> No es &amp;ldquo;todo on-prem o todo cloud&amp;rdquo;; el patrón base+pico suele dominar.&lt;/li>
&lt;li>&lt;strong>Datos en USD.&lt;/strong> Las comparativas estadounidenses están en dólares y con regiones sucias;
reconviértelas a euros y a la red de tu región (España/Francia) para tu caso.&lt;/li>
&lt;/ol>
&lt;p>La síntesis de S2, en una frase: &lt;strong>para datos soberanos europeos, la decisión no es on-prem vs cloud
en abstracto, sino on-prem soberano (alta utilización) + cloud europeo soberano (pico) frente a un
hyperscaler que el eje de soberanía descarta&lt;/strong> —y la utilización es la variable que reparte la base
entre las dos primeras. El resto de la serie da los números de cada eje; este los cruza en la
recomendación. El siguiente artículo de síntesis (S3) dimensiona la inversión; este decide la
arquitectura.&lt;/p>
&lt;h2 id="ver-también">Ver también&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/">Cloud GPU: comparativa de precios, compromiso y neoclouds soberanos&lt;/a> — los precios on-demand, spot y reserved de los proveedores cloud europeos que aparecen como alternativa en este análisis, con datos actualizados de 2026.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/">TCO del cluster GPU on-premise: amortización, energía e infraestructura&lt;/a> — el desglose completo del TCO on-premise: CAPEX de servidores, amortización, energía, red y personal, con la hoja de cálculo que da el €/GPU-hora real.&lt;/li>
&lt;/ul>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Spheron · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even — &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/&lt;/a>&lt;/li>
&lt;li>Lenovo Press · On-Premise vs Cloud: Generative AI TCO (2026) — &lt;a href="https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition">https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition&lt;/a>&lt;/li>
&lt;li>Lyceum · EU Sovereign Inference Platform Comparison (2026) — &lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/&lt;/a>&lt;/li>
&lt;li>Lyceum · Sovereign Cloud Providers 2026 — &lt;a href="https://lyceum.technology/magazine/sovereign-cloud-providers-2026/">https://lyceum.technology/magazine/sovereign-cloud-providers-2026/&lt;/a>&lt;/li>
&lt;li>Scaleway · H100 GPU instance (precio €, soberanía UE) — &lt;a href="https://www.scaleway.com/en/h100/">https://www.scaleway.com/en/h100/&lt;/a>&lt;/li>
&lt;li>Nerd Level Tech · GPU Cloud TCO 2026: hidden fees, egress costs — &lt;a href="https://nerdleveltech.com/gpu-cloud-comparison-2026-the-real-cost-of-ai-compute">https://nerdleveltech.com/gpu-cloud-comparison-2026-the-real-cost-of-ai-compute&lt;/a>&lt;/li>
&lt;/ul></description></item></channel></rss>