<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Cloud-Europeo on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/cloud-europeo/</link><description>Recent content in Cloud-Europeo on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Sun, 14 Jun 2026 05:30:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/cloud-europeo/index.xml" rel="self" type="application/rss+xml"/><item><title>On-premise soberano vs hyperscalers: el caso con datos (coste, energía, rendimiento y soberanía)</title><link>https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/</link><pubDate>Sun, 14 Jun 2026 05:30:00 +0200</pubDate><guid>https://blog.lo0.es/posts/on-premise-soberano-vs-hyperscalers-datos/</guid><description>&lt;blockquote>
&lt;p>Notación: importes en &lt;strong>euros (N €)&lt;/strong>, decimales con coma; cuando una fuente cita dólares se indica
&amp;ldquo;USD&amp;rdquo;. Datos centrados en Europa/España. No se usa el símbolo de dólar (delimitador de fórmula).&lt;/p>
&lt;/blockquote>
&lt;h2 id="qué-cubre-este-artículo">Qué cubre este artículo&lt;/h2>
&lt;p>Artículo de &lt;strong>síntesis&lt;/strong> de la serie (S2), y el corazón de la propuesta: el caso con datos del
&lt;strong>on-premise soberano&lt;/strong> frente a los &lt;strong>hyperscalers&lt;/strong> y el &lt;strong>cloud europeo&lt;/strong>. Hasta aquí, cada track
midió su eje —coste por token (FinOps), goodput (benchmarking), energía y carbono—; aquí se cruzan los
cuatro, con una cuarta dimensión que ninguna comparativa técnica estadounidense pone delante: la
&lt;strong>soberanía del dato&lt;/strong>. El objetivo es responder, con números y no con ideología, la pregunta que
sostiene cualquier inversión en plataforma de IA: &lt;strong>¿servir en hierro propio, en cloud europeo o en
un hyperscaler?&lt;/strong> Y hacerlo con honestidad: el on-prem &lt;strong>no siempre gana&lt;/strong>, y decir cuándo gana y
cuándo no es lo que hace creíble la recomendación.&lt;/p>
&lt;hr>
&lt;h2 id="el-marco-cuatro-ejes-no-un-número">El marco: cuatro ejes, no un número&lt;/h2>
&lt;p>El error de casi todas las comparativas es reducir la decisión al coste por hora de una GPU. La
decisión real cruza &lt;strong>cuatro ejes&lt;/strong>, y solo viéndolos juntos se decide bien:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Eje&lt;/th>
&lt;th>Pregunta&lt;/th>
&lt;th>Quién lo mide en la serie&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Coste (TCO)&lt;/strong>&lt;/td>
&lt;td>¿cuánto cuesta servir, todo incluido?&lt;/td>
&lt;td>FinOps (A2–A8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Rendimiento&lt;/strong>&lt;/td>
&lt;td>¿cumple el SLO, a qué goodput?&lt;/td>
&lt;td>Benchmarking (B2–B8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Energía y carbono&lt;/strong>&lt;/td>
&lt;td>¿cuántos vatios y gramos por token?&lt;/td>
&lt;td>Energía (C2–C8)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Soberanía&lt;/strong>&lt;/td>
&lt;td>¿bajo qué jurisdicción vive el dato?&lt;/td>
&lt;td>RGPD / EU AI Act / CSRD&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Los tres primeros son &lt;strong>cuantificables y se cruzan en el coste por token&lt;/strong>; el cuarto es una
&lt;strong>restricción&lt;/strong> que puede descartar una opción por barata que sea. La síntesis consiste en puntuar
cada opción en los cuatro y decidir sobre la &lt;strong>frontera de Pareto&lt;/strong>, no sobre el eje que más
convenga.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-coste-tco-y-break-even">El eje de coste: TCO y break-even&lt;/h2>
&lt;p>El coste real on-premise es capex amortizado + opex, y su coste &lt;strong>por hora efectiva&lt;/strong> depende de la
&lt;strong>utilización&lt;/strong>:&lt;/p>
&lt;p>$$\text{coste/GPU-hora efectiva (on-prem)} = \frac{\text{capex amortizado anual} + \text{opex anual}}{8760 \times \text{utilización}}$$&lt;/p>
&lt;p>Esta fórmula es la clave de todo el debate: &lt;strong>el coste por hora útil del on-prem sube al bajar la
utilización&lt;/strong>, porque el capex se paga igual esté la GPU trabajando o parada. Los datos de 2026:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Dato&lt;/th>
&lt;th>Valor&lt;/th>
&lt;th>Fuente&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Coste on-prem 8×H100 (floor, alta util.)&lt;/td>
&lt;td>~2,83 USD/GPU-hora &lt;em>all-in&lt;/em>&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Coste on-prem anual (floor)&lt;/td>
&lt;td>~237.000 USD/año&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS H100 (p5.48xlarge)&lt;/td>
&lt;td>4,10–6,88 USD/GPU-hora&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>AWS 8-GPU on-demand anual (100 % util)&lt;/td>
&lt;td>287.000–482.000 USD/año&lt;/td>
&lt;td>&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Cloud europeo soberano (Lyceum/Scaleway)&lt;/td>
&lt;td>desde &lt;strong>2–2,73 €/GPU-hora&lt;/strong>, &lt;strong>zero-egress&lt;/strong>&lt;/td>
&lt;td>&lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">Lyceum&lt;/a>, &lt;a href="https://www.scaleway.com/en/h100/">Scaleway&lt;/a>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El &lt;strong>break-even&lt;/strong> frente a AWS on-demand cae en torno al &lt;strong>50–83 % de utilización&lt;/strong> según región y
tarifa; &lt;strong>por debajo del ~70 % de utilización, el cloud gana&lt;/strong> en TCO, y por encima, el on-prem
(&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>). Para cargas de muy
alta utilización, el on-prem amortiza en &lt;strong>menos de 4 meses&lt;/strong> (&lt;a href="https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition">Lenovo&lt;/a>).&lt;/p>
&lt;h3 id="tco-a-3-años-el-cálculo-completo-de-un-nodo-8h100">TCO a 3 años: el cálculo completo de un nodo 8×H100&lt;/h3>
&lt;p>Los números abstractos no convencen a un comité; un modelo a 3 años con las partidas declaradas, sí.
Tomemos un &lt;strong>nodo 8×H100&lt;/strong> soberano en España y comparémoslo, a igualdad de trabajo, con AWS y con un
cloud europeo. Supuestos declarados: amortización a &lt;strong>3 años&lt;/strong>, energía a &lt;strong>PPA solar 32,5 €/MWh&lt;/strong>
(con red de respaldo), PUE 1,3, y dos escenarios de utilización (50 % y 80 %).&lt;/p>
&lt;p>&lt;strong>On-premise (nodo propio), partidas anuales:&lt;/strong>&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Partida&lt;/th>
&lt;th>Valor anual&lt;/th>
&lt;th>Nota&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Capex amortizado (nodo ~270.000 € / 3 años)&lt;/td>
&lt;td>~90.000 €&lt;/td>
&lt;td>servidor 8×H100 + red + almacenamiento&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Energía (≈10,4 kW × PUE 1,3 × 8760 h)&lt;/td>
&lt;td>~3.850 € (a 32,5 €/MWh)&lt;/td>
&lt;td>con PPA solar; a tarifa de red, ~12–18 k €&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Operación, refrigeración, mantenimiento&lt;/td>
&lt;td>~25.000 €&lt;/td>
&lt;td>personal prorrateado, soporte, recambios&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Espacio en datacenter (rack, conectividad)&lt;/td>
&lt;td>~12.000 €&lt;/td>
&lt;td>colocation o CPD propio&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Total anual&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~131.000 €&lt;/strong>&lt;/td>
&lt;td>independiente de la utilización&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>A &lt;strong>131.000 €/año&lt;/strong> fijos, el coste &lt;strong>por token&lt;/strong> depende solo de cuántos tokens generes, es decir,
de la utilización:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Utilización&lt;/th>
&lt;th>GPU-horas útiles/año&lt;/th>
&lt;th>Coste/1M tokens&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>50 %&lt;/td>
&lt;td>~35.000&lt;/td>
&lt;td>&lt;strong>~2,9 €&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>65 %&lt;/td>
&lt;td>~45.500&lt;/td>
&lt;td>&lt;strong>~2,2 €&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>80 %&lt;/td>
&lt;td>~56.000&lt;/td>
&lt;td>&lt;strong>~1,8 €&lt;/strong> (con red barata, ~1,1 €)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Cloud europeo soberano (Scaleway/Lyceum), pago por uso:&lt;/strong> a ~2,2 €/GPU-hora con zero-egress, el
coste por token es &lt;strong>constante con la utilización&lt;/strong> (solo pagas lo que usas): ~&lt;strong>1,5–2,2 €/1M tokens&lt;/strong>
según modelo y batching, sin capex ni riesgo de idle.&lt;/p>
&lt;p>&lt;strong>Hyperscaler (AWS p5), on-demand:&lt;/strong> a 4,10–6,88 USD/GPU-hora (≈3,8–6,4 €), el coste por token sale
&lt;strong>~2–3,5 €/1M tokens&lt;/strong> —y a eso hay que &lt;strong>sumar el egress&lt;/strong>—, sin contar que para datos RGPD el eje de
soberanía ya lo descarta.&lt;/p>
&lt;p>La lectura del modelo es la tesis de todo S2: &lt;strong>al 50 % de utilización, el on-prem (~2,9 €) no le gana
al cloud europeo (~1,8 €); al 80 % con energía barata (~1,1 €), lo bate con holgura&lt;/strong>. El
cruce está, como dice la literatura, en torno al &lt;strong>65–70 %&lt;/strong>. La inversión en on-prem es, en el fondo,
una apuesta a que sostendrás una utilización alta —y esa apuesta se gana con scheduling, no con
hardware—.&lt;/p>
&lt;div class="diagram" style="max-width:780px;margin:1rem auto;">
&lt;svg viewBox="0 0 780 250" role="img" aria-label="Break-even on-prem vs cloud segun utilizacion: el coste por hora util del on-prem baja con la utilizacion y cruza al del cloud en torno al 65-70 por ciento" xmlns="http://www.w3.org/2000/svg">
&lt;style>.ax{fill:none;stroke:currentColor;stroke-width:1}.cv{fill:none;stroke:currentColor;stroke-width:1.6}.dsh{fill:none;stroke:currentColor;stroke-width:1;stroke-dasharray:4 3}.tl{font:600 12px sans-serif;fill:currentColor}.ts{font:11px sans-serif;fill:currentColor}&lt;/style>
&lt;line class="ax" x1="60" y1="40" x2="60" y2="200"/>
&lt;line class="ax" x1="60" y1="200" x2="720" y2="200"/>
&lt;text x="20" y="130" class="ts" transform="rotate(-90 20 130)">coste/hora útil&lt;/text>
&lt;text x="330" y="228" class="ts">utilización (%) →&lt;/text>
&lt;path class="cv" d="M90,55 C200,90 320,130 430,150 C540,165 640,172 700,175"/>
&lt;text x="95" y="50" class="ts">on-prem (capex fijo)&lt;/text>
&lt;line class="cv" x1="60" y1="150" x2="720" y2="150"/>
&lt;text x="600" y="143" class="ts">cloud (≈ plano)&lt;/text>
&lt;line class="dsh" x1="430" y1="40" x2="430" y2="200"/>
&lt;text x="392" y="56" class="tl">break-even ~65-70%&lt;/text>
&lt;text x="110" y="190" class="ts">util. baja: cloud gana&lt;/text>
&lt;text x="520" y="190" class="ts">util. alta: on-prem gana&lt;/text>
&lt;text x="60" y="245" class="ts">El on-prem solo gana a la derecha del break-even; el capex fijo lo penaliza a baja utilización.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;hr>
&lt;h2 id="la-realidad-incómoda-la-utilización-que-casi-nadie-alcanza">La realidad incómoda: la utilización que casi nadie alcanza&lt;/h2>
&lt;p>Aquí está el dato honesto que falta en los discursos de &amp;ldquo;on-prem siempre es más barato&amp;rdquo;: &lt;strong>la
mayoría de los equipos de inferencia en producción operan al 40–65 % de utilización de GPU&lt;/strong>, por la
variabilidad del tráfico y los límites del batching; la suposición de 80–90 % que hace atractivo el
on-prem &lt;strong>rara vez se alcanza fuera de pipelines solo-batch&lt;/strong> (&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>).&lt;/p>
&lt;p>Esto cambia la conclusión ingenua: si tu utilización real es del 50 %, el on-prem &lt;strong>no es más barato&lt;/strong>
que el cloud —el capex que pagas por la GPU parada te lo come—. Por eso la utilización no es un
detalle, es &lt;strong>la variable que decide el eje de coste&lt;/strong>, y conecta directamente con el track de FinOps
(el idle de A2, el chargeback de A5) y con el scheduling: &lt;strong>subir la utilización es lo que hace
rentable el on-prem&lt;/strong>. Un cluster propio mal aprovechado es más caro que el cloud; uno bien
schedulado, mucho más barato. La pregunta de coste no es &amp;ldquo;¿on-prem o cloud?&amp;rdquo;, es &amp;ldquo;&lt;strong>¿puedo sostener
una utilización alta?&lt;/strong>&amp;rdquo;.&lt;/p>
&lt;hr>
&lt;h2 id="los-costes-ocultos-del-cloud-el-egress">Los costes ocultos del cloud: el egress&lt;/h2>
&lt;p>El cloud tiene su propia letra pequeña: los &lt;strong>costes de egress&lt;/strong> (sacar datos del proveedor). En los
hyperscalers, mover datos fuera o entre regiones se factura, y en cargas de IA con mucho movimiento
de datos (datasets, checkpoints, embeddings) puede ser una partida significativa que no aparece en el
precio de la GPU-hora. La ventaja del &lt;strong>cloud europeo soberano&lt;/strong>: la mayoría (Lyceum, entre otros)
han adoptado el &lt;strong>modelo de zero-egress&lt;/strong> —no cobran por mover datos fuera ni entre regiones
(&lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">Lyceum&lt;/a>)—. Al
comparar, el coste real del hyperscaler es &lt;strong>GPU-hora + egress + otros cargos&lt;/strong>, no solo la GPU-hora;
ignorarlo infla artificialmente la competitividad del hyperscaler.&lt;/p>
&lt;p>Un ejemplo del orden de magnitud: una plataforma que mueva &lt;strong>50 TB/mes&lt;/strong> de salida (datasets,
checkpoints, respuestas servidas a sistemas fuera del proveedor) a una tarifa de egress típica de
~0,08–0,09 €/GB paga &lt;strong>~4.000–4.500 €/mes&lt;/strong>, es decir &lt;strong>~50.000 €/año solo en egress&lt;/strong> —una partida
del tamaño de un tercio del coste de un nodo propio, invisible en el precio de la GPU-hora—. En el
cloud europeo con &lt;strong>zero-egress&lt;/strong> esa partida es &lt;strong>cero&lt;/strong>; en el on-prem, el tráfico interno tampoco
se factura. Por eso una comparación justa debe modelar el egress según el patrón real de datos: para
cargas con mucho movimiento de salida, puede &lt;strong>invertir el ranking&lt;/strong> entre hyperscaler y cloud
europeo. La factura del cloud no es la GPU-hora; es la GPU-hora &lt;strong>más todo lo que mueves&lt;/strong>.&lt;/p>
&lt;p>A esto se suma el &lt;strong>riesgo de contrato y de lock-in&lt;/strong>: las tarifas de GPU on-demand del hyperscaler
pueden cambiar, los descuentos por compromiso (reserved/savings plans) atan a 1–3 años, y migrar
fuera —por el egress y por el acoplamiento a servicios propietarios— tiene un coste de salida real. El
on-prem y el cloud europeo con APIs estándar (Kubernetes, S3 compatible) reducen ese acoplamiento: el
mismo manifiesto y el mismo vLLM corren en tu cluster o en Scaleway sin reescribir. La soberanía
&lt;strong>operativa&lt;/strong> —poder mover la carga sin reconstruirla— es un valor que no aparece en la tarifa pero
pesa en una decisión a tres años.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-rendimiento-el-proveedor-no-decide-el-goodput-sí">El eje de rendimiento: el proveedor no decide, el goodput sí&lt;/h2>
&lt;p>Un punto que simplifica la síntesis: &lt;strong>el rendimiento no depende del proveedor, depende del hardware
y la configuración&lt;/strong>. Una H100 da el mismo goodput en tu cluster, en Scaleway o en AWS, servida con
el mismo vLLM y la misma config. Lo que decide el rendimiento es el &lt;strong>goodput bajo tu SLO&lt;/strong> (track B),
no quién aloja la GPU. Por tanto, en una comparación a igualdad de hardware, el eje de rendimiento
&lt;strong>se neutraliza&lt;/strong>: lo que cambia entre opciones es el coste, la energía y la soberanía. La excepción:
si un proveedor te da acceso a hardware más nuevo (B200, GB200) antes que tu ciclo de compra on-prem,
ahí el cloud puede ganar en rendimiento por GPU —un argumento real a favor del cloud para estar en la
frontera del hardware sin capex—.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-energía-la-ventaja-europea-y-española">El eje de energía: la ventaja europea y española&lt;/h2>
&lt;p>Aquí el on-prem (o el cloud) &lt;strong>en España/Francia&lt;/strong> tiene una ventaja estructural sobre un hyperscaler
en una región sucia. Recordando los datos del track de energía:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Ubicación&lt;/th>
&lt;th>Carbono red (gCO₂/kWh)&lt;/th>
&lt;th>Precio (orientativo)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Francia (nuclear)&lt;/td>
&lt;td>~20–60&lt;/td>
&lt;td>bajo y estable&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>España (renovable + gas)&lt;/td>
&lt;td>~150–170&lt;/td>
&lt;td>bajo, volátil; PPA solar ~32,5 €/MWh&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Alemania&lt;/td>
&lt;td>~363&lt;/td>
&lt;td>alto&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Hyperscaler (región según proveedor)&lt;/td>
&lt;td>depende; a menudo no elegible&lt;/td>
&lt;td>tarifa del proveedor&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Una misma carga en &lt;strong>Francia emite ~9× menos carbono por token que en Alemania&lt;/strong>, y en España, con
&lt;strong>PPA solar a 32,5 €/MWh&lt;/strong> (mínimo histórico), el coste eléctrico —el 30–50 % del TCO— es bajo y, con
contrato, predecible. Un cluster soberano en España o Francia controla &lt;strong>dónde&lt;/strong> se consume la energía
y con qué carbono; un hyperscaler te da la región que te da, a menudo sin elección de intensidad de
red. Para el reporte CSRD, esa elegibilidad es una ventaja cuantificable del on-prem/cloud europeo.&lt;/p>
&lt;p>En números concretos: el nodo 8×H100 del ejemplo (~10,4 kW × PUE 1,3 ≈ 118.000 kWh/año) emite, según
la red, &lt;strong>~2,4 t CO₂/año en Francia&lt;/strong> (~20 gCO₂/kWh) frente a &lt;strong>~43 t CO₂/año en Alemania&lt;/strong>
(~363 gCO₂/kWh) —la misma máquina, el mismo trabajo, &lt;strong>~18× de diferencia&lt;/strong> en huella reportable por
elegir la ubicación—. Esa decisión, que un hyperscaler en una región impuesta no te deja tomar, es
exactamente lo que el on-prem y el cloud europeo soberano ponen en tus manos. El eje de energía no es
un detalle ambiental: es coste (precio del kWh), cumplimiento (CSRD) y soberanía (control de la
ubicación) a la vez.&lt;/p>
&lt;hr>
&lt;h2 id="el-eje-de-soberanía-el-que-no-depende-de-la-utilización">El eje de soberanía: el que no depende de la utilización&lt;/h2>
&lt;p>Y aquí está el eje que &lt;strong>invalida&lt;/strong> la opción más barata si el dato es sensible. Los hyperscalers
estadounidenses están sujetos a la &lt;strong>US CLOUD Act&lt;/strong>: las autoridades de EE. UU. pueden requerir datos
alojados por una empresa estadounidense &lt;strong>aunque estén en un datacenter europeo&lt;/strong>. Para datos sujetos
a &lt;strong>RGPD&lt;/strong>, eso es un riesgo de cumplimiento. Los &lt;strong>cloud soberanos europeos&lt;/strong> operan bajo
&lt;strong>jurisdicción UE/EFTA&lt;/strong>, dando residencia del dato y cumplimiento RGPD, y están &lt;strong>exentos de la US
CLOUD Act&lt;/strong> (&lt;a href="https://lyceum.technology/magazine/sovereign-cloud-providers-2026/">Lyceum · sovereign providers&lt;/a>).
El on-prem propio es el grado máximo de soberanía: el dato no sale de tu cluster.&lt;/p>
&lt;p>La diferencia clave con los otros ejes: la soberanía &lt;strong>no depende de la utilización ni del volumen&lt;/strong>.
Por mucho que un hyperscaler abarate la GPU-hora, para datos RGPD &lt;strong>no es una opción&lt;/strong> —el riesgo de
jurisdicción no se compensa con precio—. Enlaza con &lt;a href="https://blog.lo0.es/posts/controles-tecnicos-ens-42001-eu-ai-act/">los controles ENS × ISO 42001 × EU AI Act&lt;/a>
y &lt;a href="https://blog.lo0.es/posts/eu-ai-act-mapeo-arquitectura-llm-on-premise/">el mapeo del EU AI Act&lt;/a>: el cumplimiento
es una restricción dura, no un eje a optimizar.&lt;/p>
&lt;p>Los &lt;strong>cuatro instrumentos&lt;/strong> que convierten la soberanía en una restricción concreta, no en un eslogan:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Instrumento&lt;/th>
&lt;th>Qué obliga&lt;/th>
&lt;th>Implicación para la arquitectura&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>US CLOUD Act&lt;/strong>&lt;/td>
&lt;td>da a EE. UU. acceso a datos de empresas estadounidenses, estén donde estén&lt;/td>
&lt;td>un hyperscaler US no garantiza residencia jurisdiccional aunque el datacenter esté en la UE&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>RGPD&lt;/strong>&lt;/td>
&lt;td>residencia y tratamiento del dato personal bajo derecho UE&lt;/td>
&lt;td>exige proveedor UE/EFTA o hierro propio para datos personales&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>EU AI Act&lt;/strong>&lt;/td>
&lt;td>trazabilidad, gestión de riesgo y registros para sistemas de IA&lt;/td>
&lt;td>favorece el control total del stack (logs, datasets, modelos) que da el on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>CSRD&lt;/strong>&lt;/td>
&lt;td>reporte verificable de huella ambiental&lt;/td>
&lt;td>la energía elegible (red limpia, PPA) del on-prem/cloud europeo es auditable&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La conclusión operativa: para una entidad europea que trate datos personales o despliegue IA de
riesgo, &lt;strong>tres de los cuatro ejes técnicos pueden favorecer al hyperscaler y aun así perder&lt;/strong>, porque
el cuarto eje —soberanía— actúa como filtro previo. Por eso S2 ordena la decisión así: &lt;strong>primero el
filtro de soberanía&lt;/strong> (descarta el hyperscaler para datos RGPD), &lt;strong>después la optimización de coste,
rendimiento y energía&lt;/strong> entre las opciones que pasan el filtro (on-prem soberano y cloud europeo).&lt;/p>
&lt;hr>
&lt;h2 id="el-cuadro-de-mando-las-tres-opciones-puntuadas">El cuadro de mando: las tres opciones puntuadas&lt;/h2>
&lt;p>Cruzando los cuatro ejes para las tres opciones realistas de una plataforma europea (cifras de orden
de magnitud, ilustrativas):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Opción&lt;/th>
&lt;th>Coste/1M tok&lt;/th>
&lt;th>Break-even&lt;/th>
&lt;th>Energía/carbono&lt;/th>
&lt;th>Soberanía&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>On-prem soberano (ES/FR)&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~1,1 €&lt;/strong> (alta util.) / ~3 € (baja)&lt;/td>
&lt;td>&amp;gt;65–70 % util.&lt;/td>
&lt;td>controlable (red limpia, PPA)&lt;/td>
&lt;td>&lt;strong>total (UE)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Cloud europeo soberano&lt;/strong>&lt;/td>
&lt;td>&lt;strong>~1,5–2,2 €&lt;/strong>&lt;/td>
&lt;td>sin capex, paga uso&lt;/td>
&lt;td>UE, zero-egress&lt;/td>
&lt;td>&lt;strong>alta (UE)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Hyperscaler (US)&lt;/strong>&lt;/td>
&lt;td>~2–3,5 € + egress&lt;/td>
&lt;td>sin capex&lt;/td>
&lt;td>región impuesta&lt;/td>
&lt;td>&lt;strong>no UE (CLOUD Act)&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;div class="diagram" style="max-width:780px;margin:1rem auto;">
&lt;svg viewBox="0 0 780 220" role="img" aria-label="Cuadro de mando: on-prem soberano, cloud europeo soberano y hyperscaler puntuados en coste, energia y soberania; el hyperscaler pierde la soberania" xmlns="http://www.w3.org/2000/svg">
&lt;style>.bx{fill:none;stroke:currentColor;stroke-width:1.3}.tl{font:600 12px sans-serif;fill:currentColor}.ts{font:11px sans-serif;fill:currentColor}&lt;/style>
&lt;rect class="bx" x="20" y="40" width="230" height="130" rx="6"/>
&lt;text x="32" y="62" class="tl">On-prem soberano (ES/FR)&lt;/text>
&lt;text x="32" y="84" class="ts">coste: el más bajo SI util. alta&lt;/text>
&lt;text x="32" y="104" class="ts">energía: controlable (PPA, red)&lt;/text>
&lt;text x="32" y="124" class="ts">soberanía: TOTAL&lt;/text>
&lt;text x="32" y="148" class="ts">riesgo: capex + utilización&lt;/text>
&lt;rect class="bx" x="275" y="40" width="230" height="130" rx="6"/>
&lt;text x="287" y="62" class="tl">Cloud europeo soberano&lt;/text>
&lt;text x="287" y="84" class="ts">coste: medio, sin capex&lt;/text>
&lt;text x="287" y="104" class="ts">energía: UE, zero-egress&lt;/text>
&lt;text x="287" y="124" class="ts">soberanía: ALTA (UE)&lt;/text>
&lt;text x="287" y="148" class="ts">riesgo: precio por uso&lt;/text>
&lt;rect class="bx" x="530" y="40" width="230" height="130" rx="6"/>
&lt;text x="542" y="62" class="tl">Hyperscaler (US)&lt;/text>
&lt;text x="542" y="84" class="ts">coste: medio + egress&lt;/text>
&lt;text x="542" y="104" class="ts">energía: región impuesta&lt;/text>
&lt;text x="542" y="124" class="ts">soberanía: NO UE ✗&lt;/text>
&lt;text x="542" y="148" class="ts">descartado para datos RGPD&lt;/text>
&lt;text x="20" y="200" class="ts">Para datos RGPD, el hyperscaler queda fuera por soberanía, por barato que sea. La decisión real es on-prem vs cloud europeo.&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>La lectura del cuadro: para datos sujetos a RGPD, &lt;strong>el hyperscaler estadounidense queda descartado por
el eje de soberanía&lt;/strong>, por competitiva que sea su tarifa. La decisión real se reduce a &lt;strong>on-prem
soberano vs cloud europeo soberano&lt;/strong>, y ahí la decide la &lt;strong>utilización&lt;/strong> y el &lt;strong>volumen&lt;/strong>.&lt;/p>
&lt;hr>
&lt;h2 id="cuándo-gana-cada-opción">Cuándo gana cada opción&lt;/h2>
&lt;p>La recomendación honesta, por escenario:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Escenario&lt;/th>
&lt;th>Opción que gana&lt;/th>
&lt;th>Por qué&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Volumen alto y sostenido (util. &amp;gt;65–70 %), datos RGPD&lt;/td>
&lt;td>&lt;strong>On-prem soberano&lt;/strong>&lt;/td>
&lt;td>el coste/token más bajo + soberanía total&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Volumen variable o en crecimiento, datos RGPD&lt;/td>
&lt;td>&lt;strong>Cloud europeo soberano&lt;/strong>&lt;/td>
&lt;td>soberanía sin riesgo de capex/idle&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Volumen bajo o pico esporádico&lt;/td>
&lt;td>&lt;strong>Cloud europeo (uso)&lt;/strong>&lt;/td>
&lt;td>no amortizas el capex&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Sin requisito de soberanía, frontera de hardware&lt;/td>
&lt;td>Hyperscaler&lt;/td>
&lt;td>acceso a hardware nuevo sin capex&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Híbrido (base + pico)&lt;/td>
&lt;td>&lt;strong>On-prem + cloud europeo (burst)&lt;/strong>&lt;/td>
&lt;td>base barata propia, pico elástico soberano&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>El on-prem tiene sentido cuando hay &lt;strong>utilización muy alta y predecible (80 %+), requisitos estrictos
de soberanía, o un contrato hyperscaler que sale caro&lt;/strong> (&lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">Spheron&lt;/a>).
Para plataformas soberanas con carga base sostenida, el patrón ganador suele ser el
&lt;strong>híbrido&lt;/strong>: on-prem soberano para la &lt;strong>base de alta utilización&lt;/strong> (donde el coste/token es imbatible)
y &lt;strong>cloud europeo soberano para el pico y el crecimiento&lt;/strong> (elástico, sin capex, manteniendo la
jurisdicción UE). Lo mejor de los dos sin ceder soberanía.&lt;/p>
&lt;h3 id="dimensionar-el-híbrido-cuánto-en-hierro-cuánto-en-cloud">Dimensionar el híbrido: cuánto en hierro, cuánto en cloud&lt;/h3>
&lt;p>El híbrido no es &amp;ldquo;un poco de cada&amp;rdquo;; se dimensiona con un dato: el &lt;strong>percentil de carga base&lt;/strong>. La
regla es poner en on-prem la &lt;strong>carga que está casi siempre presente&lt;/strong> (la que mantiene la GPU al
75–85 %) y enviar al cloud europeo &lt;strong>solo los picos&lt;/strong> que, de cubrirse con hierro, dejarían GPUs
paradas la mayor parte del tiempo. Un ejemplo con un perfil de tráfico realista:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Franja de carga&lt;/th>
&lt;th>% del tiempo&lt;/th>
&lt;th>Dónde servir&lt;/th>
&lt;th>Por qué&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Base (p0–p70)&lt;/td>
&lt;td>siempre&lt;/td>
&lt;td>&lt;strong>on-prem&lt;/strong> (1 nodo 8×H100 al ~80 %)&lt;/td>
&lt;td>coste/token mínimo, util. alta garantizada&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Media (p70–p95)&lt;/td>
&lt;td>horas pico diarias&lt;/td>
&lt;td>&lt;strong>on-prem si cabe, si no cloud europeo&lt;/strong>&lt;/td>
&lt;td>elasticidad sin capex ocioso&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Pico (p95–p100)&lt;/td>
&lt;td>esporádico&lt;/td>
&lt;td>&lt;strong>cloud europeo soberano (burst)&lt;/strong>&lt;/td>
&lt;td>absurdo comprar hierro para un pico raro&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Con este reparto, &lt;strong>la base amortiza el nodo propio a utilización alta&lt;/strong> (~1,1–1,8 €/1M tokens) y el
&lt;strong>pico se paga por uso&lt;/strong> sin penalización de idle (~1,5–2,2 €/1M tokens), todo bajo jurisdicción UE.
El error caro es el contrario: dimensionar el on-prem para el &lt;strong>pico&lt;/strong> —entonces la GPU pasa la mayor
parte del tiempo parada al 30–40 %, el coste/token se dispara a &amp;gt;3 € y el cloud habría sido más
barato—. &lt;strong>Se dimensiona el hierro para la base, no para el pico&lt;/strong>; el pico es justo lo que el cloud
hace bien. Este principio conecta con el capacity planning y el scheduling (Kueue/Volcano) de la
serie: el híbrido solo funciona si el scheduler &lt;strong>llena&lt;/strong> el nodo propio antes de desbordar al cloud.&lt;/p>
&lt;hr>
&lt;h2 id="supuestos-y-sensibilidad">Supuestos y sensibilidad&lt;/h2>
&lt;p>Toda la comparación cuelga de unos supuestos que hay que declarar, porque moverlos mueve la
conclusión:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Supuesto&lt;/th>
&lt;th>Si sube&lt;/th>
&lt;th>Efecto&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>Utilización&lt;/strong>&lt;/td>
&lt;td>50 % → 80 %&lt;/td>
&lt;td>el on-prem pasa de perder a ganar claramente&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Precio de energía&lt;/strong>&lt;/td>
&lt;td>región cara → Francia/PPA&lt;/td>
&lt;td>baja el TCO on-prem y el carbono&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Plazo de amortización&lt;/strong>&lt;/td>
&lt;td>24 → 36 meses&lt;/td>
&lt;td>baja el coste/hora on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Volumen&lt;/strong>&lt;/td>
&lt;td>&amp;lt; 2M tok/día → mucho más&lt;/td>
&lt;td>cruza el break-even hacia on-prem&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Egress (hyperscaler)&lt;/strong>&lt;/td>
&lt;td>bajo → alto&lt;/td>
&lt;td>encarece el hyperscaler frente al cloud europeo&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La regla: &lt;strong>ninguna comparación on-prem vs cloud es válida sin fijar estos supuestos&lt;/strong>. Una que diga
&amp;ldquo;on-prem es 3× más barato&amp;rdquo; sin declarar la utilización asumida es propaganda; una que fije utilización,
precio de energía, plazo y volumen es un dato. El dossier debe presentar el caso con los supuestos
explícitos y un análisis de sensibilidad —es lo que lo hace defendible ante un comité que los
cuestione.&lt;/p>
&lt;h2 id="checklist-de-decisión">Checklist de decisión&lt;/h2>
&lt;p>Para llevar S2 de la teoría a la decisión, las preguntas que ordenan la elección, en orden:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>¿Los datos están sujetos a RGPD o el sistema es de riesgo bajo el EU AI Act?&lt;/strong> Si sí, el
hyperscaler US queda &lt;strong>descartado por soberanía&lt;/strong>; decides entre on-prem y cloud europeo. Si no,
el hyperscaler entra en la comparación de coste.&lt;/li>
&lt;li>&lt;strong>¿Puedo sostener una utilización &amp;gt;65–70 % en la carga base?&lt;/strong> Si sí, el on-prem gana en coste
para esa base. Si no, el cloud europeo evita pagar capex por GPUs paradas.&lt;/li>
&lt;li>&lt;strong>¿El perfil de tráfico tiene picos marcados?&lt;/strong> Si sí, &lt;strong>híbrido&lt;/strong>: base en hierro, pico en cloud
europeo. Dimensiona el hierro para la base, nunca para el pico.&lt;/li>
&lt;li>&lt;strong>¿Cuánto dato saco del proveedor al mes?&lt;/strong> Modela el egress; con mucho movimiento, el zero-egress
del cloud europeo o el on-prem ganan claramente.&lt;/li>
&lt;li>&lt;strong>¿Qué red eléctrica y a qué precio?&lt;/strong> Francia/España con PPA bajan TCO y carbono; inclúyelo en el
modelo y en el reporte CSRD.&lt;/li>
&lt;li>&lt;strong>¿He fijado utilización, energía, plazo y volumen por escrito?&lt;/strong> Sin esos cuatro supuestos
declarados, el número no es defendible.&lt;/li>
&lt;/ol>
&lt;p>Quien responda estas seis preguntas con datos —no con intuición— tiene el caso construido. La
recomendación de la serie para una plataforma soberana europea con carga base sostenida es estable:
&lt;strong>on-prem soberano para la base de alta utilización + cloud europeo soberano para el pico&lt;/strong>, con el
hyperscaler reservado solo para cargas sin requisito de soberanía donde se necesite hardware en la
frontera sin capex.&lt;/p>
&lt;hr>
&lt;h2 id="límites-y-trampas-data-driven">Límites y trampas (data-driven)&lt;/h2>
&lt;ol>
&lt;li>&lt;strong>Utilización asumida irreal.&lt;/strong> El 80–90 % que hace ganar al on-prem rara vez se da en producción
(40–65 % típico). Modela tu utilización real, no la ideal.&lt;/li>
&lt;li>&lt;strong>Comparar solo la GPU-hora.&lt;/strong> El TCO incluye energía, operación, refrigeración, egress (cloud) y
capex (on-prem). Compara totales con los mismos supuestos.&lt;/li>
&lt;li>&lt;strong>Ignorar la soberanía.&lt;/strong> Para datos RGPD, el eje de soberanía descarta el hyperscaler antes que el
coste; no es negociable con precio.&lt;/li>
&lt;li>&lt;strong>Olvidar el híbrido.&lt;/strong> No es &amp;ldquo;todo on-prem o todo cloud&amp;rdquo;; el patrón base+pico suele dominar.&lt;/li>
&lt;li>&lt;strong>Datos en USD.&lt;/strong> Las comparativas estadounidenses están en dólares y con regiones sucias;
reconviértelas a euros y a la red de tu región (España/Francia) para tu caso.&lt;/li>
&lt;/ol>
&lt;p>La síntesis de S2, en una frase: &lt;strong>para datos soberanos europeos, la decisión no es on-prem vs cloud
en abstracto, sino on-prem soberano (alta utilización) + cloud europeo soberano (pico) frente a un
hyperscaler que el eje de soberanía descarta&lt;/strong> —y la utilización es la variable que reparte la base
entre las dos primeras. El resto de la serie da los números de cada eje; este los cruza en la
recomendación. El siguiente artículo de síntesis (S3) dimensiona la inversión; este decide la
arquitectura.&lt;/p>
&lt;h2 id="ver-también">Ver también&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://blog.lo0.es/posts/cloud-gpu-commitment-spot-neoclouds/">Cloud GPU: comparativa de precios, compromiso y neoclouds soberanos&lt;/a> — los precios on-demand, spot y reserved de los proveedores cloud europeos que aparecen como alternativa en este análisis, con datos actualizados de 2026.&lt;/li>
&lt;li>&lt;a href="https://blog.lo0.es/posts/tco-on-premise-gpu-cluster/">TCO del cluster GPU on-premise: amortización, energía e infraestructura&lt;/a> — el desglose completo del TCO on-premise: CAPEX de servidores, amortización, energía, red y personal, con la hoja de cálculo que da el €/GPU-hora real.&lt;/li>
&lt;/ul>
&lt;h2 id="fuentes">Fuentes&lt;/h2>
&lt;ul>
&lt;li>Spheron · LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even — &lt;a href="https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/">https://www.spheron.network/blog/llm-inference-on-premise-vs-cloud/&lt;/a>&lt;/li>
&lt;li>Lenovo Press · On-Premise vs Cloud: Generative AI TCO (2026) — &lt;a href="https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition">https://lenovopress.lenovo.com/lp2368-on-premise-vs-cloud-generative-ai-total-cost-of-ownership-2026-edition&lt;/a>&lt;/li>
&lt;li>Lyceum · EU Sovereign Inference Platform Comparison (2026) — &lt;a href="https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/">https://lyceum.technology/magazine/eu-sovereign-inference-platform-comparison/&lt;/a>&lt;/li>
&lt;li>Lyceum · Sovereign Cloud Providers 2026 — &lt;a href="https://lyceum.technology/magazine/sovereign-cloud-providers-2026/">https://lyceum.technology/magazine/sovereign-cloud-providers-2026/&lt;/a>&lt;/li>
&lt;li>Scaleway · H100 GPU instance (precio €, soberanía UE) — &lt;a href="https://www.scaleway.com/en/h100/">https://www.scaleway.com/en/h100/&lt;/a>&lt;/li>
&lt;li>Nerd Level Tech · GPU Cloud TCO 2026: hidden fees, egress costs — &lt;a href="https://nerdleveltech.com/gpu-cloud-comparison-2026-the-real-cost-of-ai-compute">https://nerdleveltech.com/gpu-cloud-comparison-2026-the-real-cost-of-ai-compute&lt;/a>&lt;/li>
&lt;/ul></description></item></channel></rss>