Infraestructura física del datacenter (1/4): la cadena de energía

Este blog ha dedicado más de cien artículos a la capa de software de la inferencia: motores de serving, KV-cache, observabilidad, FinOps. Pero todo eso se apoya en algo mucho más prosaico y mucho menos perdonable cuando falla: la corriente que entra por la pared. Abrimos con esta serie una vertical nueva, la infraestructura física del datacenter, los temas transversales que un arquitecto de IA tiende a dar por supuestos hasta el día en que un corte de red le tumba un clúster entero. Empezamos por el principio de todo: la cadena de energía.

El planteamiento es deliberadamente mixto. Los conceptos —cadena eléctrica, redundancia, niveles Tier, factor de potencia— son universales y sirven para cualquier datacenter. Pero en cada apartado señalaremos por qué la era de la IA, con sus racks de 120 kW y más, tensiona esa infraestructura hasta extremos que el diseño clásico no contemplaba.

Por qué la energía es la base de todo

En un datacenter, la energía no es un servicio auxiliar: es la restricción primaria. Se puede sobrevivir a un disco lento o a una red congestionada, pero no a la pérdida de alimentación de los equipos críticos. Y a diferencia del software, la infraestructura eléctrica no se parchea en caliente ni se escala con un kubectl scale: se diseña, se construye y se vive con ella durante quince o veinte años. Equivocarse en el dimensionamiento o en la redundancia no es un bug, es una obra.

En 2025-2026 esto ha pasado de ser una preocupación de instalaciones a ser el cuello de botella del sector entero. La disponibilidad de potencia se ha convertido en el factor que limita dónde y cuándo se puede construir un datacenter de IA: las restricciones de red eléctrica alargan los plazos de conexión entre 24 y 72 meses, agravadas por la escasez global de transformadores, de aparamenta (switchgear) y hasta de turbinas de gas. Antes el reto era encontrar GPUs; ahora, cada vez más, es encontrar megavatios.

La cadena, eslabón a eslabón

La energía recorre un camino largo desde la acometida de la compañía eléctrica hasta los chips. Cada eslabón transforma, protege o distribuye, y cada uno es un punto donde la fiabilidad se gana o se pierde. La secuencia canónica es esta:

Red eléctrica (media tensión) → aparamenta de MT (switchgear) → transformador MT/BT → cuadros de baja tensión → SAI (UPS) → cuadros de distribución de planta (PDU) → PDU de rack o busway → fuentes de alimentación del servidor.

La acometida llega en media tensión (MT) para instalaciones cuya carga TI supera el megavatio, que son ya la mayoría de las relevantes. Tensiones típicas de entrada van de 11 a 33 kV. La aparamenta de MT es el punto de entrada y protección; los interruptores de vacío son hoy el estándar en interior. De ahí, los transformadores —habitualmente de 2,5 o 3 MVA— bajan la MT a baja tensión (BT), típicamente 400-480 V, que es la que maneja la sala.

A partir del transformador, los cuadros de baja tensión reparten la energía hacia el corazón del sistema de protección: el SAI (sistema de alimentación ininterrumpida, o UPS). El SAI cumple dos funciones que conviene no confundir: acondiciona la energía (filtra perturbaciones, huecos de tensión, armónicos) y, sobre todo, hace de puente durante los segundos que tarda el generador en arrancar y tomar carga ante un corte de red. La topología dominante en instalaciones serias es la online de doble conversión, que aísla por completo la carga de la red de entrada. Volveremos sobre el SAI en el cuarto artículo de la serie, porque su relación con el generador es el corazón de la resiliencia.

Después del SAI, los PDU de planta (Power Distribution Units) reparten hacia las filas, y los PDU de rack —o un busway aéreo— entregan la energía a cada armario. Los PDU modernos no son regletas tontas: los metered miden el consumo por toma y los intelligent se integran con el DCIM, añaden sensores ambientales y permiten conmutar tomas en remoto. Finalmente, las fuentes de alimentación del servidor convierten esa BT en las tensiones continuas que comen los componentes.

La doble vía A/B

Hay un principio de diseño que atraviesa toda la cadena en las instalaciones de alta disponibilidad: la doble vía A y B. En lugar de un único camino desde el transformador hasta el rack, se construyen dos caminos eléctricamente independientes —circuitos, cuadros, SAI, PDU y disyuntores separados, sin puntos comunes de fallo—. Cada servidor crítico lleva dos fuentes de alimentación (dual-corded) y se conecta simultáneamente a la vía A y a la vía B. Si una vía cae entera —por un fallo o por mantenimiento planificado—, el servidor sigue alimentado por la otra sin inmutarse. Esta arquitectura es la base física de la redundancia 2N, y es lo que permite mantener media instalación mientras la otra media sigue sirviendo.

Redundancia: el lenguaje de los “N”

Toda la conversación sobre fiabilidad eléctrica se codifica en una notación compacta que conviene dominar, porque define el coste y la disponibilidad de la instalación:

N es la capacidad mínima estricta para soportar la carga, sin ninguna reserva. Un fallo de cualquier componente tira el sistema.
N+1 añade un componente de respaldo al conjunto. Es la opción más eficiente en coste y energía, y la más habitual en refrigeración y, a menudo, en generación.
N+2 añade dos respaldos, para tolerar un segundo fallo o un fallo durante el mantenimiento de otro componente.
2N duplica el sistema entero: dos conjuntos completos e independientes (las vías A y B). Tolera el fallo total de cualquier vía sin impacto, y permite mantener una mitad mientras la otra opera. Es la base de la tolerancia a fallos.
2N+1 es la duplicación 2N más un componente extra, para sobrevivir a un fallo y a un mantenimiento simultáneos.
Redundancia distribuida (block redundant, a veces “3N/2”): en lugar de respaldos dedicados a cada bloque, reparte la reserva entre varios bloques, buscando un punto intermedio entre el coste de N+1 y la robustez de 2N.

Dos conceptos operativos resumen la intención de todo esto. Un sistema es mantenible en concurrencia (concurrently maintainable) cuando cualquier componente puede retirarse de servicio de forma planificada sin afectar a la carga TI; y es tolerante a fallos (fault tolerant) cuando sobrevive además a cualquier fallo único e imprevisto. La diferencia entre ambos es, esencialmente, la diferencia entre poder hacer mantenimiento sin cortar y poder además encajar un imprevisto durante ese mantenimiento.

El trade-off económico es el eje de toda la decisión. Pasar de N a N+1 añade un único componente y es relativamente barato; pasar a 2N duplica literalmente media instalación —dos SAI, dos vías, a menudo dos salas eléctricas— y dispara tanto el capex como el espacio y el consumo en vacío de la redundancia. La redundancia distribuida o block redundant existe precisamente para capturar buena parte de la robustez del 2N a un coste más cercano al N+1, repartiendo la reserva entre varios bloques en lugar de dedicarla. No hay una respuesta universal: la arquitectura correcta es la que casa el coste de la indisponibilidad para tu negocio con el coste de evitarla. Para una carga crítica bajo SLA, el orden de magnitud habitual es una distribución mantenible en concurrencia con doble vía A/B; para cargas que toleran ventanas de parada, N+1 puede ser perfectamente razonable y mucho más barato.

Los niveles Tier del Uptime Institute

La forma más extendida de clasificar esta robustez es el sistema Tier del Uptime Institute, con cuatro niveles en numeración romana:

Tier I (capacidad básica): componentes únicos, una sola vía de distribución, sin redundancia. Cualquier mantenimiento o fallo implica parada.
Tier II (capacidad redundante): componentes redundantes (N+1 en capacidad) pero una única vía de distribución no redundante.
Tier III (mantenible en concurrencia): múltiples vías de distribución independientes; cualquier componente puede retirarse para mantenimiento sin impacto. Suele combinar 2N en energía con N+1 en refrigeración.
Tier IV (tolerante a fallos): 2N en todos los sistemas; sobrevive a cualquier fallo único de la infraestructura, además de ser mantenible en concurrencia.

Aquí hace falta una advertencia importante que muchas guías omiten. Es muy común ver tablas que asocian cada Tier a un porcentaje de disponibilidad —99,671 % para Tier I, 99,741 % para Tier II, 99,982 % para Tier III y 99,995 % para Tier IV— traducidos a minutos de inactividad al año. Esos porcentajes no son garantías ni definiciones oficiales del Uptime Institute. De hecho, el Uptime retiró las referencias a “downtime esperado al año” de su estándar en 2009, y sostiene que sus definiciones se basan en la topología y el comportamiento (componentes redundantes, mantenibilidad concurrente, tolerancia a fallos), no en un número mágico de nueves. Un Tier IV mal operado puede caer, y un Tier III bien operado puede tener una hoja de servicio impecable. Cíta esos porcentajes, si acaso, como cifras de referencia popular, nunca como una promesa.

Dos matices más para un arquitecto. Primero, diseño no es lo mismo que construido: el Uptime distingue la certificación de los documentos de diseño (Tier Certification of Design Documents), que solo valida los planos y caduca a los dos años, de la certificación de la instalación construida (Constructed Facility), que verifica el edificio real con demostraciones en vivo. Un “diseñado para Tier III” sin certificación de obra construida es una intención, no un hecho. Segundo, la alternativa europea: la norma EN 50600, hoy integrada en la ISO/IEC 22237, clasifica con Clases de disponibilidad 1 a 4 análogas a los Tiers, pero con un enfoque más holístico que abarca energía, refrigeración, telecomunicaciones, seguridad y eficiencia, y la pueden certificar organismos independientes. En Europa conviene hablar tanto en Tier como en clases EN 50600.

Las métricas que de verdad hay que entender

Más allá de la nomenclatura, hay tres pares de conceptos que un arquitecto debe manejar para no equivocarse al dimensionar.

kW frente a kVA y el factor de potencia

Es el error de dimensionamiento más común. Los kW (potencia activa o real) son la potencia que hace trabajo útil: lo que consumen de verdad los servidores. Los kVA (potencia aparente) son la potencia que la infraestructura eléctrica —el SAI, los cables, el generador— tiene que ser capaz de entregar. La relación entre ambos es el factor de potencia (FP):

$$\text{FP} = \frac{P_{\text{kW}}}{S_{\text{kVA}}}$$

De donde se despeja lo que de verdad importa al dimensionar: la potencia aparente que debe suministrar el equipo,

$$S_{\text{kVA}} = \frac{P_{\text{kW}}}{\text{FP}}$$

Si dimensionas un SAI o un generador solo por los kW de la carga, ignorando el factor de potencia, subestimas la capacidad necesaria. Los servidores modernos con corrección activa del factor de potencia trabajan cerca de la unidad (FP de 0,9 a 0,99), pero los generadores se especifican habitualmente a un FP de 0,8: un grupo de 1000 kW se cataloga como 1200 kVA. Y un SAI de 100 kVA a FP 0,9 solo entrega 90 kW reales. Una carga de 150 kW a FP 0{,}8 exige 187,5 kVA de equipo, no 150. Confundir estas dos magnitudes ha dejado más de una sala sin margen el día que se llenó.

PUE: la eficiencia de toda la instalación

El PUE (Power Usage Effectiveness) mide cuánta energía total consume la instalación por cada unidad que llega de verdad a los equipos de TI:

$$\text{PUE} = \frac{E_{\text{total}}}{E_{\text{TI}}}$$

Un PUE de 1,0 sería el ideal teórico (toda la energía va a TI, nada se pierde en refrigeración, conversión o iluminación). La media declarada del sector ronda 1,5-1,56, los grandes hiperescalares bajan a 1,09-1,20 —Google reporta en torno a 1,09— y la regulación aprieta: la ley de eficiencia energética alemana exige PUE igual o inferior a 1,2 para datacenters nuevos desde 2026. El PUE es, en el fondo, una medida de cuánto “impuesto” energético paga la instalación por encima de lo que computa.

Disponibilidad y los nueves

Por último, la disponibilidad se expresa en “nueves”, y conviene tener interiorizada su traducción a tiempo de inactividad anual: 99,9 % son casi 9 horas al año; 99,99 %, unos 53 minutos; 99,999 % (los célebres cinco nueves), unos 5 minutos. La clave económica es que el coste de cada nueve adicional no es lineal: saltar de cuatro a cinco nueves no cuesta un poco más, cuesta multiplicar la inversión en redundancia, automatización y, a menudo, multi-emplazamiento. Perseguir nueves que el negocio no necesita es una de las formas más caras de sobre-ingeniería.

Un ejemplo de dimensionamiento

Veamos cómo encajan estas magnitudes en un caso concreto, porque el diablo está en los detalles. Supongamos una fila de ocho racks de inferencia tipo GB200 a 130 kW cada uno: 1040 kW de carga TI real. Para dimensionar el SAI, que trabaja sobre potencia aparente, aplicamos el factor de potencia de la carga (digamos 0,95):

$$S_{\text{kVA}} = \frac{1040}{0{,}95} \approx 1095 \text{ kVA}$$

es decir, necesitamos un SAI de en torno a 1100 kVA solo para esta fila, y eso sin contar margen de crecimiento ni redundancia. Para dimensionar el generador, en cambio, no basta con la carga TI: hay que añadir todo lo que cuelga del lado de emergencia, sobre todo la refrigeración, que a estas densidades es líquida y consume lo suyo. Si aplicamos un PUE de 1,3, la carga total de la instalación para esta fila ronda los 1350 kW, y como los grupos se catalogan a FP 0,8, el generador debe entregar del orden de 1690 kVA. Se elegiría un grupo de 2 MVA, y para una arquitectura N+1 harían falta dos. El salto es revelador: una fila que “consume 1 MW” exige, vía factor de potencia y refrigeración, más de 4 MVA de generación instalada si se quiere redundancia. Quien dimensiona de cabeza, multiplicando racks por vatios de chip, se queda corto en cada eslabón.

El terremoto de la IA: densidad de rack

Aquí es donde la era de la IA rompe los supuestos. Durante décadas, la densidad de un rack se movía entre 5 y 15 kW, y la media del sector apenas ha subido: la encuesta del Uptime Institute de 2025 la sitúa en 7,5 kW por rack, con el grueso todavía entre 5 y 9 kW. Toda la cadena eléctrica clásica —y la refrigeración por aire— se diseñó alrededor de esas cifras.

Un rack de IA actual las pulveriza. El NVIDIA GB200 NVL72 se especifica en 120 kW por rack, y en despliegues reales se han medido 130-132 kW a plena carga: ocho a diez veces la densidad de un rack tradicional, concentrados en el mismo armario. A esa densidad el aire deja de ser viable —los rear-door de 30-40 kW se quedan cortos— y la refrigeración líquida directa al chip pasa de opción a requisito. Y la cadena eléctrica tiene que llevar esos 130 kW hasta un solo rack: circuitos trifásicos dedicados, PDU de 200 A o más, mucho más cobre.

Y esto no ha hecho más que empezar. La hoja de ruta de NVIDIA apunta a unos 190-230 kW por rack con la generación Vera Rubin, y a la friolera de 600 kW por rack con Rubin Ultra “Kyber” en 2027, que NVIDIA plantea alimentar directamente en 800 V de corriente continua para reducir las etapas de conversión y el cobre. En el sector ya se habla abiertamente de racks de clase 1 MW. Conviene tomar estas cifras como lo que son —hoja de ruta de fabricante y debate del sector, no instalaciones desplegadas—, pero la dirección es inequívoca: la densidad sube más rápido de lo que la infraestructura eléctrica tradicional sabe absorber.

El impacto agregado es macroeconómico. Los datacenters consumieron en torno a 415 TWh en 2024 (alrededor del 1,5 % de la electricidad mundial), y la Agencia Internacional de la Energía proyecta que la cifra global podría acercarse a los 945 TWh en 2030, empujada por la IA. En 2025 la demanda eléctrica de los datacenters creció un 17 %, y la de los datacenters específicamente de IA, un 50 %. Por eso la conexión a la red —y no el silicio— se ha vuelto el verdadero factor limitante de muchos proyectos.

La distribución de alta densidad y el salto a 800 V DC

Llevar 130 kW —y mañana 600 kW— a un solo rack obliga a repensar la distribución. Por la ley de Joule, transportar más potencia a la misma tensión significa más corriente, y más corriente significa más cobre, más pérdidas y más calor en la propia distribución. La industria responde por dos vías. Una es subir la tensión de distribución interna: NVIDIA ha planteado para sus racks de próxima generación una alimentación directa en 800 V de corriente continua, que reduce las etapas de conversión AC-DC, recorta el cobre necesario y mejora la eficiencia frente al esquema clásico de 480 V AC convertido a continua en varios pasos dentro del rack. Es una transición emergente y todavía en debate, pero marca la dirección. La otra vía es el busway aéreo de alta corriente en lugar de PDU tradicionales, que facilita reconfigurar y escalar la potencia por fila sin recablear. Para un arquitecto, la lección es que la topología de distribución —tensión, busway, número de fases— deja de ser un detalle de instalación y pasa a ser una decisión de diseño con impacto directo en coste y en la densidad máxima alcanzable.

La red eléctrica como límite: emplazamiento y generación in situ

Hay un eslabón anterior a toda la cadena que hemos descrito, y que en 2025-2026 se ha vuelto el más crítico de todos: la conexión a la red de la compañía eléctrica. Conseguir que la red entregue decenas o cientos de megavatios en un punto concreto se ha convertido en el verdadero cuello de botella del sector. Los plazos de conexión se han estirado a entre dos y seis años en muchas geografías, lastrados por la saturación de las subestaciones y por la escasez global de transformadores y aparamenta de media tensión, cuyos plazos de entrega se cuentan hoy en años, no en meses.

Esto ha empujado una tendencia que conviene conocer aunque se salga de la cadena clásica: la generación in situ (behind-the-meter). Cada vez más proyectos de IA, incapaces de esperar a la red, instalan su propia generación —turbinas de gas, motores de gas, y en algunos casos pilas de combustible— para arrancar antes de tener conexión firme, o para no depender de ella. Es una inversión del paradigma tradicional, en el que el generador era solo un respaldo de emergencia: ahora, a veces, es la fuente primaria mientras se espera la red. Esta dinámica tiene implicaciones de coste, de emisiones y de regulación que un arquitecto de IA hará bien en tener en el radar, porque condicionan dónde se puede construir y a qué velocidad. El emplazamiento de un datacenter de IA es, cada vez más, una decisión sobre disponibilidad de potencia antes que sobre cualquier otra cosa.

La instalación es tan fiable como su operación

Conviene cerrar con una advertencia que el sistema Tier ya insinuaba: la topología es condición necesaria pero no suficiente. Una instalación con redundancia 2N impecable puede caer igualmente por una maniobra mal hecha, un mantenimiento sin procedimiento, un disyuntor mal etiquetado o una prueba de transferencia que nunca se ensayó. Una parte sustancial de las caídas reales no nace de un fallo de equipo, sino de la operación humana sobre ese equipo. Por eso el Uptime Institute insiste en que un Tier IV mal operado no garantiza nada, y por eso la certificación de la instalación construida incluye demostraciones en vivo: ver el sistema transferir carga de verdad, no leerlo en un plano.

La consecuencia práctica es que la fiabilidad eléctrica se gestiona con las mismas disciplinas que cualquier sistema crítico: observabilidad y ensayo. La observabilidad la aporta el DCIM (Data Center Infrastructure Management), que instrumenta la cadena entera —consumo por toma en los PDU, temperatura, estado de los SAI y los generadores, niveles de combustible, posición de los conmutadores— y permite ver el sistema en tiempo real y anticipar problemas. El ensayo lo aportan las pruebas periódicas: arrancar los generadores bajo carga real (con bancos de carga si hace falta), ejecutar transferencias completas a fuente de emergencia, y verificar que los SAI sostienen el puente. Un plan de continuidad que no se ha ensayado a escala realista es una hipótesis, no una garantía; y el día del corte de red no es el momento de descubrir que el generador no toma carga o que el SAI no aguanta los segundos necesarios. La capa física, como la lógica, premia a quien mide y ensaya, y castiga a quien confía en el papel.

Para una factoría de inferencia

¿Qué se lleva de todo esto quien construye o explota una factoría de inferencia? Tres ideas. Primera, que el diseño eléctrico debe partir de la densidad real de los racks de IA, no de las medias históricas: planificar una sala de inferencia a 10 kW por rack es planificar para una instalación que no existe. Segunda, que la refrigeración líquida y la distribución de alta densidad dejan de ser exóticas y pasan a ser el caso base, con todo lo que implica para el dimensionamiento del cobre, los PDU y los cuadros. Y tercera, que la redundancia tiene un coste que hay que casar con el negocio: una factoría de inferencia bajo SLA probablemente justifica una arquitectura mantenible en concurrencia (orden Tier III, doble vía A/B), pero perseguir tolerancia total a fallos en cada eslabón puede ser un lujo que el caso de uso no pague. La disponibilidad del cómputo, como vimos en la serie de almacenamiento, depende tanto de la capa física como de la lógica.

Este artículo ha trazado el mapa completo de la cadena. Los tres siguientes entran en los eslabones donde se decide la resiliencia ante un corte de red: los generadores que sostienen la instalación cuando se va la compañía eléctrica, la conmutación (ATS y STS) que transfiere la carga entre fuentes, y el SAI que hace de puente durante esos segundos críticos. Porque de nada sirve una cadena perfectamente dimensionada si, el día que parpadea la red, no hay quien tome el relevo a tiempo.

Ver también

Almacenamiento en la era de la IA (4/4): disponibilidad

Fuentes

Giga Energy, Data center electrical distribution system: Key elements — https://www.gigaenergy.com/blog/data-center-electrical-distribution-system
GBC Engineers, The Basics of Electrical Data Center Design in 2025 — https://gbc-engineers.com/news/electrical-data-center-design
CoreSite, What is Data Center Redundancy? N, N+1, 2N, 2N+1 — https://www.coresite.com/blog/data-center-redundancy-n-1-vs-2n-1
Dgtl Infra, Data Center Redundancy: N, N+1, 2N, and 2N+1 Explained — https://dgtlinfra.com/data-center-redundancy/
Uptime Institute, Tier Classification System — https://uptimeinstitute.com/tiers
Uptime Institute, Tier Classification Myths and Misconceptions — https://uptimeinstitute.com/myths
Uptime Institute Journal, Myths and Misconceptions Regarding the Tier Certification System — https://journal.uptimeinstitute.com/myths-and-misconceptions-regarding-the-uptime-institutes-tier-certification-system/
Techerati, Explaining the new family of ISO Data Centre Standards (EN 50600 / ISO 22237) — https://www.techerati.com/features-hub/explaining-the-new-family-of-iso-data-centre-standards/
Fuji Electric, The Importance of Power Factor in Data Center UPS Selection — https://americas.fujielectric.com/the-importance-of-power-factor-in-data-center-ups-selection/
Server Room Environments, How To Size UPS Systems In kVA and kW — https://www.serverroomenvironments.co.uk/blog/how-to-size-ups-systems-in-kva-and-kw
Statista, Data center average annual PUE worldwide 2025 — https://www.statista.com/statistics/1229367/data-center-average-annual-pue-worldwide/
Google Data Centers, Power usage effectiveness — https://datacenters.google/efficiency/
Uptime Institute, Global Data Center Survey 2025 — https://intelligence.uptimeinstitute.com/resource/uptime-institute-global-data-center-survey-2025
NVIDIA, GB200 NVL72 — https://www.nvidia.com/en-us/data-center/gb200-nvl72/
ToneCooling, GB200 NVL72 Cooling Requirements — https://tonecooling.com/nvidia-gb200-nvl72-cooling-requirements/
Tom’s Hardware, Nvidia shows off Rubin Ultra with 600,000-Watt Kyber racks (2027) — https://www.tomshardware.com/pc-components/gpus/nvidia-shows-off-rubin-ultra-with-600-000-watt-kyber-racks-and-infrastructure-coming-in-2027
SemiAnalysis, Inside the 800VDC Revolution – Part 1 — https://newsletter.semianalysis.com/p/inside-the-800vdc-revolution-part
IEA, Energy demand from AI — https://www.iea.org/reports/energy-and-ai/energy-demand-from-ai