Almacenamiento en la era de la IA (3/4): seguridad

Los datos son el activo más valioso y más duradero de un sistema de IA. Los modelos se reentrenan; los pesos se sustituyen; pero los datasets de entrenamiento, los datos de clientes que alimentan el RAG y los propios pesos de un modelo puntero representan años de inversión y, a menudo, información regulada. En los dos artículos anteriores hablamos de cómo mover esos datos rápido. Este tercero trata de cómo protegerlos: cifrado, integridad, control de acceso, soberanía y la amenaza que obliga a empezar a actuar hoy aunque parezca lejana, la computación cuántica.

Cifrado en reposo: SED, AES-XTS y la transición a FIPS 140-3

La primera línea de defensa de cualquier dato persistente es el cifrado en reposo. En almacenamiento empresarial el patrón dominante son los SED (Self-Encrypting Drives), discos que implementan los estándares Opal, Ruby y Enterprise del Trusted Computing Group e integran un motor de cifrado AES-XTS de 256 bits en el controlador. La ventaja operativa es doble: cifran a velocidad de interfaz, sin penalización perceptible de rendimiento y sin robar ciclos a la CPU, y habilitan el borrado criptográfico instantáneo.

El mecanismo que hace posible ese borrado es el modelo de claves de dos niveles de TCG Opal 2.0. Los datos se cifran realmente contra una clave de cifrado de datos (DEK) que nunca sale del disco; esa DEK, a su vez, está protegida por una clave de autenticación derivada de la passphrase del usuario. Destruir o regenerar la DEK convierte instantáneamente en ilegibles teras de datos sin tener que sobrescribirlos: el cryptographic erase. Para una organización que retira discos de 245 TB, esta propiedad no es un lujo, es la única forma práctica de garantizar el borrado.

El cifrado por hardware del SED y el cifrado por software con AES-NI no son excluyentes, pero sí tienen perfiles distintos. La aceleración por hardware mantiene una ventaja medible —del orden de 2 veces en lecturas y escrituras aleatorias 4K frente a software puro—, aunque la brecha se estrecha en las CPU modernas con AES-NI y ARMv8. La regla práctica: SED para la línea base sin coste de rendimiento, y cifrado de software por encima cuando se necesita separación de dominios de claves o cifrado de extremo a extremo.

El talón de Aquiles del cifrado nunca es el algoritmo, sino la gestión de claves. Un AES-256 impecable no protege nada si la clave está mal custodiada. Por eso el cifrado de almacenamiento serio se apoya en un gestor de claves externo que habla KMIP (Key Management Interoperability Protocol) con las cabinas, separando la custodia de la clave del medio que cifra. Las claves se rotan periódicamente, se respaldan con sus propias garantías de disponibilidad —perder la clave es perder el dato de forma tan definitiva como un incendio— y su acceso se audita. En entornos regulados, esas claves residen en módulos de hardware (HSM) certificados. Para un arquitecto, la decisión de diseño no es “¿ciframos?” —la respuesta es siempre sí— sino “¿quién tiene las claves y cómo se gobiernan?”, una pregunta que, como veremos, está en el corazón de la soberanía del dato.

El punto que ningún arquitecto debería ignorar en 2026 es la transición a FIPS 140-3. El CMVP dejó de aceptar nuevas validaciones FIPS 140-2 en abril de 2022, y el 21 de septiembre de 2026 moverá todos los certificados 140-2 restantes a la lista “histórica”. A partir de esa fecha, las agencias federales estadounidenses no deben incluir módulos históricos en nuevas adquisiciones; los sistemas existentes pueden seguir operando, pero el reloj de cumplimiento corre. Y hay un efecto colateral logístico: los tiempos de validación han crecido de 367 a 542 días, un 42 % más, lo que tensiona los roadmaps de los fabricantes. Quien planifique compras de almacenamiento con horizonte plurianual debe verificar la certificación 140-3, no la 140-2, de cada módulo criptográfico. El marco de referencia para el diseño global sigue siendo el NIST SP 800-209, que cubre cifrado, aislamiento, autenticación y autorización para almacenamiento de bloque, archivo y objeto.

Cifrado en tránsito: el punto débil de las fabrics de IA

Los datos también se exponen en movimiento, y aquí las fabrics de alto rendimiento de IA introducen tensiones específicas. Para NVMe-oF sobre TCP existe autenticación in-band, y para mayor protección el grupo de trabajo de NVMe propone IPsec sobre RoCEv2. Las NIC modernas —ConnectX-6 Dx, BlueField-2— aseguran las conexiones NVMe-oF con IPsec y TLS acelerados por hardware, de modo que el cifrado en tránsito no estrangula el ancho de banda.

El problema es InfiniBand. IPsec no se implementa sobre InfiniBand —no es un protocolo IP—, lo que deja esa fabric, omnipresente en clústeres de IA, sin una de las herramientas habituales de confidencialidad. Tampoco IPsec aísla bien las conexiones RDMA de distintos usuarios que comparten una misma interfaz. La investigación académica ha documentado ataques que explotan errores de RDMA en aplicaciones de almacenamiento NVMe-oF. La conclusión para un arquitecto es incómoda pero importante: la seguridad en tránsito de una fabric de IA no se hereda de los buenos hábitos de las redes IP, y exige diseño explícito de segmentación y aislamiento.

La amenaza que llega del futuro: criptografía post-cuántica

Ningún tema de seguridad de almacenamiento ha cambiado tanto su urgencia como la criptografía post-cuántica (PQC), y la razón es un patrón de ataque que no necesita un ordenador cuántico para empezar: "harvest now, decrypt later" (HNDL). Actores estatales bien financiados recolectan hoy datos cifrados con la intención de descifrarlos cuando dispongan de capacidad cuántica. Para cualquier dato cuya confidencialidad deba durar una década —historiales médicos, secretos industriales, datasets de entrenamiento propietarios— la amenaza es presente, no futura.

En agosto de 2024 el NIST finalizó los tres primeros estándares PQC, y a mediados de 2026 son la base sobre la que se construye toda la migración:

EstándarAlgoritmoFunciónOrigen
FIPS 203ML-KEMEncapsulado de clavesCRYSTALS-Kyber
FIPS 204ML-DSAFirma digital (por defecto)CRYSTALS-Dilithium
FIPS 205SLH-DSAFirma de respaldo (basada en hash)SPHINCS+

En marzo de 2025 el NIST seleccionó además HQC, un mecanismo de encapsulado basado en códigos, como respaldo de ML-KEM con supuestos matemáticos distintos. La NSA, por su parte, fijó en CNSA 2.0 un calendario exigente: para 2030 todo el software y firmware desplegado en sistemas de seguridad nacional debe usar firmas CNSA 2.0, con plena aplicación esperada hacia 2031-2033 y resistencia cuántica completa en 2035.

La presión se ha intensificado por el lado del hardware cuántico. Entre mayo de 2025 y principios de 2026, varios trabajos redujeron las estimaciones de qubits necesarios para romper RSA-2048 desde unos 20 millones a menos de un millón, e incluso a cifras del orden de 100.000 con nuevas arquitecturas. El “Q-Day” hacia 2030 es cada vez más citado por analistas, el NIST y la NSA. No es una certeza, pero el margen de seguridad se ha estrechado lo suficiente como para que la inacción sea imprudente.

La industria del almacenamiento ya se mueve. NetApp anunció en 2025 PQC para datos en reposo conforme a los algoritmos del NIST, integrada tanto en reposo como en vuelo. Western Digital empezó a integrar PQC aprobada por el NIST en sus discos Ultrastar en 2026, uno de los primeros despliegues en infraestructura de producción. Cohesity, Commvault y Quantum tienen también productos en esta línea. El patrón dominante en 2026 no es la sustitución total, sino los enfoques híbridos que combinan criptografía clásica y post-cuántica: protegen frente a un fallo de los algoritmos nuevos y permiten una migración gradual. Para un arquitecto, la acción concreta de hoy es el inventario criptográfico —crypto-agility—: saber qué algoritmos protegen qué datos y planificar su rotación.

Seguridad específica de los datos de IA: integridad y envenenamiento

Más allá del cifrado clásico, la IA introduce una clase de amenaza propia que recae directamente sobre la capa de datos: el envenenamiento de datos (data poisoning). Un adversario manipula los datos de entrenamiento o de fine-tuning para corromper lo que el modelo aprende. Su rasgo distintivo es el sigilo: un modelo envenenado opera con normalidad durante largos periodos antes de manifestar el comportamiento malicioso, lo que lo hace muy difícil de detectar a posteriori. El OWASP Top 10 para aplicaciones LLM de 2025 reconoce formalmente el “data and model poisoning” como categoría de ataque de integridad, con riesgo especialmente alto cuando se ingieren fuentes externas.

La defensa se ha movido hacia la procedencia y el linaje. Las organizaciones adoptan documentación rigurosa de cada fuente de datos —una “cadena de custodia digital”— y el concepto de ML-BOM (Machine Learning Bill of Materials), análogo al SBOM del software. Marcos como el de gobernanza de IA de FINOS catalogan explícitamente el envenenamiento de datos entre sus riesgos. Para el almacenamiento, esto significa que el sistema debe ser capaz de garantizar la integridad e inmutabilidad del dato de entrenamiento y de registrar su linaje de forma verificable. La integridad deja de ser una propiedad deseable para convertirse en un control de seguridad.

El robo de modelos: cuando el activo a proteger son los pesos

Hay un activo que la conversación tradicional de seguridad de almacenamiento no contemplaba: los pesos del modelo. Entrenar un modelo puntero cuesta decenas o cientos de millones, y el resultado —un fichero de unos pocos TB— concentra todo ese valor. El robo de pesos (model exfiltration) es, en consecuencia, una amenaza de primer orden, y su superficie de ataque es precisamente la capa de almacenamiento donde residen los checkpoints y los modelos finales.

La protección combina varias de las capas ya descritas, aplicadas con un foco específico. El cifrado en reposo con control estricto de claves impide que un atacante que acceda a los discos se lleve un modelo utilizable. El control de acceso de mínimo privilegio limita quién puede leer los directorios de pesos, y la auditoría registra cada acceso para detectar exfiltraciones anómalas —un proceso que de repente lee 4 TB de un directorio de modelos es una señal—. Y el confidential computing, que veremos más abajo, protege los pesos incluso mientras se cargan en la GPU para inferir. La lección para el arquitecto es que el modelo entrenado merece, como mínimo, las mismas defensas que los datos de clientes, porque su pérdida puede ser irreversible y su valor, mayor.

Inmutabilidad y ransomware: la segunda fase del ataque

El ransomware sigue siendo la amenaza de mayor impacto económico sobre el almacenamiento, y su evolución reciente apunta directamente a los backups. La defensa de referencia es la inmutabilidad WORM (Write-Once-Read-Many). En el mundo del objeto, S3 Object Lock impide modificar o borrar datos incluso a un atacante con credenciales administrativas, neutralizando la segunda fase del ataque —el cifrado de los datos de la víctima—. Tiene dos modos: Governance, anulable con permisos específicos, y Compliance, que no puede anular nadie, ni siquiera la cuenta root. Object Lock crea un air-gap lógico que, para muchos casos de uso, hace redundantes las cintas y los air-gaps físicos.

Las cifras justifican la inversión. Los pagos de rescate alcanzaron un récord de 1.100 millones de USD en 2023; el coste total medio de un ataque de ransomware rondó los 5,13 millones de USD en 2024, con un coste medio de recuperación —al margen del rescate— de 1,53 millones en 2025. Dos de cada tres organizaciones sufrieron ransomware en el último año según Sophos.

Para una factoría de inferencia el ransomware tiene un ángulo propio: el objetivo más valioso no es solo el dato de cliente, sino el repositorio de modelos. Cifrar o borrar los pesos que sirve la factoría la deja inoperante de inmediato, con un impacto de negocio directo —el servicio cae— además del coste de recuperación. La defensa es la misma que para cualquier activo crítico, aplicada con prioridad: copias inmutables WORM del repositorio de modelos y de los índices vectoriales, de modo que una versión limpia de cada modelo siempre pueda restaurarse aunque la copia en caliente quede comprometida. Un modelo que tardó meses y millones en producirse, o cuyos pesos no se pueden regenerar, merece la protección de inmutabilidad más estricta disponible.

La respuesta del lado del almacenamiento ha sido integrar la detección en el propio array. Dell PowerProtect Cyber Recovery ofrece una bóveda aislada e inmutable con air-gap automatizado, y su componente CyberSense usa IA y análisis de contenido completo —no solo metadatos— para detectar corrupción por ransomware, con cifras de precisión muy altas anunciadas por el fabricante. NetApp integra Autonomous Ransomware Protection en el almacenamiento, creando snapshots inmutables en tiempo real al analizar patrones de datos en la capa de almacenamiento. Conviene tratar las cifras de precisión (99 % y superiores) como reclamaciones del fabricante, no como benchmarks independientes, pero la tendencia de fondo es real: el array de almacenamiento ha dejado de ser un componente pasivo y se ha convertido en un actor de la defensa.

Un marco útil para priorizar estas inversiones es la expectativa de pérdida anualizada, que relaciona el impacto de un incidente con su frecuencia:

$$\text{ALE} = \text{SLE} \times \text{ARO}$$

donde ( \text{SLE} ) es la pérdida esperada por incidente y ( \text{ARO} ) la frecuencia anual esperada. La inmutabilidad y la recuperación rápida actúan reduciendo el ( \text{SLE} ): aunque el ataque ocurra, la pérdida y el tiempo de recuperación se acotan.

Control de acceso y el coste de la brecha

El cifrado protege el dato; el control de acceso decide quién lo toca. El informe de IBM Cost of a Data Breach 2025 aporta el dato de referencia: el coste medio global de una brecha bajó a 4,44 millones de USD, un 9 % menos y la primera caída en cinco años, impulsada por una contención más rápida gracias a defensas potenciadas por IA —el tiempo medio de identificación y contención cayó a 241 días, el más bajo en nueve años—. Estados Unidos, en cambio, marcó un récord de 10,22 millones. El mayor componente de coste sigue siendo la detección y el escalado.

Las arquitecturas maduras combinan Zero Trust con RBAC como base, atributos ABAC para grano fino y microsegmentación para impedir el movimiento lateral dentro de la red. En un entorno de IA, donde el dato de entrenamiento se mueve entre data lake, pipeline y cluster GPU, la microsegmentación y la autorización contextual y continua dejan de ser opcionales.

Soberanía del dato: la dimensión regulatoria

Para una empresa europea, la seguridad del almacenamiento de IA es inseparable de la soberanía del dato. El EU Data Act, aplicable desde el 12 de septiembre de 2025, obliga a la portabilidad e interoperabilidad de datos para eliminar el vendor lock-in, y en su Capítulo VII exige a los proveedores cloud que operan en la UE medidas técnicas, legales y organizativas para impedir el acceso de gobiernos no comunitarios a datos no personales almacenados en la UE cuando ese acceso sea ilegal bajo derecho europeo. Esto entra en tensión documentada con la US CLOUD Act, que faculta a las autoridades estadounidenses a reclamar datos a proveedores bajo su jurisdicción con independencia de dónde se almacenen.

La respuesta técnica que gana tracción en 2026 es el cifrado del lado del cliente con propiedad total de las claves: quien controla las claves controla el dato, con independencia de dónde resida físicamente. “Quien permite texto plano en la nube cede el control” se ha convertido en el lema de la soberanía real. Para un arquitecto europeo de IA, la residencia del dato y la titularidad de las claves son decisiones de diseño tan importantes como el rendimiento.

El EU AI Act, además, se aplica por fases que tocan la gobernanza del dato: las prácticas prohibidas son exigibles desde febrero de 2025, las obligaciones para modelos de propósito general desde agosto de 2025, y los poderes sancionadores desde agosto de 2026 —si bien el acuerdo provisional del Digital Omnibus de mayo de 2026 aplazó el plazo de los sistemas de alto riesgo del Anexo III a diciembre de 2027, un dato que conviene seguir verificando por su carácter reciente—.

Confidential computing: proteger el dato en uso

El cifrado en reposo y en tránsito deja un hueco: el dato en uso, descifrado en memoria mientras se procesa. El confidential computing lo cierra mediante entornos de ejecución confiables (TEE). En CPU, Intel TDX y AMD SEV-SNP lanzan máquinas virtuales confidenciales con la memoria cifrada. La novedad para la IA está en la GPU.

NVIDIA introdujo confidential computing en la H100 (Hopper) con un modo CC y una raíz de confianza en silicio: la VM confidencial de la CPU intercambia datos cifrados con un enclave en la GPU, extendiendo la cadena de confianza de la CPU a la GPU. La arquitectura Blackwell (B200, GB200) ha dado el salto cualitativo: es la primera GPU del sector con capacidad TEE-I/O, con protección inline sobre NVLink y NVSwitch que elimina los cuellos de botella de I/O por PCIe de las generaciones anteriores. Y lo más relevante para el rendimiento: gracias a motores de cifrado específicos para IA y a un acceso a HBM cifrado y acelerado por hardware, el HGX B200 mantiene su ventaja de aproximadamente 2 veces en entrenamiento y 2,5 veces en inferencia sobre el HGX H200 incluso con el confidential computing plenamente activo. Esto habilita entrenamiento, inferencia y federated learning confidenciales sin la penalización prohibitiva que antes hacía inviable cifrar el dato en uso, protegiendo a la vez los datos sensibles y los propios pesos del modelo frente al robo.

Seguridad en una factoría de inferencia multi-tenant

El confidential computing cobra un sentido especial en una factoría de inferencia, sobre todo si sirve a varios clientes o equipos sobre la misma infraestructura. Aquí la superficie de ataque no es solo el disco en reposo, sino el dato en uso de cada petición: los prompts, los documentos de contexto, las respuestas y, crucialmente, el KV-cache. Y el KV-cache introduce un riesgo propio de la inferencia que conviene nombrar: si una capa de caché se comparte entre inquilinos para ahorrar cómputo —reutilizando prefijos, como vimos en el artículo de rendimiento—, una reutilización mal aislada puede filtrar contenido de un cliente a otro. La regla de diseño es que el prefix caching solo debe compartirse dentro de un mismo dominio de confianza; entre inquilinos distintos, el aislamiento del KV-cache —en memoria, en CXL o en NVMe— es un control de seguridad, no una optimización opcional.

El mismo principio se extiende a los demás planos de la factoría. El repositorio de modelos debe aplicar control de acceso por inquilino para que nadie cargue ni extraiga un modelo ajeno. La base de datos vectorial de RAG debe segmentar los índices por cliente, porque un embedding recuperado del corpus equivocado es a la vez un fallo de calidad y una fuga de datos. Y la telemetría —que registra prompts y respuestas— es uno de los repositorios más sensibles de toda la instalación, sujeto a las mismas exigencias de cifrado, retención y residencia que los datos de cliente. Una factoría de inferencia bien diseñada trata cada uno de estos planos como un dominio de aislamiento, no como un recurso compartido por comodidad.

Un matiz técnico importante del confidential computing es la atestación (attestation). De nada sirve un enclave seguro si no se puede demostrar que el dato se está ejecutando realmente dentro de él y no en un entorno comprometido que finge serlo. La atestación es el mecanismo criptográfico por el que el hardware —la raíz de confianza en silicio de la GPU o la CPU— emite una prueba verificable de su estado e identidad antes de que se le confíen las claves o los datos. En una arquitectura de IA confidencial, la cadena de confianza se extiende desde la VM confidencial de la CPU hasta el enclave de la GPU, y cada eslabón se atesta. Para el arquitecto, la pregunta operativa es quién verifica esas atestaciones y dónde se custodian las claves que solo se liberan tras una atestación válida: ahí es donde el confidential computing se conecta de nuevo con la gestión de claves del principio del artículo.

Una lista de comprobación para el arquitecto

Reunir todo lo anterior en una práctica accionable ayuda a no dejar capas sin cubrir. En reposo: SED con AES-XTS-256 como línea base, gestión de claves externa vía KMIP con HSM, y verificación de certificación FIPS 140-3 en cada módulo, anticipando septiembre de 2026. En tránsito: TLS 1.3 e IPsec donde sea posible, con atención especial al aislamiento en fabrics InfiniBand, donde las herramientas IP no aplican. Frente a la amenaza cuántica: inventario criptográfico, crypto-agility y adopción de esquemas híbridos clásico-PQC para los datos de larga vida, sin esperar al Q-Day. Frente al ransomware: inmutabilidad WORM con S3 Object Lock en modo Compliance para las copias críticas, detección integrada en el array y recuperación probada. En integridad: linaje verificable y ML-BOM para los datos de entrenamiento, con protección reforzada de los pesos del modelo. En la factoría de inferencia, además: aislamiento del KV-cache y del prefix caching entre inquilinos, segmentación por cliente del repositorio de modelos y de los índices vectoriales de RAG, y tratamiento de la telemetría de prompts y respuestas como dato sensible. En gobierno: control de acceso Zero Trust, microsegmentación y auditoría. Y en soberanía: titularidad de las claves y residencia del dato alineadas con el EU Data Act y el EU AI Act. Ninguna de estas capas sustituye a otra; la seguridad real emerge de su combinación.

Para llevarse a casa

La seguridad del almacenamiento de IA es un sistema de capas que hay que diseñar a la vez: cifrado en reposo con SED y migración a FIPS 140-3; cifrado en tránsito con cuidado especial en las fabrics InfiniBand; crypto-agility y enfoques híbridos para anticiparse al riesgo cuántico y al harvest now, decrypt later; integridad y linaje del dato frente al envenenamiento; inmutabilidad WORM frente al ransomware; control de acceso Zero Trust; soberanía del dato mediante titularidad de claves; y confidential computing para proteger el dato y los modelos en uso. La buena noticia es que el array ya no es pasivo: defiende. La mala, que la amenaza más seria —la cuántica— exige actuar antes de ser visible.

El último artículo de la serie cierra con la propiedad sin la cual ninguna de las anteriores importa: la disponibilidad.

Ver también

Fuentes