Tema 12

12. Cifrado de datos en reposo, gestión de claves y tokenización

Proteger la información mientras está almacenada es una necesidad central en seguridad de bases de datos. El cifrado en reposo, la correcta gestión de claves y el uso de técnicas como la tokenización ayudan a reducir el impacto de accesos no autorizados sobre discos, backups, réplicas y conjuntos persistentes de datos.

Objetivo Proteger los datos cuando ya están almacenados
Enfoque Cifrado, claves y reducción de exposición
Resultado Disminuir el impacto de robo, fuga o acceso físico/lógico

12.1 Introducción

Una vez que los datos están guardados en discos, volúmenes, snapshots, backups o servicios de almacenamiento persistente, aparecen nuevos riesgos. Un atacante no siempre necesita comprometer el motor en ejecución para obtener información. A veces le alcanza con acceder a un archivo de backup, a un volumen montado, a una réplica olvidada o a un snapshot expuesto para llevarse grandes cantidades de datos.

El cifrado en reposo busca reducir ese riesgo protegiendo la información almacenada de manera que no sea legible sin el material criptográfico adecuado. Sin embargo, cifrar no es suficiente por sí solo. Si las claves están mal gestionadas o demasiado cerca del dato, la protección real se debilita considerablemente.

En este tema abordaremos tres conceptos estrechamente relacionados: cifrado en reposo, gestión de claves y tokenización. Juntos permiten construir una estrategia más robusta para proteger información persistente.

12.2 Qué son los datos en reposo

Los datos en reposo son aquellos que se encuentran almacenados de forma persistente, ya sea dentro del motor de base de datos o en componentes derivados de su operación. No se limitan a las tablas activas visibles desde una aplicación.

En la práctica, incluyen:

  • Archivos de datos del motor.
  • Archivos de log o journal transaccional.
  • Índices y estructuras auxiliares persistentes.
  • Backups, exportaciones, snapshots y volcados.
  • Réplicas, entornos secundarios y datasets de prueba.
Proteger datos en reposo significa pensar más allá de la tabla productiva. Toda copia persistente que contenga información sensible debe formar parte del alcance de seguridad.

12.3 Qué riesgos busca mitigar el cifrado en reposo

El cifrado en reposo no resuelve todos los problemas de seguridad, pero sí mitiga escenarios importantes donde el atacante obtiene acceso al soporte de almacenamiento sin pasar necesariamente por todos los controles lógicos del motor.

Escenario Qué ocurre sin cifrado Qué aporta el cifrado
Robo o copia de discos Acceso directo al contenido almacenado Dificulta la lectura sin la clave
Backup expuesto La información puede abrirse offline Reduce utilidad del archivo robado
Snapshot mal compartido Exposición masiva de datos históricos Protege el contenido persistente
Acceso físico o administrativo parcial Lectura de archivos fuera del flujo normal del motor Agrega barrera criptográfica adicional

Lo importante es entender que el cifrado en reposo reduce impacto sobre soportes y copias, pero no sustituye autorización, auditoría ni segmentación.

12.4 Niveles posibles de cifrado en reposo

La protección en reposo puede implementarse en distintos niveles. Cada uno ofrece ventajas y limitaciones, y en muchos casos se combinan.

  • Nivel de disco o volumen: protege el soporte subyacente donde reside la base.
  • Nivel de archivo o sistema: protege directorios o archivos específicos.
  • Nivel del motor: cifra estructuras internas gestionadas por la base de datos.
  • Nivel de columna o campo: protege atributos concretos dentro de la información almacenada.
  • Nivel de aplicación: los datos llegan cifrados al motor desde capas superiores.

Cada nivel responde a un conjunto distinto de amenazas. Por eso conviene elegirlos según sensibilidad del dato, arquitectura y modelo operativo.

12.5 Cifrado a nivel de disco o volumen

El cifrado de disco o volumen suele ser una primera capa útil porque protege el contenido almacenado ante robo físico, desmontaje o lectura directa del soporte. Es relativamente transparente para la aplicación y para el motor, lo que facilita su adopción.

Sin embargo, tiene limitaciones claras. Si el sistema está en ejecución y el volumen ya está montado, un proceso con acceso lógico suficiente puede seguir interactuando con los datos. Por eso este nivel ayuda a mitigar ciertos escenarios, pero no reemplaza controles más cercanos al dato ni al motor.

El cifrado de disco protege el soporte. No necesariamente protege frente a usuarios, servicios o procesos que ya operan dentro de un sistema encendido y autenticado.

12.6 Cifrado a nivel del motor de base de datos

Muchos motores ofrecen capacidades de cifrado integradas para proteger datos, logs, temporales o estructuras relacionadas. Este enfoque puede ser más rico que el cifrado de volumen porque se integra con la lógica del propio sistema de base de datos.

Entre sus ventajas suelen estar:

  • Mayor control sobre qué componentes del motor se cifran.
  • Integración con gestión de claves o módulos externos.
  • Menor dependencia de la infraestructura subyacente.
  • Mejor alineación con backups y restauraciones gestionadas por el motor.

De todos modos, sigue siendo fundamental entender qué protege exactamente y qué no. No todos los motores cubren del mismo modo archivos temporales, caches, exportaciones o datos derivados.

12.7 Cifrado a nivel de columna o campo

Cuando ciertos atributos tienen una sensibilidad mucho mayor que el resto, puede ser útil cifrarlos individualmente. Este enfoque permite aplicar protección reforzada sobre datos específicos sin cifrar necesariamente toda la base del mismo modo.

Se suele considerar especialmente para:

  • Identificadores personales muy sensibles.
  • Datos financieros o bancarios.
  • Secretos, tokens o material altamente confidencial.
  • Atributos sometidos a regulación estricta.

Su principal ventaja es la precisión. Su principal desafío es la complejidad: afecta consultas, indexación, búsquedas, rendimiento y diseño de aplicaciones. Por eso no debe adoptarse de forma indiscriminada, sino donde el valor de la protección adicional justifique el costo operativo.

12.8 La gestión de claves: el punto crítico

El verdadero valor del cifrado depende de la gestión de claves. Si la información está cifrada pero la clave se encuentra expuesta, incrustada en código, almacenada junto con el backup o accesible sin control, la protección se vuelve más teórica que real.

Una gestión madura de claves debe responder, como mínimo, estas preguntas:

  • Dónde se almacenan las claves.
  • Quién puede acceder a ellas y bajo qué condiciones.
  • Cómo se distribuyen a los sistemas autorizados.
  • Cómo se rotan, reemplazan y revocan.
  • Qué trazabilidad existe sobre su uso.
En seguridad criptográfica, la clave vale más que el dato cifrado. Si la clave cae, la protección suele caer con ella.

12.9 Buenas prácticas de gestión de claves

Aunque los detalles cambian según la plataforma y la infraestructura, existen principios bastante estables para una buena gestión de claves.

  1. Mantener las claves separadas de los datos que protegen.
  2. Restringir acceso a las claves al mínimo conjunto de procesos y operadores necesarios.
  3. Rotar material criptográfico según criticidad, exposición y eventos de riesgo.
  4. Registrar uso, acceso y eventos relevantes asociados a claves sensibles.
  5. Evitar incrustar claves en aplicaciones, scripts o archivos de configuración abiertos.

Estas prácticas no hacen invulnerable a la plataforma, pero elevan significativamente el costo y la dificultad de comprometer datos cifrados.

12.10 Tokenización: concepto y utilidad

La tokenización es una técnica que reemplaza un dato sensible por un valor sustituto o token que no tiene valor directo fuera del sistema que mantiene la relación entre ambos. A diferencia del cifrado, el token no necesariamente permite recuperar el dato original por sí mismo; la reversibilidad depende del diseño del sistema tokenizador.

Su utilidad es alta cuando se desea reducir exposición de datos sensibles en sistemas que no necesitan procesar el valor real en todo momento. Por ejemplo, aplicaciones o procesos pueden trabajar con tokens mientras el dato original permanece protegido en un componente más restringido.

La tokenización no reemplaza siempre al cifrado, pero puede complementarlo muy bien cuando el objetivo es minimizar la circulación y la exposición del dato real en múltiples sistemas.

12.11 Cifrado versus tokenización

Aunque ambos mecanismos protegen información sensible, responden a necesidades distintas.

Aspecto Cifrado Tokenización
Objetivo principal Hacer ilegible el dato sin clave Reemplazar el dato por un valor sustituto
Reversibilidad Normalmente reversible con la clave Depende del sistema de tokens
Uso típico Proteger almacenamiento o transporte Reducir exposición del dato real en otros sistemas
Dependencia crítica Gestión segura de claves Protección del sistema de mapeo o vault

12.12 Backups, snapshots y copias derivadas

Un error frecuente es pensar el cifrado en reposo solo para la base principal. Sin embargo, muchos incidentes relevantes ocurren en activos derivados: backups automáticos, snapshots cloud, exportaciones manuales, datasets de prueba y medios de recuperación.

Si estas copias no están cifradas o se gestionan con claves débiles, se convierten en el camino más fácil para extraer información. Además, suelen contener grandes volúmenes de datos históricos y pueden permanecer accesibles mucho después de que la base principal haya cambiado.

Por eso, una estrategia seria de cifrado en reposo debe extenderse a todo el ecosistema persistente, no solo al almacenamiento principal del motor.

12.13 Rendimiento, diseño y compensaciones

El cifrado, especialmente a niveles más finos, puede introducir costos operativos y técnicos: complejidad de diseño, impacto en consultas, limitaciones en indexación o dependencia de infraestructura adicional para claves. La respuesta adecuada no es evitarlo, sino elegir el nivel correcto para cada caso.

Una decisión madura considera:

  • Sensibilidad del dato.
  • Probabilidad e impacto de acceso no autorizado al soporte.
  • Necesidad real de búsquedas o procesamiento sobre el valor protegido.
  • Capacidad de gobernar claves, rotación y recuperación.

En seguridad, el objetivo no es cifrar absolutamente todo de la misma manera, sino aplicar protección proporcional al riesgo.

12.14 Errores frecuentes en cifrado en reposo y claves

  • Cifrar los datos pero almacenar las claves junto a ellos o en rutas fácilmente accesibles.
  • Proteger la base principal y olvidar backups, snapshots o exports.
  • Suponer que el cifrado de disco resuelve por sí solo todos los escenarios.
  • No definir procesos de rotación, revocación o recuperación de claves.
  • Aplicar cifrado de columna sin evaluar impacto operativo ni modelo de acceso.
  • Confundir tokenización con simple enmascaramiento o pseudonimización superficial.
El error más peligroso en protección de datos en reposo no es no cifrar, sino creer que el problema quedó resuelto después de activar una opción sin revisar claves, copias derivadas y alcance real de la protección.

12.15 Qué debes recordar de este tema

  • Los datos en reposo incluyen archivos del motor, logs, backups, snapshots, réplicas y otras copias persistentes.
  • El cifrado en reposo reduce el impacto de accesos al soporte o a copias fuera del flujo normal del motor.
  • La gestión de claves es tan importante como el cifrado mismo.
  • La tokenización ayuda a reducir exposición del dato real en sistemas que no necesitan procesarlo directamente.
  • La protección efectiva debe extenderse a todo el ecosistema de almacenamiento y no solo a la base principal.

12.16 Conclusión

El cifrado en reposo, la buena gestión de claves y la tokenización permiten proteger la información más allá del motor en ejecución, reduciendo el valor de discos, backups y copias comprometidas. Son herramientas fundamentales para disminuir el impacto de fugas y accesos no autorizados sobre información persistente.

En el próximo tema estudiaremos el enmascaramiento, la anonimización y la protección de datos en entornos de prueba, donde el desafío no es solo almacenar de forma segura, sino evitar exponer datos reales en contextos menos controlados.