Cómo aplicar correctamente las técnicas de anonimización y seudonimización y la reidentificación de los datos personales

La Agencia Española de Protección de Datos ha publicado recientemente la traducción de la Guía básica de Anonimización de la Autoridad Nacional de Protección de Datos de Singapur. En ella, nos da pauta de cómo aplicar correctamente las técnicas de anonimización y seudonimización, así como los casos de reidentificación de los datos personales.

Su contenido pretende ser un primer contacto con el concepto, focalizándose en la implementación de técnicas de anonimización en conjuntos de datos estructurados -que son aquellos que tienen un formato definido y tabular-, textuales -alfanuméricos en formato digital- y no complejos, como lo sería un video.

Antes de proceder a aplicar cualquier técnica de anonimización, hay que poner de relieve una premisa, y es que los datos personales sobre los que se pretende realizar dicho proceso han sido recopilados y tratados de conformidad con la normativa vigente.

Además, es necesario reflexionar sobre el propósito y resultado que buscamos con dicha anonimización, pues no todos los sectores y actividades dentro de un sector pueden permitirse el uso de estas técnicas y, ejemplo de ello, lo encontramos en el ámbito sanitario. Los profesionales de un hospital deben conocer cuáles son nuestras alergias y patologías a la hora de recetarnos cualquier medicamento, por lo que no cabría aplicar técnicas de anonimización para el tratamiento de dichos datos. En cambio, si lo que busca el hospital es publicar estadísticas sobre los pacientes que han pasado a lo largo del último año por cada una de sus unidades, sí tendríamos que considerar su aplicación y el grado de granularidad de la misma.

Por esto, elevar el grado de anonimidad no siempre es factible ni beneficioso, pues va a depender de si la pérdida de precisión o relevancia de los datos afecta a la finalidad.

Dentro del ámbito de la guía, debemos diferenciar entre los conceptos de anonimización, seudonimización, desidentificación y reidentificación, que pasamos a detallar a continuación:

  • Anonimización: Es el proceso a través del cual, eliminando parcial o totalmente los identificadores directos o indirectos de un sujeto o un compendio de estos, se impide irreversiblemente la asociación con el mismo. El objetivo de dicho proceso es mantener la utilidad de los datos para los fines previstos, preservando los principios de finalidad y minimización de datos, atendiendo a la necesidad y el equilibrio ponderado de los resultados que pretenden obtenerse.

Una vez los datos han sido anonimizados, dejan de entroncarse dentro de la aplicación de la normativa en materia de protección de datos, pues tal y como señala el Considerando 26, el Reglamento no afecta al tratamiento de la información anónima, si bien como veremos un poco más adelante, esto no implica que no haya que realizar un análisis de los riesgos presentes y futuros respecto a la reidentificación de los datos.

En este sentido, hay que tener en cuenta que, incluso cuando se utilizan técnicas de anonimización, siempre va a existir un nivel de riesgo de identificación residual que habrá que controlar, pero eso no significa que la técnica sea ineficaz o que dicho riesgo sea suficiente para que el tratamiento o los datos en su conjunto se circunscriban dentro del ámbito normativo. Es decir, los datos se considerarán anonimizados en la medida que no exista una probabilidad razonable de identificación dentro del conjunto.

  • Seudonimización: Son técnicas a través de las cuales la identificación de los sujetos se ve dificultada sin información adicional, siempre que dicha adición “figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable”. Un ejemplo habitual de estos casos, es la sustitución del nombre y apellido por un código que responda a los criterios establecidos por la entidad.

Al contrario que en el caso de la anonimización, aquí no se están destruyendo los identificadores del sujeto, sino que se buscan alternativas, como la asignación de códigos, la encriptación o el uso de índices alternativos, para impedir el acceso directo a aquellos datos que permiten la vinculación con el sujeto, razón por la que la normativa en materia de protección de datos sí se aplica.  

Habitualmente, este tipo de técnicas se aplican con la finalidad de ayudar a cumplir las obligaciones en materia de protección de datos de responsables y encargados, pues en función del objeto de la actividad, puede no ser necesario el tratamiento de ciertos datos para llevar a cabo su función, pero sí que exista trazabilidad, por lo que su destrucción no sería viable. La asignación de seudónimos también debe cumplir con ciertos parámetros, pues no puede otorgar capacidad a terceros no autorizados de identificar directamente a los sujetos.

  • Desidentificación: Se trata de una de las primeras fases de la anonimización y consiste en la eliminación de los identificadores directos. Desidentificar no es anonimizar, pues el grado de singularización no se ha reducido lo suficiente como para impedir la reidentificación. Un ejemplo de ello sería la eliminación del nombre y apellidos del individuo.
  • Reidentificación: Es la capacidad o probabilidad de reversión de los datos previamente anonimizados. Esta reversión no se circunscribe exclusivamente a la posibilidad de recuperar el nombre y apellidos o el domicilio, sino a la potencial singularización, incluyendo la posibilidad de inferir quien es la persona que se encuentra detrás de ellos. Esta probabilidad puede variar a lo largo del tiempo en función de ciertos factores, entre los que destaca:
  • La evolución de las nuevas tecnologías, cuyo ejemplo más claro es la computación en nube, que proporciona capacidad y recursos suficientes como para almacenar y cruzar información suficiente como para identificar a un sujeto dentro de un conjunto. También debemos observar con detenimiento la potencialidad de la computación cuántica a alterar el paradigma en el que estamos inmersos hoy en día, pues está llamada a revolucionar nuestras vidas tal y como las conocemos.
  • La información que se encuentre en registros de acceso público y la que nosotros mismos expongamos en redes sociales.
  • La amplitud del conjunto de sujetos sobre el que se realizó la anonimización.  Cuanto más reducido es el grupo, más posibilidades de reidentificar a un individuo.

Claros los conceptos, la guía estructura el proceso en cinco fases:

  1. Conoce tus datos.

El primer paso consiste en advertir cuál es la taxonomía de los datos personales tratados. Para ello, propone tres grandes categorías:

  • Identificadores directos.

Son los atributos exclusivos de un individuo. Dentro de esta categoría encontraríamos nuestro nombre y apellidos, el número del DNI o el usuario en redes sociales.

  • Seudoidentificadores

No son exclusivos de un individuo, pero pueden llegar a identificarlo dentro del conjunto de datos. En este caso, hablaríamos de datos personales tan variados como la edad, la geolocalización o el estado civil.

  • Atributos objetivos.

Surgen a consecuencia de la actividad objeto del servicio o del procesamiento de los datos personales, como puede ser la calificación crediticia, el resultado de un examen o un diagnóstico médico. Estos datos no son por lo general públicos, ni de fácil acceso. Además, suelen tener un mayor impacto para el sujeto de los datos.

  • Desidentifique tus datos.

Consiste en la eliminación de todos los identificadores directos. En este punto, la guía habla de la codificación de los datos personales mediante la asignación de un pseudónimo, pero sin eliminar el registro. Esta técnica puede ser útil para aquellos casos en los que no sea necesario conocer al sujeto de los datos directamente para trabajar sobre el resto, pero la posibilidad de reversión de los datos al no destruir la información adicional implica, sino extraerla y cifrarla, no es suficiente para considerarlo anonimización. En este sentido, la AEPD y el Supervisor Europeo de Protección de Datos publicaron el año pasado una guía sobre los malentendidos relacionados con la anonimización.

  • Aplique técnicas de anonimización.

Estas técnicas se aplican sobre los seudoidentificadores con el objeto de dificultar la singularización de los individuos. Habrá ocasiones en las que será necesario combinar varias para lograr su propósito. Destacan:

  • Supresión de registros y/o atributos: es la eliminación de uno o varios valores o campos. Esta técnica resulta adecuada cuando nos encontramos ante registros únicos que singularizan al individuo o ante campos innecesarios.

Por ejemplo, la eliminación del nombre y los apellidos.

  • Enmascaramiento de caracteres: es la sustitución de ciertos caracteres dentro de un mismo valor, haciendo que este pierda precisión.

Un ejemplo sería la supresión de las últimas cifras del código postal – 47xxx/471xx o 4701x-, con lo que la localización del sujeto de los datos quedaría amplificada geográficamente hablando a la provincia, municipio o áreas.

  • Generalización: es la reducción de la granularidad de los datos a través del aumento de rango del atributo. Cuanto más dilatemos el rango, menos precisión.

Esta técnica puede usarse con las edades, pues en ocasiones no necesitamos conocer la fecha exacta, pudiéndonos mover entre tramos de edad. Por ejemplo, no es imprescindible saber que el sujeto de los datos tiene 28 años, por lo que pueden establecerse rangos de 5 en 5 años.

  • Perturbación de los datos: es la modificación de identificadores indirectos a través de algún parámetro o fórmula matemática aplicada de forma homogénea a todos los campos de un atributo.

Por ejemplo, el redondeo del montante total de las inversiones financieras realizadas por personas físicas a lo largo de un año.

  • Intercambio: es la reorganización aleatoria de los datos. De este modo, los valores siguen estando presentes, pero no tienen por qué corresponder necesariamente con los registros originales.
  • Calcular el riesgo.

Una vez hemos aplicado las técnicas pertinentes sobre el conjunto de datos resultante, debemos valorar cuál es el riesgo residual de reidentificación. Para ello, la guía sugiere el uso de la K-anonimidad, que es un método a través del cual se logra cuantificar el grado de anonimidad resultante de los individuos dentro de un conjunto de datos en el que se han eliminado los identificadores.

Un individuo es K-anónimo, si dentro del conjunto de datos hay uno o más individuos que comparten los mismos valores en todos los campos. Cuanto mayor sea el valor de K -cuyo valor aceptable suele encontrarse entre 3 y 5-, más alto es el grado de anonimidad. Ahora bien, esta fórmula no engloba los atributos objetivos, por lo que no sería adecuada para conjuntos de datos complejos. Para conocer más sobre la K-anonimidad, puedes leer este post.

  • Gestionar el riesgo.

Reside en adoptar controles periódicos de reevaluación de los riesgos, estableciendo medidas encaminadas a mitigar el posible impacto en la privacidad de las personas que pudieran llegar a ser reidentificadas. En concreto, habría que dilucidar las amanezadas de:

  • Reidentificación. Probabilidad de revelar la identidad de un individuo concreto.
  • Revelación de atributos. Capacidad de identificar que un atributo corresponde a un sujeto dentro del conjunto.
  • Revelación de inferencias. Posibilidad de inferir datos de individuos dentro y fuera del conjunto anonimizado.

Dentro de cada una de las amenazadas, habrá que tener en cuenta los riesgos conocidos, potenciales y no conocidos, tanto presentes como futuros.

Para ello, es imprescindible documentar todo el proceso de anonimización, incluyendo los parámetros y controles utilizados antes y durante el proceso, planificación y asignación de las tareas, así como los sistemas de información implicados.

Dentro de los controles lógicos y legales, destaca la creación de un registro con todos los datos compartidos anonimizados, la prohibición de ceder a terceros los datos compartidos, y el desistimiento de todo intento de reidentificación.

En definitiva, la anonimización es un concepto que se encuentra vinculado a la limitación de la finalidad y la minimización de los datos, pues no deja de ser una reflexión sobre la necesidad de seguir tratando datos personales, que busca encontrar un equilibrio entre la reducción del riesgo de reidentificación y el mantenimiento de la utilidad del conjunto de datos para los fines previstos. Si quieres conocer en profundidad las técnicas, puedes consultar los Anexos de la guía o acudir a la herramienta que ha desplegado la propia Autoridad de Datos de Singapur.