A vueltas con la anonimización – Hablamos de la K-Anonimidad

Hace unas semanas publicábamos en este Blog un artículo sobre los conceptos y claves de la anonimización de datos de carácter personal, partiendo para ello del análisis de la guía de la Agencia Española de Protección de Datos (AEPD) que recoge una serie de orientaciones y garantías en los procesos de anonimización de datos de carácter personal.

Si bien es cierto que la guía no tenía un carácter novedoso, ya que fue publicada por la AEPD hace varios años, los procesos de anonimización sobre conjuntos de datos personales son actualmente un pilar base para responsables y encargados del tratamiento, en lo que a medidas de seguridad se refiere.

Sin embargo, una de las problemáticas que estos mecanismos plantean, y así lo hacíamos constar en el artículo mencionado, es la dificultad de aplicar un proceso de anonimización que garantice de manera absoluta, la no reidentificación posterior de los titulares de los datos.

Precisamente para abordar cuáles son los límites en la efectividad de esos procesos de anonimización, la AEPD ha publicado hace unos días una nota técnica, en la que también analiza hasta qué punto la información está realmente anonimizada, y cómo se puede gestionar el riesgo de reidentificación.

En este documento, elaborado por la Unidad de Evaluación y Estudios Tecnológicos de la autoridad española de protección de datos, se parte de la base de que, en aplicación del principio de responsabilidad proactiva o accountability establecido en el Reglamento General de Protección de Datos (RGPD), el responsable debe analizar los riesgos en los tratamientos de datos, en este caso concreto, los de reidentificación derivado de sus procesos de anonimización, así como los generados en el proceso posterior y en el enriquecimiento de conjuntos de datos. El fin último de este análisis, no es otro que alcanzar un balance correcto entre la necesidad de obtener unos resultados con una determinada fidelidad, y el coste que el tratamiento puede tener para los derechos y libertades de los ciudadanos.

Para dar solución a este problema y evitar la desanonimización de un conjunto de datos, se ha desarrollado una disciplina conocida como Control de Revelación Estadística o técnicas SDC (Statistical Disclosure Control, más información a este respecto aquí), que tiene como objeto estudiar la forma más óptima de realizar un tratamiento adicional sobre la información de los sujetos de datos, consiguiendo al mismo tiempo maximizar la privacidad y mantener los objetivos establecidos en la aplicación o servicio que explota tales datos.

Si bien es cierto que existen diferentes técnicas orientadas a preservar la privacidad de los datos personales de individuos, todas ellas encaminadas a limitar las amenazas a la privacidad que pueden materializarse al desanonimizar la información, la AEPD centra su análisis en la K-anonimización, técnica ya mencionada por el antiguo Grupo de Trabajo del Artículo 29 en su Opinión 05/2014.

¿En qué consiste realmente la K-anonimidad?

La K-anonimidad se puede definir como una propiedad de los datos anonimizados que permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes en un conjunto de datos en el que se han eliminado los identificadores, es decir, una medida del riesgo de que agentes externos puedan obtener información de carácter personal a partir de datos anonimizados.

Cada registro incluido en el conjunto de datos que se va a anonimizar tiene unas especificaciones o atributos que lo definen. En este punto, la nota técnica clasifica estos atributos, atendiendo a su naturaleza o al tipo de información que contienen, de la siguiente manera:

  • Atributos clave o identificadoresIdentifican unívocamente a los sujetos de los datos, como puede ser el nombre o el número del DNI. Esta tipología de datos debe eliminarse de los registros anonimizados.
  • Cuasi-identificadores. Son campos que por sí mismos y de forma aislada no identifican a un individuo, sin embargo, agrupados con otros atributos cuasi-identificadores pueden señalar de forma unívoca a un sujeto. Precisamente sobre estos datos trabajan las técnicas de anonimización, eliminando campos que no son necesarios para el tratamiento, generalizándolos o agregándolos, en cumplimiento del principio de minimización.
  • Atributos sensibles. Contienen datos que pueden tener mayor impacto en la privacidad de los sujetos, incluyéndose entre ellos las categorías especiales de datos previstas en el artículo 9.1 del RGPD. Estos datos nunca deben ser vinculados con el sujeto al que pertenecen.

Definida la clasificación de atributos, es esencial determinar que la K-anonimidad no se centra en los atributos sensibles de los registros, sino en los atributos cuasi-identificadores que pueden permitir la vinculación.

Ahora bien, para que un individuo sea considerado k-anónimo dentro del conjunto de datos en el que se encuentra incluido, es necesario que para cualquier combinación de los atributos cuasi-identificadores asociados, existan al menos otros individuos que comparten con él los mismos valores para esos mismos atributos.

Por ello, interesa un alto para garantizar una buena anonimización, ya que mayores valores de ? se corresponden con requisitos de privacidad más exigentes, dado que será necesaria la existencia de más sujetos dentro de un grupo, que satisfagan idéntica combinación de rasgos identificativos.

Sin embargo, obtener una buena proporción de k puede suponer la pérdida de fidelidad en los datos de origen, por lo que hay que determinar si en esa pérdida de fidelidad hay o no pérdida de información que sea relevante para la finalidad del tratamiento.  En el caso de que se pierda información relevante, se debe conseguir un equilibrio entre el riesgo para los sujetos de ser identificados y la potencial pérdida de fidelidad del resultado.

¿Qué métodos se pueden utilizar para alcanzar una proporción óptima de k?

El proceso de k-anonimización consiste en sustituir variables de información concreta por otras más genéricas, conservando el dato relevante y generalizando o eliminando otros, sin que esto suponga introducir datos nuevos o erróneos. De ahí que los dos métodos ampliamente utilizados en la K-anonimización sean:

  • Generalización.  Consiste en transformar datos específicos por otros menos precisos y por tanto más genéricos, dentro de un conjunto o intervalo que comparte los mismos valores. De este modo, el número de registros que poseen los mismos valores para un conjunto de atributos cuasi-identificadores se puede incrementar con el objeto de satisfacer los requisitos de privacidad a la vez que sigue siendo posible cumplir con la finalidad del tratamiento. Por ejemplo, el dato de la edad puede indicarse dentro de un rango numérico, o el código postal dentro de una jerarquía.
  • Eliminación. En este método, se suprimen o eliminan los registros que pueden contaminar el conjunto de datos o distorsionar los resultados. Los registros que tengan valores poco comunes deben también suprimirse puesto que incrementan considerablemente la posibilidad de reidentificar a una persona.

Si recordamos las distintas técnicas de anonimización que la AEPD exponía en la Guía mencionada al inicio de este artículo, tendríamos que englobar estas metodologías de la K-anonimización dentro de las técnicas de perturbación de datos (variación y supresión sistemática de datos que evita que las cifras resultantes faciliten información sobre casos específicos), y reducción de datos (se reduce el número de datos originales sin alterar los mismos, disminuyen el nivel de detalle de los datos originales evitando la presencia datos únicos o atípicos sin relevancia para el resultado final).

No podemos olvidarnos de que la anonimización de la información siempre generará, independientemente de las buenas prácticas empleadas, cierto grado de distorsión entre la información anonimizada y la información no anonimizada. Esta distorsión es conocida como “diferencial de privacidad” que se tendrá en cuenta en los procesos de anonimización y cuyos índices deben ser cuantificables y asumibles dentro de la finalidad a la que vayan a destinarse los datos anonimizados, lo que puede significar cierto grado de desconfianza hacia los resultados de los análisis de la información.

La distorsión que introducen estas dos metodologías en el proceso de anonimización es de distintos tipos y grados:

  • Anonimizar basándose en técnicas de eliminación puede suponer tener que eliminar un número considerable de registros del conjunto de datos tratados, que puede llegar a distorsionar el resultado de los análisis.
  • La generalización hace que se desaproveche el potencial informativo de los datos, haciendo que se pierda la capacidad de extraer conclusiones del valor de dichos datos en su relación con otros campos de información.

Herramientas de k-anonimización

La AEPD propone diferentes soluciones software, tanto abiertas como comerciales, que permiten K-anonimizar el conjunto de datos: ARX Data Anonymization Tool (herramienta de código abierto que permite transformar conjuntos de datos personales estructurados utilizando técnicas SDC); Herramienta de anonimización UTD (de código abierto desarrollada en el UT Dallas Data Security y Privacy Lab, para uso público por parte de investigadores) y Amnesia (herramienta que permite eliminar la información no sólo asociada a los identificadores directos, sino que también transforma los atributos cuasi-identificadores).

En definitiva, independientemente de la técnica escogida por el responsable del tratamiento, éste deberá velar siempre por mantener la seguridad y privacidad de los datos personales que trate, y si bien es cierto que algunas entidades consideran suficiente para garantizar la anonimidad de los sujetos objeto de estudio suprimir o enmascarar los atributos de carácter identificativo, es posible que campos comunes presentes en diferentes fuentes de datos, convenientemente agrupados o cruzados, se conviertan en un atributo seudoidentificador que llegue a comprometer la privacidad de las personas.

Por ello, no es posible limitar la anonimización a la simple aplicación rutinaria y pasiva de determinadas reglas de uso común, sino que en cumplimiento del principio de responsabilidad proactiva o accountability, es imprescindible realizar un análisis de los riesgos de reidentificación en los procesos de anonimización que se lleven a cabo, escogiendo de manera adecuada el tipo de atributos cuasi-identificadores utilizados. Así, se reducirá la probabilidad de que se crucen dichos campos con otros contenidos en fuentes de datos externas, aumentando así el riesgo para los derechos y libertades de los interesados.

El objetivo último es alcanzar un equilibrio entre el beneficio que se obtendrá para la sociedad en la realización de un tratamiento con un grado de fidelidad determinado y el coste que dicho tratamiento implica para los derechos y libertades de los sujetos de los datos.