DECLARACIÓN CONJUNTA SOBRE EXTRACCIÓN DE DATOS Y PROTECCIÓN DE DATOS: EL DATA SCRAPPING EN EL PUNTO DE MIRA DE LAS AUTORIDADES DE CONTROL  

Autora: Pilar Torrijo.

Declaración conjunta sobre extracción de datos y protección de datos: el DATA SCRAPPING en el punto de mira de las autoridades de control

El pasado 24 de agosto de 2023, doce autoridades de protección de datos (Argentina, Australia, Canadá, Colombia, Hong Kong, Jersey, México, Marruecos, Nueva Zelanda, Noruega, Suiza y Reino Unido) han publicado una declaración conjunta pidiendo que se protejan los datos personales contenidos en las Webs de la extracción ilegal de los mismos (“web scraping”). 

En esta declaración, los firmantes hacen hincapié en que hay gran cantidad de datos personales contenidos en las páginas web de acceso público y que estos son accesibles y pueden ser extraídos a través de técnicas de “web   scraping«, y utilizados para cualquier uso, no siempre lícito.

El Web scraping o raspado web es una técnica utilizada mediante programas de software para extraer información de sitios web.​ Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

Para proteger la privacidad de las personas cuyos datos personales están accesibles en las Webs, dan una serie de recomendaciones, tanto a las empresas propietarias de las mismas, como a los usuarios:

A los dueños de las Webs les instan a cumplir con la legalidad vigente en materia de protección de datos y a configurar sus páginas para ayudar a los usuarios a proteger su privacidad, facilitando el consentimiento diferenciado para cada uso, y dando información sobre el destino y el tratamiento de los datos personales introducidos. Asimismo, les instan a poner el máximo celo para proteger los datos de sus usuarios de las técnicas de “data scraping”, prohibiendo este uso en los “Términos y Condiciones” de sus páginas, así como adoptando diferentes medidas de seguridad que impidan el “scraping”.

A los usuarios de las Webs les aconsejan no introducir sus datos personales a la ligera, conocer el uso y la protección de los mismos a través de la lectura de los textos legales de las Webs a las que accedan, revisar, actualizar, y pedir la eliminación de datos personales no necesarios, y les informan de los riesgos para su privacidad, economía y reputación del cruce de sus datos extraídos con otras bases de datos.

Además, piden a los dueños de las Webs que remitan al grupo de trabajo los comentarios que consideren oportunos en el plazo de un mes desde la firma de la declaración, plazo vencido el pasado 24 de agosto.

Sigue a continuación la Declaración traducida.

Declaración conjunta sobre extracción de datos (“data scraping”) y protección de la privacidad de 24 de agosto de 2023 

Conclusiones clave:

  • La información personal que es de acceso público está sujeta a las leyes de protección de datos y privacidad en la mayoría de las jurisdicciones.
  • Las empresas de redes sociales y operadores de sitios web que albergan información de acceso público tienen la obligación, según la normativa de protección de datos y privacidad, de proteger la información personal contenida en sus plataformas contra la extracción ilegal de datos.
  • Los incidentes de extracción masiva de datos que recopilan información personal pueden constituir violaciones de datos reportables en muchas jurisdicciones.
  • Las personas también pueden tomar medidas para proteger su información personal de los métodos de extracción de datos, y las empresas de redes sociales permitir que los usuarios interactúen con sus servicios de manera que se proteja la privacidad.

Introducción

1. La extracción de datos generalmente implica la extracción automatizada de datos de la web. Las autoridades están viendo cada vez más incidentes relacionados con el robo de datos, particularmente de las redes sociales y otros sitios web que alojan datos de acceso público.

2. La capacidad de las tecnologías de extracción de datos para recopilar y procesar grandes cantidades de datos de personas es muy elevada.  La información personal de Internet plantea muchos interrogantes sobre la protección de la privacidad, incluso cuando la información que se extrae es de acceso público.

3. En la mayoría de las jurisdicciones, la información personal que esté “públicamente disponible”, “públicamente accesible” o “de carácter público” en Internet, está sujeta a las leyes de protección de datos y privacidad. Los individuos y las empresas que recopilan dicha información personal son, por lo tanto, responsables de garantizar que cumplen con estas y otras leyes aplicables. Sin embargo, las empresas de redes sociales y los operadores de otros sitios web que alojan información personal de acceso público (SMC [1]y otros sitios web) también tienen obligación de proteger los datos de la extracción por parte de terceros de sus sitios. Esta obligación se aplicará a la información personal, ya sea esta accesible al público o no. La extracción masiva de datos de información personal puede constituir una violación de datos prohibida en muchas jurisdicciones.

4. La información personal extraída se puede explotar para diversos fines, como la de sacar dinero a través de la utilización de los datos en sitios web de terceros, la venta a actores maliciosos o su uso para análisis privados o recopilaciones de inteligencia artificial, lo que genera graves riesgos para las personas, como se explica más adelante.

5. Los SMCS y otros sitios web deben considerar cuidadosamente la legalidad de los diferentes tipos de extracción de datos, en las jurisdicciones que esté permitido, e implementar medidas de protección contra la extracción ilícita de datos.

6. El objetivo de esta declaración conjunta es:

  • Describir los principales riesgos de privacidad asociados con la extracción de datos;
  • Establecer cómo los SMC y otros sitios web deben proteger la información personal de la extracción ilegal de datos para cumplir con las expectativas regulatorias; y
  • Establecer pasos que las personas usuarias pueden tomar para minimizar los riesgos de privacidad derivados del “data scraping”.

7. Hemos publicado esta declaración conjunta en beneficio de los SMC y otros sitios web, así como de las personas que utilizan y publican información personal en estos sitios web. También ha sido enviado directamente a Alphabet Inc. (YouTube), ByteDance Ltd (TikTok), Meta Platforms, Inc. (Instagram, Facebook y Threads), Microsoft Corporation (LinkedIn), Sina Corp (Weibo) y X Corp. (X, anteriormente Twitter).

8. Las prácticas descritas en esta declaración conjunta reflejan los principios globales comunes de protección de datos, y están diseñadas para ayudar a proteger contra el robo de datos de información personal y mitigar su impacto en la privacidad. Si bien las expectativas se expresan como recomendaciones (usando el término «debería»), muchas de ellas son requisitos legales explícitos en jurisdicciones particulares o pueden ser interpretados como tales por tribunales y autoridades de protección de datos.

9. Reconocemos que algunos SMC han implementado controles para abordar la extracción de datos de información personal de webs accesibles públicas, incluso, por ejemplo, a través de acciones judiciales o promoviendo iniciativas legislativas. Los principios y expectativas incluidos en esta carta abierta se han extraído y se basan en esos controles.

Riesgos para la privacidad

10. En los últimos años, muchas autoridades de protección de datos han observado un aumento de las denuncias relacionadas con el “data scraping” de datos masivos de SMC y otros sitios web. Los informes plantean una serie de preocupaciones sobre la privacidad, incluida la del uso de datos los extraídos para:

  • Ataques cibernéticos dirigidos: Identidades extraídas e informaciones de contacto publicadas en los ‘foros de piratería’, pueden ser utilizadas por actores maliciosos en ingeniería social o phishing para la realización de ataques dirigidos.
  • Fraude de identidad: Los datos extraídos pueden usarse para presentar préstamos o tarjetas de crédito de manera fraudulenta a través de aplicaciones, o para hacerse pasar por otro individuo mediante la creación de cuentas falsas en las redes sociales.
  • Monitoreo, elaboración de perfiles y vigilancia de personas: Los datos extraídos pueden usarse para elaborar bases de datos de reconocimiento facial y proporcionar acceso no autorizado a personas no autorizadas.
  • Fines políticos: Los datos extraídos pueden ser utilizados por gobiernos extranjeros o agencias de inteligencia para fines no autorizados.
  • Marketing directo no deseado o spam: Los datos extraídos pueden incluir información de contacto que se puede utilizar para realizar envíos masivos de publicidad comercial no solicitada.

11. En términos más generales, las personas pierden el control de su información personal cuando se extraen sus datos sin su conocimiento y contra sus expectativas. Por ejemplo, los “scrappers” de datos pueden agregar y cruzar datos extraídos de un sitio web con otras bases de datos que contengan información personal y utilizarlos para fines y propósitos inesperados. Esto puede socavar la confianza de los usuarios en los SMC u otros sitios web, con posibles consecuencias e impactos perjudiciales en la economía digital. Además, incluso si los usuarios deciden eliminar su información de una cuenta de redes sociales, los “scrappers” de datos probablemente continuarán usando y compartiendo la información que ya han recopilado, lo que limita el control de las personas afectadas sobre su presencia en línea y su reputación.

Los SMC y otros sitios web deben proteger la información personal de la extracción ilegal de datos:

12. Los SMC y otros sitios web son responsables de proteger la información personal de la extracción ilegal de datos.

13. Las técnicas para extraer valor de datos de acceso público están en constante evolución. En un entorno tan cambiante, es primordial vigilar la seguridad de los datos.

14. Como ninguna salvaguarda protegerá adecuadamente contra todos los posibles daños a la privacidad asociados al “data scraping”, los SMC y otros sitios web deben implementar técnicas y controles procesales para mitigar los riesgos. Se debe utilizar una combinación de controles que sea proporcional a la sensibilidad de la información extraíble, y que puede incluir:

  • Designar un equipo y/o rol específico dentro de la organización para identificar e implementar controles para proteger, monitorear y responder a las actividades de “scraping”.
  • Limitar el número de visitas por hora o día a una cuenta, o a un perfil de una cuenta, y restringir el acceso si se detecta actividad inusual.
  • Monitorear la rapidez y agresividad con la que una nueva cuenta comienza a buscar a otros usuarios. Si se detecta una actividad más alta de lo normal, puede indicar un uso indebido.
  • Tomar medidas para detectar “scrappers”, identificando patrones en “bot[1]”. Por ejemplo, se puede detectar un grupo de direcciones IP sospechosas monitoreando desde dónde se está accediendo a una plataforma. Si se identifica que se accede utilizando las mismas credenciales, desde múltiples ubicaciones y en un corto periodo de tiempo, se debe sospechar.
  • Tomar medidas para detectar bots, mediante el uso de CAPTCHA [2]y a través del bloqueo de la dirección IP en la que se ha detectado la actividad de extracción de datos.
  • Cuando se sospeche o se confirme la extracción de datos, tomar las medidas legales apropiadas, como el envío de cartas de «cese y desistimiento», que exigen la eliminación de información extraída, obtener confirmación de la eliminación y otras acciones legales como prohibir el “data scraping” en los Términos y Condiciones de la página web.
  • En aquellas jurisdicciones donde la extracción de datos pueda constituir una violación de seguridad, se debe notificar a los afectados y a las autoridades de control cuando sea necesario.

15. Además de los controles de seguridad mencionados anteriormente, los SMC y otros sitios web también deben promover la protección de la privacidad de sus usuarios cuando accedan e interactúen con ellos. Al final, los SMC y otros sitios web deben apoyar proactivamente a sus usuarios para que puedan tomar decisiones informadas sobre cómo utilizan la plataforma, indicando qué información personal comparten. Esto se hace a través de una configuración sencilla de los usos y consentimientos cuando acceden a las páginas web, como se analiza más adelante.

16. Si alguna de las medidas implementadas para proteger contra el robo de datos implica el procesamiento de información de datos personales, los SMC y otros sitios web deben garantizar que este cumpla con todos los requisitos de la ley de privacidad o protección de datos aplicable. A modo de buenas prácticas y para garantizar la transparencia, estas entidades también deben informar a sus usuarios de las medidas que han adoptado para protegerse contra el robo de datos.

17. Dada la naturaleza dinámica de las amenazas de “data scraping”, los SMC y otros sitios web deben monitorear continuamente y responder con agilidad a nuevos riesgos y amenazas provenientes de equipos maliciosos o de otro tipo de actores no autorizados a su plataforma. Los controles deben someterse a pruebas de estrés de forma rutinaria y actualizarse para garantizar que sigan siendo eficaces y se mantengan al día de las nuevas tecnologías. Los SMC y otros sitios web también deben recopilar y analizar métricas sobre incidentes de “scraping”, para informar e identificar áreas de mejora en su marco de control de seguridad.

Pasos a seguir por los usuarios para minimizar el riesgo de impacto del “data scraping” en su privacidad:

18. Aunque los controles de seguridad descritos anteriormente pueden mitigar los riesgos asociados con la extracción de datos, ninguna protección es 100% efectiva y, por lo tanto, las personas deben tener en cuenta que la información personal que comparten en línea puede poner en riesgo su privacidad.

19. Si bien esta declaración conjunta se centra en las medidas que los SMC y otros sitios web pueden implementar para mitigar el riesgo de extracción de datos, los usuarios también pueden tomar medidas para empoderarse y proteger mejor su información personal, incluyendo:

  • Leer la información proporcionada por el SMC u otro sitio web sobre cómo se comparte la información personal, incluida la política de privacidad: La información del sitio web y las políticas sobre intercambio y divulgación de datos personales ayudarán a las personas a tomar una decisión informada sobre qué información eligen compartir y los riesgos de privacidad resultantes de compartirla.
  • Pensar en la cantidad y los tipos de información compartida: Los usuarios deben ser conscientes y limitar la información que publican en línea. En particular, deben tener especial cuidado para limitar el intercambio de información confidencial y considerar si compartir cierta información (como datos personales, números de cuenta o números de identificación) puede ponerles en riesgo de daño reputacional, discriminación, acoso, fraude o robo de identidad.
  • Comprender y administrar correctamente la configuración de privacidad: Si bien la configuración de privacidad de un usuario individual no es infalible, sí que puede y debe, ayudar a aumentar el control de este sobre cómo se comparte su información personal en línea, por lo que los usuarios deben usar estas configuraciones para limitar la información que hacen pública y accesible.

20. En última instancia, animamos a los usuarios a pensar a largo plazo. ¿Cómo se sentiría años después sobre la información que comparte hoy? Si bien los SMC y otros sitios web pueden ofrecer herramientas para eliminar u ocultar información, esa misma información puede vivir para siempre en la Web en el caso de que haya sido indexada o extraída, y luego compartida.

21. Si a los usuarios les preocupa que sus datos puedan haber sido extraídos de manera ilegal o inadecuada, pueden comunicarse con el SMC o el sitio web y, si no están satisfechos con la respuesta, pueden presentar una reclamación ante su autoridad de protección de datos correspondiente. También pueden revisar sus configuraciones de privacidad y la información que comparten en línea, para realizar cambios o eliminar información personal.

Conclusión

22. Con esta declaración conjunta se pretende establecer unos puntos clave para ayudar a los SMC y otros sitios web a garantizar la protección de la información personal accesible en sus sitios del “data scraping”, destacando el cumplimiento con los preceptos de las leyes de privacidad y protección de datos de todo el mundo. Con ello se conseguirá fomentar la confianza de los usuarios en estas Webs.

23. Los SMC y otros sitios web pueden proteger aún más la información de sus usuarios y reforzar la confianza de esos, al informar de manera proactiva de las medidas que pueden tomar para proteger su información personal, como se ha descrito más arriba.

24. Agradecemos cualquier comentario de los SMC en el plazo de 1 mes desde la emisión de esta declaración, que ilustre el cumplimiento de las expectativas señaladas en esta declaración conjunta. Estos comentarios se compartirán entre los firmantes y podrán publicarse.

Esta declaración está respaldada por los siguientes miembros del Comité de Cumplimiento Internacional de la GPA

Grupo de Trabajo de Cooperación (“IEWG” International Enforcement Cooperation Working Group): Elizabeth Hampton, Deputy Commissioner Office of the Australian Information Commissioner Australia

Philippe Dufresne, Commissioner Office of the Privacy Commissioner of Canada, Canada

Stephen Bonner Deputy Commissioner – Regulatory Supervision Information Commissioner’s Office United Kingdom

Ada CHUNG Lai-ling Privacy Commissioner Office of the Privacy Commissioner for Personal Data Hong Kong China 

Adrian Lobsiger Commissioner Federal Data Protection and Information Commissioner Switzerland

Tobias Judin Head of International Section Datatilsynet Norway 

Michael Webster Privacy Commissioner Office of the Privacy Commissioner New Zealand

Cielo Angela Peña Rodriguez Deputy Superintendent for the Protection of Personal Data Superintendencia de Industria y Comercio Colombia

Paul Vane Information Commissioner Jersey Office of the Information Commissioner Jersey

Omar Seghrouchni President CNDP (Commission Nationale de contrôle de la protection des Données à caractère Personnel) Morocco

Beatriz de Anchorena directora AAIP (Agency for Access to Public Information) Argentina

Josefina Román Vergara Commissioner National Institute for Transparency, Access to Information and Personal Data Protection (INAI) Mexico


[1] Sistema de manejo de contenido. Es un sistema de software que permite crear sitios web de alta interactividad, profesionalidad y eficiencia, que organiza y facilita la creación de documentos y otros contenidos de un modo cooperativo ya sean páginas de texto, imágenes o archivos multimedia, sin necesidad de editar los archivos y tener que realizar pesadas tareas de mantenimiento.

[1] Un «bot» es un programa informático que realiza tareas repetitivas automáticas, o una aplicación informática diseñada para automatizar ciertas tareas (como recopilar información en línea) que está especialmente diseñada para realizar ataques maliciosos.

[2] CAPTCHA son las siglas de Completely Automated Public Turing test to tell Computers and Humans Apart.​ Son pruebas desafío-respuesta controladas por máquinas que son utilizadas para determinar cuándo el usuario es un humano o un programa automático