Jul 08 2024

Medidas de protección contra el “web scraping” para entrenar IA generativa

La práctica de web scraping

Los modelos de IA generativa son un tipo de inteligencia artificial que son capaces de crear contenido nuevo, como texto, imágenes o música. Para entrenarlos, se necesitan grandes cantidades de datos. Una forma de obtener estos datos es mediante la técnica del web scraping, que consiste en extraer información de páginas web.

El scraping de datos es una técnica que utiliza software para extraer información de forma automática de sitios web. Funciona de manera similar a como lo haría un usuario humano: el programa envía solicitudes al sitio web, recibe las páginas HTML en respuesta y luego extrae los datos relevantes.

Este proceso se puede dividir en varios pasos: primero se identifica el sitio web y los datos específicos que se buscan, luego se analiza la estructura del sitio web para comprender cómo se almacenan los datos, después se desarrolla un programa informático llamado scraper que puede extraer los datos y finalmente se ejecuta el scraper para obtener la información.

El scraping de datos tiene una amplia variedad de aplicaciones, como la investigación de mercado para recopilar datos sobre precios, productos y competidores, el análisis de datos web para obtener información sobre el comportamiento de los usuarios en un sitio web o el entrenamiento de la IA generativa. Sin embargo, esta técnica puede recopilar información personal, lo que genera un problema de protección de datos.

La protección de datos

El entrenamiento de modelos de IA generativa, como aquellos utilizados para la creación de texto, imágenes o música, requiere grandes cantidades de datos. El uso de la técnica del web scraping para obtener estos datos genera un conflicto con la privacidad en la medida en la que esta técnica puede recopilar información atribuible a una persona física identificada o identificable.

Es decir, se puede recolectar información que identifica a individuos, como nombres, direcciones de correo electrónico o números de teléfono.

Si estos datos personales se utilizan para entrenar modelos de inteligencia artificial que generen contenido que incluya dicha información personal identificable, estaríamos ante una vulneración de la protección de datos.

Un buen ejemplo es la sanción de 20 millones de euros que la autoridad italiana, IL GARANTE, ha impuesto a CLEARVIEW AI por el uso del web scraping para recabar información personal de los usuarios.

Regulación para la IA generativa

Toda esta problemática ha llevado a la Autoridad de Protección de Datos Italiana a publicar un documento en el que recoge un conjunto de medidas que los responsables del tratamiento que tengan sitios web deberán tomar para evitar el web scraping sobre los posibles datos personales que contengan sus webs.

En este sentido, y en cumplimiento del art. 5 del RGPD, las medidas propuestas por el Garante para evitar el web scraping son las siguientes:

Restringir el acceso a áreas específicas mediante registro previo. Esta medida permite controlar el acceso a la información sin necesidad de un tratamiento excesivo de datos, eliminando así su disponibilidad pública.

Impedir la extracción de datos de los avisos legales. Aunque esta medida solo puede aplicarse de forma retroactiva o como elemento disuasorio, se diferencia de la anterior en que es una medida preventiva especial con efecto disuasorio.

Reducir el tráfico de red y el número de solicitudes seleccionando únicamente aquellas provenientes de direcciones IP específicas. De este modo, se evita de forma preventiva un tráfico excesivo de datos.

Limitar el uso de bots para frenar la recopilación automática de datos. Para ello, se pueden implementar medidas como la inclusión de CAPTCHA, el uso de robot.txt o la incorporación de contenidos protegidos en archivos multimedia.

Debemos tener en cuenta que, tal y como señala el Garante, estas medidas no se tratan de unas recomendaciones únicas y que, por lo tanto, se requiere un análisis caso por caso.