En Europa existe una herramienta para controlarlo. Se trata del Reglamento General de Protección de Datos (RGPD ), cuyo artículo 15 prevé la posibilidad de presentar una solicitud que nos permita obtener de las empresas que recopilan información sobre nosotros una relación de qué datos procesan y cómo se tratan. Para conocer la eficacia de esta herramienta, hemos intentado solicitar a OpenAI el acceso a los datos contemplados en el GDPR. El objetivo: saber qué datos se registran y cómo se tratan.
Todo, pero realmente todoAccordionItemContainerButtonLargeChevron- La solicitud de acceso a los datos y la primera respuesta
- El acceso a los datos en la práctica
- ¿Descargar datos? Fácil, pero luego...
- Un laberinto de carpetas
- ¿Qué sabe OpenAI de nosotros?
- ¿Qué datos han utilizado para entrenar la IA?
- Un cumplimiento de fachada
- La respuesta de OpenAI
La solicitud de acceso a los datos y la primera respuesta
Fue uno de nuestros lectores, Luca Oleastri, quien, en los últimos meses, nos contó sus dificultades para recibir de OpenAI (y de otras empresas digitales) los datos solicitados a raíz del artículo 15 del GDPR, hasta el punto de enviar un informe oficial al Garante de la Privacidad. Por ello, retomamos su informe e intentamos solicitar a nuestra vez la información que obra en poder de la empresa de IA más famosa del momento. Para solicitar el acceso a los datos de acuerdo con la normativa europea, existe un contacto específico que remite a la dirección de correo electrónico dsar@openai.com. Redactamos la solicitud con la ayuda del abogado Diego Dimalta, de BSD Legal, despacho especializado en privacidad.
"En la solicitud es imprescindible indicar los datos del interesado y toda la información que se quiere solicitar a la empresa", explica Dimalta. "El plazo de respuesta tiene términos precisos: 30 días para una respuesta inicial, más otros 60 días como máximo para facilitar toda la información solicitada en el caso de una petición especialmente compleja".
Tras invitar a la solicitud, el 27 de octubre, la respuesta es muy puntual. Y llegó en dos días, el 29. Se trata, sin embargo, de un texto predeterminado, enviado automáticamente por los servidores de OpenAI. En el correo electrónico, la empresa aborda todos los cumplimientos relacionados con la solicitud de documentos en virtud del GDPR de una manera bastante lacónica, con un puñado de palabras y dos simples enlaces. El primero apunta a un artículo del sitio web que contiene instrucciones sobre cómo descargar datos y oponerse al entrenamiento de IA. El segundo, apunta a la página de privacidad de OpenAI.
El acceso a los datos en la práctica
Seguimos las indicaciones que nos envían y, en primer lugar, nos conectamos a la página web que contiene las instrucciones para solicitar los datos. Aquí volvemos a toparnos con el problema del lenguaje. El artículo en cuestión, de hecho, está disponible en una quincena de idiomas, pero el italiano no es uno de ellos. Lo mismo ocurre con el portal dedicado a la privacidad, el que permite poner en marcha las distintas operaciones de recuperación de datos, que solo está disponible en inglés.
La única página en italiano es la de privacidad, que contiene información sobre la finalidad del tratamiento, la base jurídica, los destinatarios, el periodo de conservación de los datos, el origen de los mismos y la existencia de procesos automatizados de toma de decisiones.
"Las empresas suelen subestimar la cuestión de la transparencia, mientras que las Autoridades de Protección de Datos de toda Europa la consideran un elemento central en la evaluación del cumplimiento efectivo", explica Dimalta. Y añade: "El EDPB [el comité que reúne a todos los garantes europeos] ha especificado en repetidas ocasiones que la información debe ser inteligible para todos. En Italia también hubo un precedente en el que el Garante sancionó a una empresa porque no había traducido al italiano una información dirigida a los interesados".
La paradoja de la IA en América LatinaDe LatamGPT a regulaciones pioneras, la región enfrenta la pregunta definitoria: ¿moldeará la tecnología de IA o será moldeada por ella?
Arrow¿Descargar datos? Fácil, pero luego...
En lo que respecta a los datos, OpenAI proporciona un procedimiento al que se puede acceder a través del portal de privacidad y que permite iniciar un proceso de recopilación de todos los datos que ChatGPT ha registrado. En detalle, nuestra solicitud incluía en primer lugar los metadatos asociados (marcas de tiempo, sesiones, identificadores de conversación, patrones utilizados). A continuación, datos técnicos y de navegación (IP, navegador, dispositivo, geolocalización, cookies, identificadores únicos); datos derivados o inferidos (preferencias, categorías, perfiles de comportamiento); por último, registros del sistema y datos de uso del servicio.
Un laberinto de carpetas
Cuando nos dimos cuenta de cuál era el problema, pudimos extraer todos los datos. En ese momento, sin embargo, nos encontramos con otra desagradable sorpresa. De hecho, la estructura del archivo era una auténtica locura: los 248 archivos que nos enviaron estaban distribuidos en 64 subcarpetas diferentes. Navegando con las herramientas de Windows, es prácticamente imposible entenderlas y hay que hacer decenas de clics para llegar a ver grupos de 3 o 4 archivos.
La distribución de los archivos dentro de las carpetas tampoco parecía tener ninguna lógica y, para complicar aún más las cosas, en el archivo había varias copias del mismo archivo. Para llegar al fondo de la cuestión, tuvimos que instalar un gestor de archivos alternativo que nos permite ver la estructura de carpetas en modo 'árbol' y utilizar una serie de filtros para buscar varios archivos en función de su extensión.
"Un procedimiento así no respeta en absoluto el espíritu del GDPR ", subraya Dimalta, "el acceso a los datos debe ser transparente y legible. Si el ciudadano se enfrenta a un archivo extremadamente complejo y tiene que lidiar con problemas técnicos para consultarlo, la respuesta no cumple los requisitos del reglamento'.
Lo que OpenAI sabe de nosotros
Más allá de lo que hemos comunicado al chatbot que utiliza el servicio, los datos personales recogidos por OpenAI son más bien escasos. Entender exactamente qué información registra, sin embargo, no es tan fácil. Incluso el contenido de los archivos no es precisamente human friendly.
Las conversaciones con el chatbot están contenidas en un gigantesco archivo HTML bastante comprensible, pero otra información es bastante críptica. Un ejemplo de ello es la información de contacto, que se coloca en un archivo .csv. La tabla, que en cualquier caso hay que "normalizar" para poder leerla, tenía 256 columnas y dos filas. Un total de 512 campos, de los cuales... 425 estaban vacíos. Menos complejo era el archivo de perfil de usuario, que en cambio contenía "solo" 87 columnas.
Al pedirle a ChatGPT que analizara los documentos, el chatbot los clasificó como archivos de exportación clásicos de Salesforce. Se trata de uno de los programas CRM (gestión de relaciones con los clientes) más utilizados a nivel empresarial. En resumen: lo que hizo OpenAI fue simplemente ponerse a exportar un informe de un software utilizado por los técnicos y enviárselo al usuario de turno, sin traducción ni explicación alguna.
¿Qué datos utilizaron para entrenar a la IA?
Comparado con otros servicios, ChatGPT tiene una peculiaridad en cuanto a la posibilidad de que OpenAI utilice conversaciones del chatbot para entrenar el algoritmo. La oposición, sin embargo, es posible. En el primer mensaje de respuesta a la solicitud de acceso a datos que recibimos, esto queda claro.
El procedimiento, bastante ágil e intuitivo, permite impedir el uso de nuestros contenidos para entrenar el modelo. Cuidado, sin embargo: como se especifica en el curso del procedimiento, la objeción solo se aplica a las actividades posteriores a la solicitud.
Un cumplimiento de fachada
En resumen, nuestro experimento confirma todas las limitaciones a nivel de aplicación del GDPR. El caso de OpenAI, en este sentido, es paradigmático y muestra cómo el cumplimiento formal del reglamento europeo no se corresponde necesariamente con una mayor transparencia en el tratamiento.
Si bien es comprensible que las grandes tecnológicas utilicen herramientas automatizadas para responder a las solicitudes, el hecho de que el resultado sea un desastre de archivos e información difícil de interpretar es síntoma (por decirlo suavemente) de una falta de atención a lo que debería ser el objetivo de la herramienta: proporcionar información clara sobre cómo se utilizan los datos.
La respuesta de OpenAI
Una vez finalizado el experimento, informamos a OpenAI de los problemas críticos detectados y les pedimos su opinión. Así es como nos respondieron (este es el mensaje completo): "Los modelos de IA necesitan aprender del mundo para ser útiles a nuestros usuarios. En OpenAI, los diseñamos teniendo en cuenta la privacidad".
La respuesta de OpenAI continúa: "Facilitamos a la gente la exportación de su información personal a través de ChatGPT y ofrecemos a los usuarios otros controles, incluida la posibilidad de excluir su propio contenido para que no se utilice en el entrenamiento del modelo.
También proporcionamos información sobre privacidad orientada al consumidor en italiano, incluida nuestra página de privacidad del consumidor y la Política de privacidad. Trabajamos constantemente para poner a disposición del consumidor más información sobre privacidad en los idiomas locales."
"Las exportaciones de datos están diseñadas para proporcionar a los usuarios una copia completa de sus datos personales asociados a su cuenta tal y como existen en nuestros sistemas", concluye la empresa. "Si un usuario encuentra dificultades prácticas para acceder a la exportación de datos o tiene preguntas sobre cómo localizar cierta información, siempre estamos dispuestos a trabajar con los usuarios y responder a estas solicitudes de información adicional. Agradecemos los comentarios y nos comprometemos a facilitar a los usuarios el control y el acceso a sus datos".
Por supuesto, la respuesta se envió en inglés. Y la tradujimos... bueno, ni qué decir: con ChatGPT.
Artículo originalmente publicado enWIRED Italia. Adaptado por Mauricio Serfatty Godoy.