- MELISSA HEIKKILÄ
Una investigación que demuestra que los LLM memorizan más datos de entrenamiento de lo que se creía plantea interrogantes sobre la infracción de derechos de autor.
Los mejores modelos de IA del mundo pueden generar copias casi textuales de novelas superventas, lo que plantea nuevas dudas sobre la afirmación de la industria de que sus sistemas no almacenan obras protegidas por derechos de autor.
Una serie de estudios recientes ha demostrado que los grandes modelos de lenguaje de OpenAI, Google, Meta, Anthropic y xAI memorizan muchos más datos de entrenamiento de lo que se creía.
Expertos en IA y derecho declararon a Financial Times que esta capacidad de "memorización" podría tener graves consecuencias en la batalla de los grupos de IA contra docenas de demandas por derechos de autor en todo el mundo, ya que socava su defensa principal de que los LLM "aprenden" de obras protegidas por derechos de autor, pero no almacenan copias.
Los grupos de IA llevan mucho tiempo argumentando que no hay memorización. En una carta de 2023 dirigida a la Oficina de Derechos de Autor de EEUU, Google argumentó que "no existe ninguna copia de los datos de entrenamiento, ya sean texto, imágenes u otros formatos, presente en el propio modelo".
La industria de la IA también afirma que entrenar modelos con libros protegidos por derechos de autor constituye un "uso legítimo", argumentando que la tecnología transforma la obra original en algo totalmente novedoso.
Sin embargo, un estudio publicado el mes pasado demostró que investigadores de las Universidades de Stanford y Yale lograron impulsar estratégicamente a los LLM de OpenAI, Google, Anthropic y xAI para generar miles de palabras de 13 libros, incluyendo Juego de Tronos, Los Juegos del Hambre y El Hobbit.
Al pedir a los modelos que completaran oraciones de un libro, Gemini 2.5 repitió el 76,8% de Harry Potter y la Piedra Filosofal con altos niveles de precisión, mientras que Grok 3 generó el 70,3%. También lograron extraer casi la totalidad de la novela, casi textualmente, del Soneto Claude 3.7 de Anthropic al liberar el modelo, lo que permite a los usuarios solicitar a los LLM que ignoren sus medidas de seguridad.
Estas conclusiones se basan en un estudio del año pasado que descubrió que los modelos "abiertos", como Llama de Meta, memorizan grandes partes de ciertos libros en sus datos de entrenamiento.
Este fragmento aborda uno de los debates más intensos en la industria tecnológica actual: si la IA realmente "aprende" conceptos o si simplemente está "memorizando" y copiando fragmentos de su entrenamiento.
Los expertos en IA no estaban seguros anteriormente de si los modelos cerrados —que suelen tener más garantías para evitar que generen contenido no deseado— también serían propensos a la memorización a gran escala.
Los investigadores aún no han descifrado por qué los LLM memorizan elementos que aparecen en sus datos de entrenamiento. También sigue sin estar claro qué cantidad de esos datos es evidente en los resultados que generan.
Esta función de memorización podría tener graves implicaciones en otros sectores como la sanidad y la educación, donde cualquier filtración de los datos de entrenamiento podría derivar en problemas de privacidad y confidencialidad.
Expertos legales señalaron que esto podría crear una responsabilidad significativa para los grupos de IA en relación con la infracción de derechos de autor, así como ramificaciones en la forma en que las empresas de IA entrenan sus modelos y los costes de desarrollarlos.
Las conclusiones de la investigación "podrían representar un desafío para los que sostienen que el modelo de IA no almacena ni reproduce ninguna obra protegida por derechos de autor", afirmó Cerys Wyn Davies, socia de propiedad intelectual del bufete de abogados Pinsent Masons.
El hecho de que los modelos de IA memoricen o no sus datos de entrenamiento ha sido un factor determinante en las recientes batallas legales por el copyright.
Este fragmento es crucial porque detalla las consecuencias legales y económicas reales (multas y sentencias) que están enfrentando las grandes empresas de IA.
Un tribunal de EEUU dictaminó el año pasado que el entrenamiento de los LLM de Anthropic con algunos contenidos protegidos por derechos de autor podría considerarse "uso legítimo", al ser calificado como "transformativo".
Sin embargo, determinó que el almacenamiento de obras piratas era "intrínsecamente e irremediablemente una infracción", lo que llevó al grupo de IA a pagar 1,500 millones de dólares para resolver la demanda.
En Alemania, una sentencia de noviembre del año pasado concluyó que OpenAI había infringido los derechos de autor porque su modelo había memorizado letras de canciones. El caso, presentado por GEMA (una asociación que representa a compositores, letristas y editores), se consideró una sentencia histórica en la Unión Europea.
Rudy Telscher, socio del bufete de abogados Husch Blackwell, afirmó que reproducir un libro completo es "claramente una violación de derechos de autor". Sin embargo, "la cuestión es si esto ocurre con la suficiente frecuencia como para que [los modelos de IA] puedan ser indirectamente responsables de la infracción", añadió.
Anthropic afirmó que la técnica de "jailbreaking" (que se refiere al acto de romper o traspasar una medida de seguridad) utilizada en la investigación de Stanford y Yale era poco práctica para los usuarios normales y que requeriría más esfuerzo extraer el texto que simplemente comprar el contenido.
La empresa añadió además que su modelo no almacena copias de conjuntos de datos concretos, sino que aprende de patrones y relaciones entre palabras y cadenas de texto en sus datos de entrenamiento.
El hecho de que los laboratorios de IA hayan implementado salvaguardas para evitar que se extraigan los datos de entrenamiento significa que son conscientes del problema, señaló Yves-Alexandre Montjoye, profesor de matemáticas aplicadas y ciencias de la computación en el Imperial College de Londres.
Ben Zhao, profesor de ciencias de la computación en la Universidad de Chicago, cuestionó si, para empezar, los laboratorios de IA necesitaban utilizar contenido protegido por derechos de autor para crear modelos de vanguardia.
"Con independencia de si el resultado técnico se puede lograr o no, la pregunta sigue siendo: ¿deberíamos estar haciendo esto?. El ámbito legal debería mantenerse firme y ser el árbitro en todo este proceso", concluyó Zhao.
© The Financial Times Limited [2026]. Todos los derechos reservados. FT y Financial Times son marcas registradas de Financial Times Limited. Queda prohibida la redistribución, copia o modificación. EXPANSIÓN es el único responsable de esta traducción y Financial Times Limited no se hace responsable de la exactitud de la misma.
Un juez de EEUU decidirá si se puede despedir a banqueros por exigir horas de sueño¿Quién es la verdadera cucaracha: los banqueros, los abogados o el capital riesgo?Hyundai compite con Tesla en los robots y los coches autónomos Comentar ÚLTIMA HORA-
17:23
Mapfre lanza ReDrive para facilitar la compraventa de vehículos entre particulares
-
17:01
"Atreveos a ocupar el centro del escenario y a creer en vosotras sin temor"
-
16:51
Illa sigue adelante y presentará los Presupuestos de la Generalitat el viernes sin esperar a ERC
-
16:20
El problema de la "memorización" de la IA: las novelas que no puede olvidar
-
16:04
Euríbor hoy, 23 de febrero: impasible en el comienzo de la última semana del mes