Connect with us

Ciencia y Tecnología

Tribunal de EE.UU. afirma que entrenar las IA con material protegido por derechos de autor es legal

Publicado

el

Ha sido en los Estados Unidos donde un tribunal de distrito ha dado el visto bueno a que los modelos de inteligencia artificial (IA) se entrenen utilizando obras o material protegido por derechos de autor. Esto es un serio problema para creadores de contenido y artistas que llevan años quejándose. Además de un nuevo aviso para las empresas de IA. Que pueden entrenar sus IA escaneando cualquier página web y libros para entrenar modelos lingüísticos extensos (LLM) sin permiso.

Estos datos extraídos sin permiso se utilizan posteriormente para IA generativa y otras tareas de aprendizaje automático. El problema está en que las empresas que extraen los datos los monetiza sin compensación para el autor ni el anfitrión original. Y es ahí dónde está el problema. Recurrir de forma gratuita e ilimitada a contenido protegido para luego ofrecer un servicio de pago. Para tener un contexto, únicamente ChatGPT cuenta con unos 20 millones de suscriptores de pago, lo que genera, aproximadamente, 415 millones de dólares al mes en ingresos.

Vía libre para que las empresas de IA entrenen sus modelos con material protegido por derechos de autor

Tribunal de EE.UU. afirma que entrenar las IA con material protegido por derechos de autor es legal

A raíz de una sentencia del Tribunal de Distrito de Estados Unidos para el Distrito Norte de California emitida ayer martes, se les está otorgando vía libre a las empresas para entrenarse con casi cualquier medio publicado que quieran explotar. El fallo se basa en una demanda de Andrea Bartz, Charles Graeber y Kirk Wallace Johnson contra Anthropic (Claude). Demanda que se remonta a 2024. La demanda acusó a la empresa de utilizar material pirateado para entrenar sus modelos de inteligencia artificial Claude. Entre el material pirateado se encuentra copias digitales de libros impresos para el entrenamiento de modelos de IA.

El fallo del juez William Alsup favorece a cada parte en diversos aspectos. Sin embargo, el peso del fallo sin duda favorece a Anthropic y a los scrapers usados por la IA en este caso. Es decir, un software que entra en cada página web, incluida la nuestra, y copia todo su contenido de forma automatizada. Extrayendo no solo el texto, sino también imágenes, enlaces o metadatos. Todo este material protegido por derechos de autor se utiliza luego para entrenar los modelos de IA.

Según el fallo, el juez William sostiene que las copias utilizadas para formar a LLM específicos eran justificables como uso justo. «La tecnología en cuestión fue una de las más transformadoras que muchos de nosotros veremos en nuestras vidas«, defendió el juez.

Incluso dio legitimidad al transformar la biblioteca impresa a digital

Meta aprueba uso pirateria - demanda uso libros con propiedad intelectial para entrenar IA LLaMA

En cuanto a emplear copias físicas de libros para transformarlos en una versión digital para el entrenamiento de IA, también se consideró de uso legítimo. El juez comparó la queja de los autores de los libros con el argumento de que se utilizaría el mismo argumento contra un esfuerzo para enseñar a los escolares a escribir bien. No queda claro cómo se aplica esto, dado que los modelos de inteligencia artificial no se consideran «escolares» en ningún sentido legal.

Esto no es de extrañar después de conocerse que Meta (Facebook) descargara por Torrent casi 82 TB de libros pirateados para entrenar su LLM Llama. Si bien se encuentra inmersa en una demanda colectiva, por ahora, parece que Meta saldrá indemne.

El fallo de Estados Unidos es un terrible precedente para artistas, músicos y escritores. Y es que se están entrenando las IA con su contenido. Y claro, estas profesiones son las primeras que se espera que la IA llegue a reemplazar a casi el completo en un futuro cercano. Por otro lado, estos modelos de IA se están aprovechando el trabajo duro y las experiencias de vida de los creadores de medios y los hacen pasar como propios. Al mismo tiempo, estos creadores de contenido tienen cada ver menos visibilidad y recursos. Acabando así con la fuente de información original que nutrió de información a todos estos modelos de aprendizaje.

Fuente:elchapuzasinformatico.com