Tecnología

Meta supuestamente usó libros pirateados para capacitar a la IA: los tribunales de los Estados Unidos pueden decidir si este es ‘uso justo’

Crédito: Dominio público de Pixabay/CC0

Las empresas que desarrollan modelos de IA, como OpenAI y Meta, capacitan sus sistemas en enormes conjuntos de datos. Estos consisten en texto de periódicos, libros (a menudo procedentes de repositorios no autorizados), publicaciones académicas y varias fuentes de Internet. El material incluye obras con derechos de autor.

La revista Atlantic recientemente alegó que Meta, empresa matriz de Facebook e Instagram, había usado Libgen, un repositorio de libros ilegal, para capacitar su herramienta generativa de IA. Creado alrededor de 2008 por científicos rusos, Libgen alberga más de 7.5 millones de libros y 81 millones de trabajos de investigación, lo que lo convierte en una de las bibliotecas en línea más grandes de trabajo pirateado del mundo.

La práctica de capacitar a la IA sobre material con derechos de autor ha provocado intensos debates legales y ha planteado serias preocupaciones entre los escritores y editores, que enfrentan el riesgo de que su trabajo sea devaluado o reemplazado.

Si bien algunas compañías, como OpenAI, han establecido asociaciones formales con algunos proveedores de contenido, muchos editores y escritores se han opuesto a que su propiedad intelectual se utilice sin consentimiento o compensación financiera.

La autora Tracey Spicer ha descrito el uso de Meta de los libros con derechos de autor como “Technocapitalismo máximo”, mientras que Sophie Cunningham, presidenta de la Junta de la Sociedad Australiana de Autores, acusó a la compañía de “tratar a los escritores con desprecio”.

Meta está siendo demandado en los Estados Unidos por infracción de derechos de autor por un grupo de autores, incluidos Michael Chabon, Ta-Nehisi Coates y la comediante Sarah Silverman. Los documentos judiciales presentados en enero alegan que el CEO de Meta Mark Zuckerberg aprobó el uso del conjunto de datos de Libgen para capacitar a los modelos de IA de la compañía sabiendo que contenía material pirateado. Meta se ha negado a comentar sobre el caso judicial en curso.

El centro de batallas legales en una pregunta fundamental: ¿El raspado de datos masivos para la capacitación de IA constituye “uso justo”?

Desafíos legales

Las apuestas son particularmente altas, ya que las compañías de IA no solo capacitan a sus modelos utilizando datos de acceso público, sino que usan el contenido para proporcionar respuestas de chatbot que puedan competir con las obras de los creadores originales.

Las compañías de IA defienden su raspado de datos por motivos de innovación y “uso justo”, una doctrina legal que, en los Estados Unidos, permite “el uso sin licencia de obras protegidas por derechos de autor en ciertas circunstancias”. Esas circunstancias incluyen investigación, enseñanza y comentarios. Disposiciones similares se aplican en otras jurisdicciones legales, incluida Australia.

Las compañías de IA argumentan que su uso de trabajos con derechos de autor para fines de capacitación es transformador. Pero cuando la IA puede reproducir contenido que imita de cerca el estilo de un autor o regenera porciones sustanciales de material con derechos de autor, surgen preguntas legítimas sobre si esto constituye una infracción.

Un caso legal histórico en esta batalla es el New York Times vs. OpenAI y Microsoft. Lanzado a fines de 2023, el caso está en curso. El New York Times alega una infracción de derechos de autor, reclamando Openai y su socio Microsoft usó millones de sus artículos sin permiso, para capacitar a los sistemas de IA.

Aunque el alcance de la demanda se ha reducido a las reclamaciones centrales relacionadas con la infracción de la dilución de los derechos de autor y la marca registrada, una decisión judicial reciente que permite que el caso proceda a juicio como una victoria para el New York Times.

Otros editores de noticias, incluido News Corp, también han iniciado procedimientos legales contra las compañías de IA.

La preocupación se extiende más allá de los editores y organizaciones de noticias tradicionales a los creadores individuales, que enfrentan amenazas a sus medios de vida. En 2023, un grupo de autores, incluidos Jonathan Franzen, John Grisham y George RR Martin, presentó una demanda de acción colectiva, aún sin resolver, alegando que OpenAi copió sus obras sin permiso o pago.

Trascendencia

Estos y numerosos otros desafíos legales tendrán implicaciones significativas para el futuro de las industrias editoriales y de medios, y para las empresas de IA.

El problema es particularmente alarmante, teniendo en cuenta que en 2023, el ingreso promedio promedio de tiempo completo para un autor en los Estados Unidos fue de poco más de USD $ 20,000. La situación es aún más grave en Australia, donde los autores ganan un promedio de AUD $ 18,200 por año.

En respuesta a estos desafíos, la Sociedad Australiana de Autores (ASA) ha pedido al gobierno australiano que regule la IA. Su propuesta es que las compañías de IA deben tener que obtener permiso antes de utilizar el trabajo con derechos de autor y debe proporcionar una compensación justa a los escritores que otorguen autorización.

La ASA también ha pedido un etiquetado claro del contenido que se genere total o parcialmente, y la transparencia con respecto a las obras con derechos de autor se ha utilizado para la capacitación de IA y los propósitos de esa capacitación.

Si la AI de capacitación en obras con derechos de autor es permisible, ¿qué modelo de compensación es justo para los creadores originales?

En 2024, HarperCollins firmó un acuerdo que permitió el uso limitado de títulos de backlist de no ficción seleccionados para el entrenamiento de IA. El acuerdo no exclusivo de tres años afectó a más de 150 autores australianos. Les dio la opción de optar por USD $ 2,500, dividido 50/50 entre el escritor y el editor.

Sin embargo, el Authors Guild argumenta que una división 50/50 no es justa y recomienda que el 75% debería ir al autor y solo el 25% al ​​editor.

Respuestas potenciales

Los editores y creadores están cada vez más preocupados por la pérdida de control de la propiedad intelectual. Los sistemas de IA rara vez citan fuentes, lo que disminuye el valor de la atribución. Si estos sistemas pueden generar contenido que sustituye a los trabajos publicados, esto tiene el potencial de reducir la demanda de contenido original.

A medida que el contenido generado por la IA inunda el mercado, distinguir y proteger los trabajos originales se vuelve más desafiante. Amazon ya ha sido inundado por contenido generado por IA, incluidas imitaciones y resúmenes de libros, vendidos como libros electrónicos.

Los legisladores en varias jurisdicciones están considerando actualizaciones a las leyes nacionales de derechos de autor que abordan específicamente la IA, cuyo objetivo es promover la innovación y los derechos de salvaguardia. Pero las respuestas se divergen dramáticamente.

La Ley de Inteligencia Artificial de la Unión Europea de 2024 tiene como objetivo equilibrar los intereses de los titulares de derechos de autor con la innovación en el desarrollo de la IA. Las disposiciones de derechos de autor se agregaron tarde en las negociaciones y se consideran relativamente débiles. Pero proporcionan herramientas adicionales para que los titulares de derechos de autor identifiquen posibles infracciones y brinden a los proveedores de IA de uso general más certeza legal, si cumplen con las reglas.

Cualquier plan para regular la IA ha sido rechazado explícitamente por el vicepresidente de los Estados Unidos, JD Vance. En febrero, en la Cumbre de Acción de Inteligencia Artificial en París, Vance describió la “regulación excesiva” como “censura autoritaria” que socavó el desarrollo de la IA.

Esta postura refleja el enfoque más amplio de los Estados Unidos para la regulación de la IA. En sus presentaciones al plan de acción de IA del gobierno de EE. UU. Actualmente en desarrollo, tanto Operai como Google argumentan que las compañías de IA deberían poder capacitar libremente sus modelos sobre material con derechos de autor bajo el principio de “uso justo”, como parte de “una estrategia de derechos de autor que promueve la libertad de aprender”.

Esta posición plantea preocupaciones significativas para los creadores de contenido.

Trato o no trato?

Además de los marcos legales, se están desarrollando varios modelos a nivel mundial para garantizar que los creadores y editores se les paga, al tiempo que permite a las compañías de IA usar los datos.

Desde mediados de 2023, varios editores académicos, incluida Informa (la empresa matriz de Taylor & Francis), Wiley y Oxford University Press, han establecido acuerdos de licencia con compañías de IA.

Otros editores están haciendo acuerdos directos con compañías de IA, en líneas similares a HarperCollins. En Australia, Black Inc. recientemente solicitó a sus autores que firmen acuerdos de opción que permitan el uso de su trabajo para fines de capacitación de IA.

Han surgido una variedad de plataformas de licencias, como creadas por humanos. Estos tienen como objetivo facilitar el uso legal de materiales con derechos de autor para la capacitación de IA y indican claramente a los lectores cuándo un libro está escrito por humanos, no generado por IA.

Hasta la fecha, el gobierno australiano no ha promulgado ningún estatuto específico que regule directamente la IA. En septiembre de 2024, el gobierno lanzó un marco voluntario que consta de ocho principios de ética de IA, que requieren transparencia, responsabilidad y equidad en los sistemas de IA.

El uso de trabajos con derechos de autor para capacitar a los sistemas de IA sigue siendo territorio legal disputado. Tanto los desarrolladores como los creadores tienen intereses válidos en juego. Existe una clara necesidad de equilibrar la innovación tecnológica con modelos sostenibles para la creación de contenido original.

Encontrar el equilibrio correcto entre estos intereses probablemente requerirá una combinación de precedentes legales, nuevos modelos de negocio y desarrollo de políticas reflexivas.

A medida que los tribunales comienzan a gobernar sobre estos casos, podemos ver que surgen pautas más claras sobre lo que constituye un uso justo en la capacitación de IA y la creación de contenido impulsado por la IA, y qué modelos de compensación podrían ser apropiados. En última instancia, el futuro de la creatividad humana se mantiene en equilibrio.

Proporcionado por la conversación

Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.

Cita: Meta supuestamente usó libros pirateados para capacitar a la IA: los tribunales de los Estados Unidos pueden decidir si este es el “uso justo” (2025, 1 de abril) recuperado el 1 de abril de 2025 de https://techxplore.com/news/2025-04-meta- Allingly Virate-Ai-courts.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button