Un nuevo estudio derrumba la defensa de «uso justo» de los modelos de inteligencia artificial

image

El pasado 5 de septiembre se presentó en el Parlamento Europeo el estudio interdisciplinario «Copyright y Entrenamiento de la IA Generativa – Fundamentos Tecnológicos y Legales«, ofreciendo importantes conocimientos sobre la intersección entre tecnología y derecho de autor en el contexto de la inteligencia artificial.

Encargado por la Copyright Initiative, el estudio fue dirigido por dos destacados académicos: el Prof. Dr. Tim W. Dornis de la Universidad de Hannover y el Prof. Dr. Sebastian Stober de la Universidad de Magdeburgo. Esta colaboración, la primera de su escala, combina experiencia tanto en tecnología como en derecho, proporcionando un análisis exhaustivo de los procesos involucrados en el entrenamiento de modelos de IA generativa y las implicaciones legales en torno al uso de material protegido por derechos de autor.

El estudio aborda un tema crítico en el panorama actual de la IA: el uso de obras con derechos de autor para el entrenamiento modelos de IA generativa, que pueden crear nuevos textos, imágenes, música y videos. Aunque esta tecnología avanza rápidamente, permitiendo que la IA produzca creaciones que rivalizan con las obras hechas por humanos, los datos utilizados para entrenar estos modelos a menudo incluyen grandes cantidades de contenido protegido por derechos de autor. Esta dependencia ha generado debates legales en curso, ya que el entrenamiento de IA implica copiar y reproducir dicho material, acciones que podrían infringir los derechos de autor.

Uno de los hallazgos clave del estudio es que el entrenamiento de los modelos de IA generativa, como los modelos de lenguaje a gran escala (LLM) y los modelos de difusión latente, no equivale a la minería de textos y datos (TDM, por sus siglas en inglés), un proceso protegido por la ley europea bajo la Directiva DSM de 2019. Según el Prof. Dornis, “el entrenamiento de tales modelos no es un caso de minería de textos y datos. Es un caso de infracción de derechos de autor, y no se aplica ninguna excepción bajo la ley de derechos de autor alemana y europea». Esta afirmación desafía una defensa común utilizada por los desarrolladores de IA, que a menudo invocan las excepciones de TDM para justificar su uso de obras protegidas en el entrenamiento. El estudio argumenta que estas excepciones están mal aplicadas en este contexto, ya que las tecnologías involucradas son fundamentalmente diferentes.

El Prof. Stober amplió el aspecto técnico, explicando que los modelos de IA generativa pueden memorizar y reproducir partes de sus datos de entrenamiento. Esto significa que, con las indicaciones adecuadas, los usuarios finales podrían generar contenido que replique directamente el material original protegido por derechos de autor. Esta capacidad complica aún más el estatus legal de la IA generativa, ya que plantea la cuestión de si estas reproducciones constituyen una infracción de los derechos de autor.

Los hallazgos del estudio han atraído la atención de los legisladores, incluido Axel Voss, miembro del Parlamento Europeo y anfitrión del evento. Voss expresó su gratitud a los autores, subrayando la importancia de su trabajo: “El estudio no solo demuestra que el entrenamiento de los modelos de IA generativa no está cubierto por la minería de textos y datos, sino que también proporciona indicaciones y sugerencias importantes para un mejor equilibrio entre la protección de la creatividad humana y la promoción de la innovación en IA”. El estudio sugiere que el marco regulador actual es inadecuado para las realidades de la tecnología de IA y llama a los legisladores a replantear cómo deben aplicarse las leyes de derechos de autor en este nuevo contexto.

Otros actores clave, como Hanna Möllers, asesora legal de la Federación Europea de Periodistas (EFJ), y Katharina Uppenbrink, directora ejecutiva de la Iniciativa Urheberrecht, coincidieron en estas preocupaciones. Möllers calificó los hallazgos como «explosivos», afirmando que el estudio revela un robo a gran escala de propiedad intelectual. Uppenbrink destacó que la reproducción de obras protegidas por modelos de IA podría infringir el derecho de poner contenido a disposición del público en la Unión Europea.

El estudio también ha generado discusiones sobre la posibilidad de nuevos mercados de licencias. Matthias Hornschuh, compositor y portavoz de la Copyright Initiative, señaló que, mientras la IA generativa se basa en contenido creativo preexistente, actualmente no fluye ninguna remuneración hacia los creadores originales. Esto crea un desequilibrio en el que la IA, alimentada por obras creadas por humanos, está en condiciones de competir con y posiblemente reemplazar a las industrias de las que depende. Hornschuh sugirió que el estudio proporciona una base necesaria para recalibrar los enfoques legales hacia la IA, garantizando que la creatividad humana esté adecuadamente protegida.

Principales hallazgos del estudio:

  1. Relevancia de los derechos de autor en el entrenamiento de IA: El estudio explica que el entrenamiento de modelos de IA generativa implica varias acciones que son relevantes para la ley de derechos de autor según el artículo 16, párrafo 1 de la Ley de Derechos de Autor de Alemania (UrhG). Estas acciones incluyen la recopilación, preparación y almacenamiento de obras protegidas para fines de entrenamiento. Además, el propio proceso de entrenamiento, ya sea durante el preentrenamiento o el ajuste fino, constituye una forma de reproducción de las obras dentro del modelo de IA. Aunque no se implementa un mecanismo de almacenamiento explícito, los modelos actuales, como los LLMs, pueden memorizar los datos de entrenamiento hasta cierto punto.
  2. Reproducción y transformación: Una vez que los modelos de IA generativa están implementados, los usuarios pueden reproducir o transformar las obras protegidas por derechos de autor que se utilizaron durante el proceso de entrenamiento. Por ejemplo, cuando los usuarios interactúan con sistemas como ChatGPT, el sistema puede generar resultados basados en los materiales con derechos de autor con los que fue entrenado. La disponibilidad de estos sistemas de IA, incluyendo la posibilidad de descargarlos, constituye una divulgación pública de materiales protegidos por derechos de autor según los §§ 15 Abs. 2 Nr. 2, 19a UrhG.
  3. Límites legales y excepciones a los derechos de autor: El estudio critica el marco legal existente, que solo tiene en cuenta excepciones a los derechos de autor en escenarios limitados y prácticamente irrelevantes. En particular, las excepciones para el Text and Data Mining (TDM), que se establecieron para permitir la extracción automática de información de grandes conjuntos de datos, no se aplican al entrenamiento de modelos de IA generativa. Estos modelos, a diferencia del TDM tradicional, procesan no solo datos semánticos (contenido informativo) sino también la estructura creativa y sintáctica de las obras protegidas por derechos de autor, lo que complica aún más la situación legal.

    El estudio destaca que las acciones de copia relacionadas con la recopilación, preparación y almacenamiento de datos de entrenamiento no se encuentran dentro de las excepciones de derechos de autor para reproducciones temporales (artículo 44a UrhG, artículo 5(1) de la Directiva InfoSoc).

  4. Divulgación pública e interacción del usuario: Cuando los sistemas de IA generativa se ponen a disposición de los usuarios, especialmente a través de interfaces públicas como sitios web o descargas, potencialmente divulgan obras protegidas por derechos de autor que fueron integradas durante la fase de entrenamiento. Esto puede interpretarse como una difusión pública del contenido protegido dentro del modelo, lo que genera preocupaciones sobre el cumplimiento de la ley de derechos de autor.
  5. Desafíos para definir las violaciones de derechos de autor: El estudio plantea un problema fundamental en cuanto a la categorización de los procesos de entrenamiento de IA. Desafía la noción legal común de que los modelos de IA simplemente usan las obras como puntos de datos en lugar de tratarlas como obras artísticas o creativas. Esta interpretación a menudo lleva a la suposición de que analizar estas obras para el entrenamiento del modelo no constituye una violación de derechos de autor, algo que el estudio cuestiona.

    Los autores argumentan que las tecnologías actuales de IA generativa no distinguen entre el contenido semántico (por ejemplo, ideas) y el contenido sintáctico (por ejemplo, la expresión creativa), lo que significa que también se utilizan los elementos creativos del material protegido durante el entrenamiento. Esto diferencia el entrenamiento de IA del TDM convencional, que se centra principalmente en extraer información fáctica no protegida.

  6. Protecciones insuficientes de los derechos de autor: El estudio concluye que la protección legal ofrecida por la ley de derechos de autor actual es insuficiente para cubrir los desafíos únicos que plantean los modelos de IA generativa. Con la creciente prevalencia del contenido generado por IA, es probable que la demanda de obras creativas humanas disminuya, ya que los sistemas de IA ocupan cada vez más este rol. Este cambio requiere una reconsideración del valor económico de la creatividad humana y la protección de los derechos de los creadores frente a las tecnologías de IA en avance.

    Los autores piden un marco legal más sólido que pueda abordar adecuadamente los problemas de reproducción y divulgación pública inherentes al entrenamiento de IA. Sugieren que, sin regulaciones más claras y adaptaciones a la ley de derechos de autor, los modelos de IA continuarán desafiando las nociones tradicionales de los derechos de propiedad intelectual.