Youtuber presenta demanda contra OpenAI por robo de datos

CIUDAD DE MÉXICO, agosto 5 (EL UNIVERSAL).- Este viernes, un creador de contenido de YouTube presentó una denuncia al Tribunal de Distrito de Estados Unidos para el Distrito Norte de California, en donde acusaba a OpenAI de entrenar sus modelos de IA generativa con millones de transcripciones de videos de YouTube sin notificar ni compensar a los propietarios de videos.
Los abogados de Millette -nombre del youtuber- alegaron que OpenAI transcribió los videos de Millette y otros creadores para entrenar los modelos que impulsan a ChatGPT, así como otras herramientas y productos de IA generativa. Con ello, apuntan a que OpenAI se "benefició significativamente" del trabajo de los creadores de contenido.
La demanda impuesta señala que esta acción infringe los derechos de autor y términos de servicio de YouTube que prohíben el uso del contenido de la plataforma para aplicaciones independientes.
"Gran parte del material de los conjuntos de datos de entrenamiento de OpenAI proviene de trabajos que fueron copiados por OpenAI sin consentimiento, sin crédito y sin compensación”, señala la demanda.
Los abogados buscan llevar a juicio este caso y obtener más de cinco millones de dólares por daño a los usuarios y creadores de contenido de YouTube.

¿Por qué surge esta demanda?

En una investigación de The New York Times publicada en abril, el medio dio a conocer que a finales del 2021 OpenAI se había quedado sin datos para seguir entrenando a su modelo de inteligencia artificial, ChatGPT.
Ante ello, buscaron una manera de solucionar este problema. Por ello, los ingenieros crearon Whisper, un modelo de IA con la capacidad de transcribir el audio de los videos de YouTube y que les permitiría continuar con el entrenamiento de su sistema de IA.
El problema es que esta actividad infringe los derechos de YouTube. Lindsay Held, portavoz de OpenAI declaró a The Verge que "la empresa selecciona conjuntos de datos 'únicos' para cada uno de sus modelos para 'ayudar a su comprensión del mundo' y mantener su competitividad en materia de investigación global".
Y agregó que utiliza "numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos", además que estaban estudiando la posibilidad de generar sus propios datos sintéticos.
Esta actividad no solo la realiza OpenAI, pues en el mismo informe del Times se dio a conocer que Google también recopiló transcripciones de YouTube para entrenar sus propios modelos de IA. Sin embargo, el portavoz de Google, Matt Bryan, aseguró que han entrenado a algunos de sus videos con "algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.
Imagen: especial
Por el momento, OpenAI no ha emitido ningún comentario respecto a la demanda colectiva presentada por Millette.