Banner Edicion Impresa

Monitor Software


Apple y otras empresas usaron videos de YouTube para entrenar su IA

Apple y otras empresas usaron videos de YouTube para entrenar su IA
Apple y otras empresas entrenaron su IA con videos polémicos

Publicación:17-07-2024
++--

Apple, Anthropic y otras tecnológicas han sido acusadas de usar subtítulos de YouTube sin autorización para entrenar sus modelos de lenguaje.

 

 

Apple y otras empresas tecnológicas usaron videos de YouTube para entrenar su inteligencia artificial. Una investigación encontró que los de Cupertino tomaron datos de subtítulos que habrían sido extraídos sin autorización. Las empresas entrenaron sus modelos de lenguaje con contenido de MrBeast, PewDiePie, MKBHD y otros youtubers famosos.

De acuerdo con una investigación de ProofNews, compañías como Apple, NVIDIA, Anthropic y Salesforce usaron contenido no autorizado para entrenar su IA. Las empresas se apoyaron en un conjunto de datos que incluye subtítulos de 173.536 videos, provenientes de más de 48.000 canales de YouTube. Apple empleó estos datos para entrenar OpenELM, una IA de código abierto capaz de ejecutarse en el iPhone y que recién anunciaron hace unos meses.

Si bien el origen de los datos de entrenamiento siempre ha sido una interrogante con estas empresas, la situación es diferente a lo que hace OpenAI. Según la investigación, los subtítulos extraídos forman parte de un subconjunto de datos llamado YouTube Subtitles, que a su vez integra The Pile, el gigantesco conjunto de datos de código abierto de 825 GB.

Según la descripción de The Pile, YouTube Subtitles es un corpus paralelo de texto recopilado a partir de subtítulos generados por humanos en YouTube. El documento menciona que, además de proporcionar datos multilingües, los subtítulos de YouTube "son una fuente de contenido educativo, cultura popular y diálogo natural". El único detalle que omite es que el contenido se utiliza sin la autorización de sus autores.

Apple y otras empresas entrenaron su IA con videos polémicos

ProofNews utilizó una herramienta para desarrolladores de YouTube para obtener los metadatos de cada video y luego revisó los identificadores del conjunto de datos. Tras el análisis se encontró que YouTube Subtitles incluye videos de canales como MrBeast, Marques Brownlee (MKBHD), PewDiePie, así como también BBC, The New York Times, The Late Show con Stephen Colbert o Jimmy Kimmel Live, por nombrar algunos.

La cantidad de datos varía en cada canal. Por ejemplo, MrBeast, que cuenta con 302 millones de subscriptores, solo contribuyó con dos videos, mientras que a PewDiePie le extrajeron 337 videos. Como es de esperarse, los videos no incluyen información de alta calidad, como se menciona en The Pile. El conjunto arrastra teorías conspirativas y contenido polémico generado por los youtubers.

A diferencia de OpenAI, que desarrolló una herramienta para extraer subtítulos y utilizarlos para entrenar GPT-4, la situación con Apple es diferente. Las tecnológicas usaron un conjunto de datos compilado por un tercero (EleutherAI), quien lo ofrece como código abierto para democratizar el desarrollo de otras IA. The Pile está conformado por 22 subconjuntos que incluyen libros, código de GitHub, artículos de ArXiv, documentos del Parlamento Europeo y más.

Anthropic aceptó que utilizó los subtítulos para entrenar a Claude, aunque se lavó las manos y dijo que cualquier violación a los términos de servicio de YouTube es responsabilidad de EleutherAI. Por otro lado, Salesforce mencionó que se basaron en The Pile para entrenar uno de sus modelos de IA. La empresa hizo hincapié en que este modelo fue para fines académicos y de investigación.

Apple y NVIDIA no son las únicas que utilizan el conjunto con subtítulos de YouTube. Empresas como Microsoft, Meta o Yandex también se basan en The Pile para el desarrollo de modelos como Megatron, LlaMA, Galactica o YaLM 100B. En el caso de Cupertino, la única IA que emplea el subconjunto es OpenELM.



« Especial »