Monitor Más Monitor


NLLB-200, la IA capaz de hablar 200 idiomas

NLLB-200, la IA capaz de hablar 200 idiomas
Lo interesante de este hallazgo es que este modelo se ha lanzado bajo una licencia de código abierto en github

Publicación:11-07-2022
++--

NLLB-200 es un modelo de IA capaz de hablar 200 idiomas, entre los que se encuentran algunos minoritarios oriundos de África, Europa y Asia.

Madrid, España.-  A día de hoy, en el mundo se hablan más de7 mil idiomas y a pesar de la habilidad de algunas personas para ser políglotas, abarcar semejante número es complicado incluso para las máquinas. Actualmente existen distintos traductores más o menos simultáneos, sin embargo, uno de sus hándicaps es el hecho de pasar por el inglés como intermediario para pasar de un idioma a otro. Esto conlleva a algunos errores de traducción y significados que se pierden por el camino.

Meta, la empresa matriz de Mark Zuckerberg, que parecía demasiado ocupada con el metaverso, lleva seis meses trabajando en 'No Language Left Behind' (ningún idioma se queda atrás), un proyecto que esperaba mejorar las tecnologías actuales de traducción en tiempo real. Parece haberlo conseguido, estrenando esta misma semana la IA (inteligencia artificial) para traducir entre distintos idiomas sin pasar por el inglés.

Ayer presentaron su primer gran éxito, NLLB-200, un modelo de IA capaz de hablar 200 idiomas, entre los que se encuentran algunos minoritarios oriundos de África, Europa y Asia. De hecho, el sistema está preparado para realizar 25.000 traducciones diarias en todas las apps de Meta, según destaca Zuckerberg. En la propia página del proyecto señalan algunos de estos lenguajes que incluyen urdu, luganda y asturiano. Por su parte, el propio Zuckerberg aseguraba en una publicación de Facebook que esta tecnología no solo se usará en distintos productos y servicios de Meta como la propia red social e Instagram, sino que se ha implementado en sitios como Wikipedia.

UN METAVERSO 

MÁS INCLUSIVO

De esta forma, la enciclopedia online puede mostrar resultados coherentes y bien traducidos en idiomas como el islandés. Permitiendo además que los editores trabajen en sus idiomas nativos sin temor a que el resultado final, cuando se traduzca a cualquier otro idioma, pierda cohesión. Incluyendo, por ejemplo, 55 lenguas africanas, muchas de ellas no disponibles en ningún otro servicio de traducción automática, es decir, idiomas infrarrepresentados en Internet.

Mientras que el sueco, hablado en el país que le da nombre y en Finlandia, que es hablado por 10 millones de personas, cuenta con 2,5 millones de artículos en Wikipedia; el africano, hablado por 45 millones de personas tan solo cuenta con 3.260 artículos. Un hecho que Meta pretende cambiar con su nueva tecnología.

"Miles de millones de personas en todo el mundo no tienen acceso a una tecnología o un servicio de traducción que realmente funcione bien para su idioma", explica Angela Fan, científica investigadora de Meta AI, en un video producido por la compañía. "Realmente esperamos que la tecnología que estamos desarrollando haga que el metaverso sea inclusivo por diseño", añade la experta.

CÓMO SE ENTRENA

 ESTA IA

El modelo NLLB-200, cuyo origen está en el M2M-100 presentado en 2020, que ya prescindía del inglés para traducir entre idiomas, es capaz de analizar meticulosamente oraciones y distinta información procedente de los servicios de Meta para alimentar las bases de datos de las que se nutre el algoritmo de traducción. Mientras que antes se necesitaba de personas que hablaran estos idiomas minoritarios en internet, para proporcionar datos y verificar las traducciones, la IA de meta entrena con datos que recopila en el idioma de entrada y en el de salida deseados.

Después, estos datos son incorporados a los modelos de entrenamiento que se componen de dos partes, el codificador, que convierte la oración de entrada en una representación vectorial interna; y el decodificador, que toma esta representación y genera la oración de salida con precisión. De esta forma, cuanto más se use esta tecnología, más aprenderán estos modelos, pudiendo así ofrecer traducciones más exactas, en las que se pierdan menos matices.

Para perfeccionar esta IA, Meta evalúa el modelo respecto a las traducciones de las oraciones realizadas por humanos, para poder confirmar la calidad de la traducción. Aunque hay un punto, señalado en la propia página del proyecto, que podría generar debate. "Esto incluye detectar y filtrar blasfemias y otro contenido ofensivo mediante el uso de listas de toxicidad que creamos para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir directamente un idioma."

Lo interesante de este hallazgo es que este modelo se ha lanzado bajo una licencia de código abierto en github, incluyendo tests, modelos y scripts, para que cualquier persona pueda utilizar esta tecnología e incluso mejorarla. De igual modo supera a otros traductores actuales como el de Google que solo cuenta con 133 idiomas, además de así mismo, doblando el número de idiomas con los que trabajaba hasta ahora Meta.

"Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza más de 50.000 millones de parámetros. Lo hemos entrenado usando el Research SuperCluster, uno de los superordenadores más rápidos del mundo", subraya Zuckerberg en una publicación colgada ayer en su cuenta de Facebook.



« Especial »