ChatGPT recupera la voz

ChatGPT ha recuperado la voz aunque, técnicamente, esta inteligencia artificial nunca llegó a perderla. OpenAI, la compañía detrás de esta popular herramienta, ha comenzado a desplegar la nueva generación de sus avanzados modelos de voz para algunos de los usuarios del servicio de suscripción ChatGPT Plus. El objetivo es que estas voces, que suenan increíblemente realistas, estén disponible para todos los usuarios de pago en otoño.

Ninguna de ellas suena ya como Samantha, la inteligencia artificial que Scarlett Johansson interpretaba en la película Her. El pasado mes de mayo, cuando OpenAI anunció esta nueva generación de voces para la inteligencia artificial conversacional ChatGPT, muchos señalaron el inmenso parecido de una de las opciones, bautizada como Sky, con la de la actriz. Johansson llegó a considerar presentar una demanda contra la compañía.

La aplicación ofrece ahora cuatro voces: Juniper, Breeze, Cove y Ember, que han sido elaboradas a partir de muestras de voz de actores y actrices que han sido compensados por su trabajo.

"ChatGPT no puede hacerse pasar otras personas y bloqueará cualquier intento de desviarse de estas voces preestablecidas", aseguran desde la empresa.

El retraso no ha dejado sin voz a ChatGPT estos meses. Los usuarios de la app en aplicaciones móviles han podido seguir manteniendo conversaciones de voz, en lugar de usar texto escrito, si así lo preferían. Se trataba, sin embargo, de una generación de voces sintéticas algo más antigua y que no estaba integrada en el modelo de lenguaje más reciente de la compañía, GPT-4o.

Esto hacía que la experiencia fuera algo más lenta. La aplicación tenía que usar una herramienta para transcribir las peticiones del usuario, pasar el resultado al modelo de lenguaje, y luego utilizar la respuesta generada por el modelo en una herramienta de sintetización de voz.

Ahora, todos estos pasos ocurren dentro del propio modelo del lenguaje, que es capaz de entender texto hablado y responder en voz alta de forma nativa. Esto quiere decir que las conversaciones de voz con ChatGPT serán más rápidas y fluidas.

La empresa ha mostrado en un vídeo la velocidad del nuevo modelo, prácticamente igual a la que se esperaría en una conversación con un ser humano. El modelo de lenguaje es capaz de añadir diferentes entonaciones y también incluye pausas y muletillas que contribuyen a que todo suene muy natural.

No todos los usuarios de ChatGT tendrán acceso. Esta nueva generación de voces sólo estará disponible para los usuarios del servicio de suscripción ChatGPT Plus, que amplía los límites de la versión gratuita de la herramienta y da acceso a opciones de configuración más avanzadas.

El despliegue será, además, paulatino y en un primer momento sólo en inglés. Unos pocos usuarios de ChatGPT Plus recibirán acceso esta misma semana y el acceso se irá ampliando durante los próximos meses