ChatGPT-4o es increíblemente bueno, se reirá y cantará contigo «en un video chat»

Si estuviera esperando ansiosamente la última actualización de primavera de OpenAI para ChatGPT y esperando que la compañía lanzara GPT-5, se sentiría decepcionado a ese respecto. Pero lo que OpenAI ha lanzado en su lugar lo compensaría con creces.

La compañía presentó recientemente su modelo insignia más nuevo, el GPT-4o, y es una obra maestra de la innovación humana. La ‘o’ en GPT-4o significa «omni» y es un guiño adecuado a las capacidades omnipresentes más nuevas de ChatGPT. Si bien no hay muchas mejoras en la parte de inteligencia y razonamiento con respecto al modelo GPT-4, el nuevo modelo presenta mejoras drásticas en velocidad y multimodalidad.

¿Qué significa? GPT-4o tiene capacidades mejoradas en texto, voz y visión. Puede comprender y discutir mejor las imágenes. Pero la parte más interesante de la actualización es su capacidad de conversar con usted en tiempo real a través de audio y video, lo que nos introduce en el futuro de la interacción hombre-máquina. La mayoría de nosotros solo imaginamos esta interacción de ciencia ficción con una IA en el futuro. Pero está aquí y es emocionante.

Mira Murati, CTO de OpenAI, junto con dos líderes de investigación, mostraron las nuevas capacidades de GPT-40.

El modelo de voz tiene una personalidad y una tonalidad increíbles, capaz de hacerte olvidar (por un rato) que estás interactuando con una IA. Es aterradoramente emocionante. Las respuestas son mucho más naturales e incluso se ríe y finge sonrojarse como un humano.

La demostración también destacó la variedad de emociones que ChatGPT puede mostrar cuando se le pregunta explícitamente: mientras narraba una historia, ChatGPT imbuyó su voz de más emociones y dramatismo, cambió a un sonido robótico e incluso cantó como si estuviera en un musical, y lo hizo. todo sin problemas.

Muchos usuarios dicen que la voz les recuerda a la IA de Scarlett Johansson de la película «Her», pero en particular, es la misma voz que tenía ChatGPT en el pasado. Toda la diferencia viene por los cambios de tonalidad y unas risas bien colocadas.

Cuando lo combinas con sus capacidades para ver y responder al contenido en la pantalla, es francamente alucinante. Con sus nuevas capacidades de visión, ChatGPT no sólo podía comprender cosas como ecuaciones lineales, sino que también hizo un excelente trabajo al interpretar el entorno y las emociones en el rostro de una persona que se le muestra usando la cámara. Ahora puedes incluso jugar piedra, papel y tijera y pedirle a ChatGPT que sea el árbitro o llevar la preparación de la entrevista con ChatGPT un paso más allá pidiéndole que critique tu vestimenta, y no pasará por alto ninguna mala elección que hagas.

En general, el efecto es notable y casi te hace creer que estás interactuando con una persona real a través de una videollamada (si la otra persona mantuvo la cámara apagada en todo momento, claro está).

https://www.youtube.com/watch?v=DQacCB9tDaw

El modelo de voz también es mejor en general que el disponible actualmente. El diálogo fluye más como una conversación natural, donde puedes interrumpirlo a la mitad, puedes entender y diferenciar múltiples voces y ruidos de fondo, y el tono de la voz.

A nivel técnico, se debe a que GPT-4o puede hacer de forma nativa todo lo que hasta ahora requería tres modelos diferentes: Transcripción, Inteligencia y Texto a Voz. Estas mejoras brindan al usuario una experiencia colaborativa más inmersiva en lugar de las latencias de los modelos anteriores.

Si bien el acceso a GPT-4o ya está comenzando a implementarse para los usuarios gratuitos y Plus en la aplicación web, el nuevo modo de voz con GPT-4o se lanzará en versión alfa solo para los usuarios de ChatGPT Plus en las próximas semanas. También se lanzará una nueva aplicación ChatGPT para macOS, cuyo acceso se implementará de forma iterativa, comenzando por los usuarios de ChatGPT Plus.

Si bien la demostración fue bastante impresionante, tendremos que esperar para ver si la aplicación en el mundo real será tan fluida cuando finalmente se lance el modelo.