Esta nueva herramienta V2A de Google DeepMind podría ser la última pieza del rompecabezas para las películas generadas por IA

Cuando se lanzó el primer video generado por IA, nadie podría haber imaginado que las herramientas de IA para generar videos llegarían tan lejos en tan poco tiempo. Sin embargo, hoy tenemos innumerables plataformas que permiten a los usuarios generar videos de alta calidad e increíblemente detallados, como Synthesia y Dream Machine de Luma AI. Dicho esto, todavía hay algunos desafíos que impiden que estas herramientas se generalicen.

Y quizás el más importante sea el proceso de generación de audio. Si bien la mayoría de las plataformas de generación de videos pueden producir videos de buena calidad, en su mayoría son videos silenciosos sin audio. Incluso si hay audio, normalmente se añade por separado y no cumple con las expectativas del usuario.

Por ejemplo, si visitas la página Dream Machine de Luma AI, podrás ver algunos vídeos muy impresionantes, pero el sonido que los acompaña es bastante genérico y de baja calidad. Pero eso puede estar a punto de cambiar con la nueva tecnología de vídeo a audio (V2A) de Google.

Esto promete llevar la generación de audio de buena calidad para videos a las masas, lo que significa que finalmente puede permitirle producir películas generadas por IA con bandas sonoras y audio adecuados, superando todos los videos generados por IA que se están produciendo actualmente.

Audio generado por IA para

https://www.youtube.com/watch?v=VYjZlF6m3nQ

¿Qué es la investigación de vídeo a audio de Google DeepMind?

La tecnología Video-to-Audio (V2A) desarrollada por DeepMind de Google está diseñada para crear bandas sonoras para videos generados por IA. Esta tecnología permite generar videos y audio simultáneamente combinando indicaciones en lenguaje natural con píxeles de video para generar sonidos para cualquier acción que tenga lugar en el video.

Esta tecnología se puede combinar con modelos de inteligencia artificial utilizados para generar videos, como Veo, y puede ayudar a crear diálogos y efectos de sonido realistas junto con partituras dramáticas que coincidan con el video. Más importante aún, la nueva tecnología V2A no se limita sólo a vídeos generados con IA, sino que también puede utilizarse para generar bandas sonoras para vídeos producidos de forma tradicional. Por lo tanto, puedes utilizarlo para películas mudas, material de archivo y más.

La tecnología V2A permite a los usuarios generar bandas sonoras ilimitadas para vídeos e incluso utilizar indicaciones positivas y negativas para guiar el proceso de generación de sonido y obtener los sonidos necesarios fácilmente. Esto también permite una mayor flexibilidad, por lo que puede experimentar con distintas salidas y encontrar la que sea mejor para un vídeo en particular.

Una muestra de audio de una medusa pulsando bajo el agua. Fuente: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

¿Cómo funciona la tecnología V2A?

Según Google, la empresa experimentó con técnicas autorregresivas y basadas en difusión y descubrió que la primera era la más adecuada para la producción de sonido. Produce sonidos muy realistas y funciona codificando el vídeo en un formato comprimido.

Después de eso, el modelo de difusión se utiliza para separar el ruido aleatorio del vídeo basándose en indicaciones del lenguaje natural y el vídeo. Las indicaciones ayudan a generar audio realista que está perfectamente sincronizado con el video. A esto le sigue la decodificación del audio, después de lo cual se convierte en una forma de onda de audio y se fusiona con el vídeo.

DeepMind de Google proporcionó más información para entrenar la IA, gracias a la cual los usuarios pueden guiar el proceso de generación de audio hacia los sonidos requeridos y permite que la plataforma produzca audio de mayor calidad. Dicha información incluía transcripciones de diálogos hablados y descripciones de sonido detalladas con anotaciones generadas por IA.

Al estar entrenada con dicha información, la tecnología V2A puede asociar diferentes escenas visuales con eventos de audio específicos.

Funcionamiento de la tecnología V2A. Fuente: Google

¿Qué hay en el horizonte?

La tecnología V2A de DeepMind funciona mucho mejor que otras soluciones V2A, ya que no siempre requiere un mensaje de texto y puede comprender los píxeles del vídeo. Tampoco es necesario alinear manualmente la salida de sonido con el vídeo. Sin embargo, todavía existen ciertas limitaciones de la tecnología que Google pretende superar con más investigaciones.

Por ejemplo, la calidad del audio generado depende de la calidad del vídeo utilizado como entrada. Si hay distorsiones o artefactos en el video, el modelo de IA no los comprende, ya que no están incluidos en su entrenamiento, lo que en última instancia resulta en una calidad de audio reducida.

Además, en el caso de los vídeos con voz humana, la empresa está trabajando para mejorar la sincronización de labios. La tecnología V2A intenta generar el habla utilizando las transcripciones de entrada y luego alinearla con los movimientos de los labios de los personajes del vídeo. Sin embargo, si el vídeo no se basa en transcripciones, existe un desajuste entre el audio y los movimientos de los labios.

Con mejores capacidades de generación de audio, los modelos de IA podrán generar videos que no solo se vean impresionantes, sino que también suenen genial. Google también está integrando su tecnología V2A con SynthID, que marca con agua todo el contenido generado mediante IA. Esto puede ayudar a evitar que se use indebidamente, lo que garantiza una seguridad total.

Además, la compañía dice que probará rigurosamente su tecnología V2A antes de lanzarla al público. Hasta ahora, por lo que Google ha mostrado y prometido para el futuro, esta tecnología se perfila como un avance importante en la generación de audio para videos generados por IA.