‘DeepMind’ de Google genera música para videos y bandas sonoras completas

image

Recientemente, Google ha compartido avances sobre su inteligencia artificial DeepMind y su capacidad para generar música que acompañe a videos, creando bandas sonoras completas y personalizadas. Esta tecnología revolucionaria, conocida como V2A, combina los píxeles del video con indicaciones de texto en lenguaje natural para producir un paisaje sonoro adaptado específicamente al contenido visual. Al emparejar esta tecnología con modelos de generación de video como Veo, Google puede crear escenas que incluyen partituras dramáticas, efectos de sonido realistas o diálogos que coinciden perfectamente con los personajes y el tono del video.

Capacidades creativas y control mejorado para Ingenieros de Audio

Una de las principales ventajas que Google destaca es el control creativo mejorado que esta tecnología proporciona a los ingenieros de audio. Con la capacidad de generar una cantidad ilimitada de bandas sonoras a partir de cualquier entrada de video, los ingenieros pueden utilizar indicaciones positivas y negativas para ajustar la sensación de la música. Las indicaciones positivas guían al modelo hacia resultados sonoros deseados, mientras que las indicaciones negativas lo alejan de sonidos no deseados. Esta flexibilidad permite a los creadores moldear el audio de manera precisa para que coincida con su visión creativa.

Proceso de generación de audio basado en difusión

El funcionamiento de esta tecnología avanzada de DeepMind AI se basa en un enfoque de difusión para la generación de audio, que ha demostrado ser el más realista y convincente para sincronizar información de video y audio. El sistema V2A comienza codificando la entrada de video en una representación comprimida. Luego, el modelo de difusión de Google refina iterativamente el audio a partir de ruido aleatorio, guiado por la entrada visual del video y las indicaciones en lenguaje natural creadas por el ingeniero.

El resultado de este proceso es un audio sincronizado y realista que se alinea estrechamente con las instrucciones de las indicaciones y el contenido del video. Google ha añadido información adicional al proceso de entrenamiento, incluyendo anotaciones generadas por IA con descripciones detalladas del sonido y transcripciones de diálogos hablados. Esto permite que la tecnología aprenda a asociar eventos de audio específicos con varias escenas visuales, respondiendo a la información proporcionada en las anotaciones o transcripciones.

Aplicaciones y Desafíos

La capacidad de DeepMind AI para generar bandas sonoras no se limita solo a videos nuevos. También puede aplicarse a metraje tradicional, películas mudas y más, proporcionando una herramienta poderosa para la restauración y modernización de contenido audiovisual antiguo. Sin embargo, Google señala que el modelo depende en gran medida de metraje de video de alta calidad para crear audio de alta calidad. Las distorsiones en el video pueden resultar en una caída notable en la calidad del audio.

Además, aunque Google está trabajando en tecnología de doblaje para videos con personajes, aún existen desafíos. El modelo puede generar una desincronización que resulte en una sincronización de labios extraña, como un personaje hablando mientras sus labios no se mueven.

Con la capacidad de crear paisajes sonoros ricos y detallados, esta tecnología tiene el potencial de transformar la forma en que experimentamos videos, ofreciendo nuevas posibilidades para la creatividad en la producción de medios.