VASA-1, la inteligencia artificial de Microsoft que genera deepfakes con una imagen y una grabación de audio

VASA-1 es el nombre de la nueva inteligencia artificial desarrollada por Microsoft que ha revolucionado la creación de deepfakes. Esta innovadora tecnología es capaz de generar videos falsos de alta calidad a partir de una simple imagen y una grabación de audio. Mediante algoritmos avanzados de aprendizaje profundo, VASA-1 logra sincronizar los movimientos de los labios de una persona en la imagen con las palabras pronunciadas en el audio, creando así un video que puede resultar difícil de distinguir de uno real. Este avance plantea importantes desafíos éticos y de seguridad en cuanto a la difusión de información falsa y la manipulación de contenidos audiovisuales. Microsoft ha anunciado que VASA-1 será utilizado inicialmente con fines de investigación, pero su potencial impacto en la sociedad es motivo de debate y preocupación.

Index

VASA: La IA de Microsoft que genera deepfakes realistas en segundos

Una simple foto y una grabación de audio son suficientes para que VASA-1, la nueva IA generativa de Microsoft, genere un deepfake en cuestión de segundos. Este proceso, nunca antes tan realista y en tiempo real, ha sido posible gracias a VASA-1, una inteligencia artificial que revoluciona la creación de deepfakes. Esta innovadora tecnología solo requiere una foto tipo carnet y una frase de audio para producir un deepfake hiperrealista con sincronización labial, gestos naturales y movimientos de cabeza, como se puede apreciar en este vídeo.

Es destacable que, si bien se puede notar que el vídeo ha sido creado por una IA, el nivel cobra vida a partir de una foto estática, lo cual resulta impresionante. Además, todas las personas que aparecen en las imágenes de la noticia son generadas por una IA, en específico StyleGAN2 y DALL·E 3, lo cual añade un nivel adicional de complejidad y realismo a este avance tecnológico.

VASA-1 representa una innovación destacada debido a su modelo holístico de dinámica facial y generación de movimientos de cabeza, que opera en un espacio latente facial, según explican los expertos de Microsoft Asia, equipo responsable de esta revolucionaria tecnología. Los creadores de VASA-1 aseguran que supera a cualquier otra IA especializada en la creación de avatares virtuales.

Esta IA generativa es capaz de generar vídeos de alta calidad en tiempo real, con una dinámica facial y una cabeza realista, alcanzando una resolución de hasta 512 x 512 píxeles y 40 fps, con una latencia de menos de 170 ms, utilizando una potente tarjeta gráfica RTX 4090. Cabe destacar que VASA-1 no replica la voz, sino que utiliza la grabación suministrada para lograr una sincronización labial espectacular.

Microsoft presenta VASA: IA generativa que crea deepfakes hiperrealistas en tiempo real