‘Speaking Portraits’ convierte fotos o vídeo en deepfakes animados

La herramienta sirve pafra dar vida y movimientos propios a las imagenes estaticas

Gracias a un algoritmo de deep learning llamado Live Portrait, la empresa D-ID sorprendió este año con la muy conocida app de inteligencia artificial (IA) ‘Deep Nostalgia’, que nos permitía animar fotografías antiguas y hacer que alguno de tus antepasados o familiares ya fallecidos sonriese o moviese la cabeza de una forma muy natural.

Y ahora la misma empresa ha mejorado su tecnología y permite colocar voz y expresiones en directo a cualquier fotografía de una persona donde se vea su cara de frente. La herramienta se llama ‘Speaking Portraits’.

En Deep Nostalgia las animaciones que se realizaban estaban preconfiguradas de modo que había unos patrones en los que escoger. Puedes escoger entre varios estilos para que la persona animada haga expresiones concretas, pero no hay una libertad completa para ello. Con ‘Speaking Portraits’ los usuarios tenemos más libertad de elección. De hecho, controlamos todas las expresiones del deepfake.

Una foto de frente y millones de movimientos

La herramienta se presentó en el TechCrunch Disrupt 2021 y en el vídeo se puede ver cómo una persona hablando y gesticulando puede llevar esas expresiones a los rostros de otras personas con solo la fotografía de ellas mirando al frente.

Lo interesante aquí llega cuando se utiliza la versión más sofisticada de Speaking Protrait, llamada Trained Character. Para usarla, hay que entrenar la IA con más datos sobre la persona que va a ser animada y los resultados son aún más realistas. Para utilizar esta versión mejorada del sistema, se necesita un vídeo de unos diez minutos de una persona en el que realice una serie de movimientos y expresiones predeterminadas por D-ID.

Cómo NVIDIA nos engañó con un magistral deepfake de su CEO y nadie lo había notado hasta ahora

De este modo, la IA se entrena con las características de esta persona para luego poder hacer que hable y se mueva como el usuario quiera. Con esos datos recopilados hay que grabar a la persona que va a animarlo para que hable y se mueva. A diferencia de la versión básica, en esta el fondo puede estar animado y el resultado es más realista. Es difícil adivinar que es un deepfake. Fuente: Link