MADRID, 24 (Portaltic/EP)
Un grupo de investigadores han utilizado las técnicas de 'deepfake' -que modifican el aspecto de una persona en un vídeo y que se utilizan frecuentemente en los vídeos manipulados- para ayudar a generar 'traducciones cara a cara', en las que se replica la voz y se modifica el movimiento de sus labios para que encaje con otro idioma.
En el estudio, elaborado por ingenieros del Instituto Internacional de Tecnología de la Información Hyderabad y el Instituto Indio de Tecnología Kanpur (ambos de la India), se propone una "traducción visual" que se añada a los sistemas actuales de traducción.
Según los investigadores, las traducciones visuales a través de sistemas automáticos son "una necesidad" a día de hoy, debido a que las comunicaciones digitales actuales se están volviendo cada vez más visuales.
Por tanto, proponen un modelo de traducciones no solamente basado en texto. En primer lugar, utilizan técnicas de reconocimiento automático del habla para convertirlo a texto. Luego emplean un modelo de traducción neuronal para pasarlo a otro idioma en forma de texto y generar el audio.
No obstante, como medida adicional, se incorpora también un módulo visual, LipGAN, de redes generativas adversariales, que genera rostros realistas replicados cuyos labios se mueven de manera sincronizada con el audio generado a partir del texto traducido.
Este sistema modifica los rostros de las personas que aparecen en los vídeos de una forma similar a herramientas recientes de 'deepfake' como la aplicación móvil china Zao, que generalizó estas técnicas y solo necesita de un selfi, o Deep Nude App, que genera imágenes de desnudos a partir de fotos de personas vestidas.
Los autores de la tecnología aseguran que esta "mejora significativamente los resultados" de las técnicas actuales. Asimismo, realizaron pruebas que demostraron que "puede mejorar de forma importante la experiencia general del usuario" al interactuar con contenido en otras lenguas.