Una iniciativa ayuda a generar una voz sintética personalizada a las personas con riesgo de perderla

Europa Press | 11 nov, 2019 11:40

MADRID, 11 (Portaltic/EP)

La Universidad de Northeastern en Boston (Estados Unidos) ha abierto un centro en colaboración con el proyecto VocaliD para que las personas que están en riesgo de perder su voz, temporal o permanentemente, puedan registrarla en un sistema basado en inteligencia artificial, que les generará una voz personalizada para que en un futuro puedan seguir comunicándose con su propia voz, aunque en versión sintetizada.

El nuevo centro denominado 'Clínica de Preservación de la Voz', ofrece a las personas con riesgo de perder la voz de manera temporal o permanente por motivos de salud un lugar al que acudir para registrar sus voces antes de se queden sin ellas.

El centro nace en colaboración y a partir del proyecto VocaliD de la investigadora de la universidad, Rupal Patel. VocaliD es un proyecto que pretende crear un banco de voces que sean almacenadas por todas aquellas personas que lo deseen y que estén en riesgo de perder la voz, para que en un futuro puedan continuar comunicándose con los demás a través de su propia voz en versión sintetizada.

"A veces vienen a nosotros en el último momento", explicaba Patel al medio británico The Guardian en referencia al motivo de la creación de la clínica. "No tienen tiempo suficiente para almacenar su voz y están también tan envueltos en su enfermedad y luego en la operación - es muy estresante". Hasta ahora, el sistema solo permitía que los usuarios grabaran sus voces desde sus casas.

Sin embargo, a partir de ahora, los profesionales del centro orientarán y asistirán a los usuarios a la hora de llevar a cabo todo el proceso "para asegurarnos de que tus grabaciones son de buena calidad y utilizables para la generación de voz sintética", aseguran en la página oficial del mismo.

El proceso se basa en un sistema de inteligencia artificial, en el uso de algoritmos de aprendizaje automático, que se inicia con la grabación por parte del usuario de su voz en el portal del 'Banco de voces humanas de VocaliD' ('VocaliD Human Voicebank'), a través de la lectura de historias cortas o cualquier otro tipo de contenido de su interés, según señalan en la página oficial del centro.

El proceso de grabación requiere de una duración de "al menos 40 minutos", según apuntan desde la universidad, "para crear una voz de calidad razonable". De todas formas, apostillan que "por supuesto cuantos más discursos y mejor calidad de las grabaciones, mejor la calidad y la naturalidad de la voz digital".

Es por ello que el centro recomienda grabar alrededor de 1.500 frases a lo largo de varias sesiones para "asegurarnos que tienes suficiente audio de alta calidad para la construcción de la voz". Además, las grabaciones deben dividirse en sesiones de entre 15 y 20 minutos, aconsejan desde la clínica, "para optimizar la calidad y minimizar la fatiga".

Una vez realizadas las grabaciones, estos registros se almacenan en un formato anónimo y están disponibles para el uso del usuario, o incluso también para crear voces personalizadas mixtas para todos aquellos que no han tenido la oportunidad de grabar su propia voz antes de perderla y que quieran crear una voz sintetizada, a su medida que se asemeje lo máximo posible a la suya personal.

Patel ha asegurado al medio citado que cualquiera puede acudir al centro a almacenar su voz, pero que tienen preferencia aquellas personas que saben que perderán su voz en el futuro.