Una vez subido el audio, la IA analiza la foto buscando rasgos comunes alrededor de la persona y crea una imagen muy parecida a la real
La clasificación que Inteligencia Artificial (IA) no siempre toma fotografías con precisión de un rostro humano y, a veces, incluso encuentra terminología racista en sus conclusiones.
Sin embargo, hay una solución que promete lograr uno Corrección de excelencia.
Así es la IA desarrollada por investigadores del MITquien desarrolló una tecnología capaz de diseñar el rostro de una persona a partir de una grabación de su voz.
Investigadores del MIT desarrollan una IA capaz de reproducir el rostro de una persona simplemente escuchando su voz
IA que diseña el rostro simplemente escuchando una voz
Este algoritmo de aprendizaje automático, llamado Discurso2Carafue hecho Millones de clips de audio de más de 100.000 oradores diferentesmuchos de ellos de videos instructivos en Youtube.
esta solución utiliza un registro A la relación entre el señales vocales y ciertos rasgos faciales.
Ambos están determinados por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.
El funcionamiento del algoritmo gira en torno al uso de dos componentes principales:
- A codificadores; que extrae y almacena el espectrograma de ondas de audio y reconoce una serie de características clave de él
- A descifrador; que, en base a las características anteriores, genera una imagen del rostro presentada de frente y con un gesto neutro
Speech2Face se creó a partir de millones de clips de audio de más de 100 000 hablantes diferentes.
Tecnología étnicamente precisa
La tecnología Speech2Face muestra representaciones altamente fotorrealistas que son silenciosas demasiado general para identificar a una persona específica.
Pero permite crear un perfil con suficiente precisión. Etnia, género y edad del sujeto..
Ya existía tecnología capaz de estimar ambos factores, pero el componente étnico es una novedad propia IA Speech2Face.
La tecnología es capaz de diferenciar entre edad, género y etnia.
Detalles de IA imperfectos
A pesar del poder innovador del sistema, su precisión no es 100% perfecta.
Por ejemplo, Speech2Face crea imágenes de hombres blancos escuchando a asiáticos hablando inglés. Y, sin embargo, si continúan hablando chino, su origen étnico se identificará correctamente.
De hecho, el departamento de investigación del MIT explicó que el objetivo no es crear una imagen que replique el rostro de una persona, sino una que “recuperar características físicas“ Características que se correlacionan.
El objetivo de la IA es generar la representación más precisa posible del rostro.
“Si un idioma específico no aparece en los datos de entrenamiento, nuestras reconstrucciones no captarán bien los atributos faciales que podrían estar correlacionados con ese idioma”, agregaron los expertos.
En cuanto a los posibles usos, se valora como posible una aplicabilidad comercial de este algoritmo. crear una imagen representativa del interlocutor cuando hablamos por teléfono o escuchamos la radio.