Adobe VoCo

Adobe VoCo es un prototipo de software editor de audio y sintetizador de voz desarrollado por Adobe. Apodado "el Photoshop para la voz",^[1] fue presentado por primera vez en el evento Adobe MAX en noviembre de 2016. La tecnología que se muestra en Adobe MAX fue una vista previa de lo que potencialmente podría incorporarse a Adobe Creative Cloud. Adobe no ha proporcionado más información sobre el proyecto y se especula que no seguirá con este por las preocupaciones que surgieron al momento de su introducción.

Detalles técnicos

Como se mostró en la demostración, el software toma 20 minutos de la grabación de una voz y luego genera una voz similar, incluso con fonemas que no estaban presentes en el primer audio. Adobe ha declarado que VoCo reducirá el costo de producción de audio.^[1] Con la introducción de Adobe VoCo y el igualmente capaz WaveNet, producido por DeepMind.^[2]

Preocupaciones

Se han planteado preocupaciones éticas y de seguridad sobre la capacidad de alterar una grabación de audio para incluir palabras y frases que el hablante original nunca habló, así como el riesgo potencial hacia la fiabilidad de la biometría de voz.^[1]

También hay preocupaciones de que pueda usarse junto con:

La síntesis de imágenes humanas ha alcanzado tales niveles de semejanza, que distinguir entre un humano grabado con una cámara y una simulación de un humano es muy difícil.^[3]
La manipulación de video de las expresiones faciales de una persona casi en tiempo real utilizando un video 2D RGB existente de ellas.^[4]

Alternativas

La falta de avance publicado por Adobe ha abierto oportunidades para que otras compañías creen productos alternativos a VoCo, como LyreBird.^[5]

WaveNet es un proyecto similar de investigación pero de código abierto en la firma de inteligencia artificial DeepMind con sede en Londres, desarrollado independientemente al mismo tiempo que Adobe VoCo.

Referencias

↑ ^a ^b ^c «Adobe Voco 'Photoshop-for-voice' causes concern». BBC.com. BBC. 7 de noviembre de 2016. Consultado el 5 de julio de 2016.
↑ «WaveNet: A Generative Model for Raw Audio». Deepmind.com. 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017.
↑ Rodgers, Julian. «Adobe Voco - Should We Be Afraid?». Production Expert. Pro Tools. Consultado el 14 de diciembre de 2018.
↑ Thies, Justus (2016). «Face2Face: Real-time Face Capture and Reenactment of RGB Videos». Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Consultado el 18 de junio de 2016.
↑ «Lyrebird - Create a digital copy of voice». lyrebird.ai (en inglés). Archivado desde el original el 24 de abril de 2018. Consultado el 27 de marzo de 2018.

Datos: Q27926176

[BBC2016-1] «Adobe Voco 'Photoshop-for-voice' causes concern». BBC.com. BBC. 7 de noviembre de 2016. Consultado el 5 de julio de 2016.

[deepmind.com2016-2] «WaveNet: A Generative Model for Raw Audio». Deepmind.com. 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017.

[RodgersAdobeVoco-3] Rodgers, Julian. «Adobe Voco - Should We Be Afraid?». Production Expert. Pro Tools. Consultado el 14 de diciembre de 2018.

[Thi2016-4] Thies, Justus (2016). «Face2Face: Real-time Face Capture and Reenactment of RGB Videos». Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Consultado el 18 de junio de 2016.

[5] «Lyrebird - Create a digital copy of voice». lyrebird.ai (en inglés). Archivado desde el original el 24 de abril de 2018. Consultado el 27 de marzo de 2018.

[1]

[2]

[3]

[4]

[5]