Recentemente, a Microsoft divulgou o resultado de suas pesquisas de IA para conversão de textos escritos em áudios personalizados, e que pode imitar a voz de qualquer pessoa. Para a ferramenta conseguir simular a voz de qualquer pessoa ditando um texto, basta um áudio de 3 segundos para ser usado como base.
Intitulado como VALL-E, o novo recurso é categorizado pela própria Microsoft como “um modelo de linguagem de codec neural”. O modelo de codec utilizado nesse recurso é uma variável do Encodec, rede neural alimentada por inteligência artificial desenvolvida pela Meta.
Além de imitar a voz e o timbre de qualquer indivíduo, a ferramenta também é capaz de manter o tom emocional e a acústica do ambiente onde foi gravado o áudio original. Isso pode ser visto através de um site criado pelos desenvolvedores, onde são mostrados os modelos de linguagem dos sintetizadores de texto e exemplificado como funciona o recurso. No site é possível ver mais detalhes de como é feito o processo de manutenção da acústica do ambiente, além de exemplos da mesma frase dita pela mesma voz demonstrando emoções diferentes; como por exemplo tristeza ou raiva. É possível acessar o site aqui.
Porém, vale ressaltar que a novidade não poderá ser acessada pelo público em geral. Isso porque os desenvolvedores optaram por mantê-la privada, para que assim não haja risco de uso indevido da ferramenta.
Via: Olhar Digital
Imagem: Seej Nguyen/Pexels