IA que cria voz: como funciona a inteligência artificial da Deep Voice?

Tecmundo

13/08/2023 15h00

https://timnews.com.br/system/rss_links/images/50659/original/Tecmundo.png?1764195704

A inteligência artificial (IA) continua a nos surpreender com sua evolução e uma das áreas em que tem demonstrado um progresso surpreendente é a criação de voz! Uma das técnicas mais empolgantes é conhecida como Deep Voice, que permite à IA gerar vozes humanas extremamente realistas.

Junto com a empolgação, a IA que cria voz também traz à tona diversas perguntas nas mentes das pessoas: Como gerar voz por inteligência artificial? Qual a melhor IA de voz? Há limites éticos para clonar a voz de alguém com IA?

Se a curiosidade criou raízes por aí, venha conferir as respostas que encontramos sobre o incrível mundo do Deep Voice e demais tecnologias que estão revolucionando a forma como interagimos em sociedade!

O Deep Voice é um modelo de aprendizado de máquina que simula a fala humana, usando rede neural com três ou mais camadas, para converter texto em fala ou transformar uma voz existente em uma nova voz com características diferentes, como timbre, entonação e velocidade.

A base desse sistema é chamada de Deep Learning, um subconjunto do aprendizado de máquina que visa simular o comportamento do cérebro humano conforme descrito pelo International Business Machines Corporation (IBM).

Assistentes virtuais utilizam IA para converter texto em fala.

Essa tecnologia está presente em diversos produtos e serviços do nosso cotidiano, como assistentes digitais, controles remotos ativados por voz e detecção de fraudes em cartões de crédito, além de estar sendo aplicada em tecnologias emergentes como carros autônomos.

A geração de voz por meio da inteligência artificial é um campo de pesquisa em rápido crescimento. O objetivo é criar vozes sintéticas que soem tão naturais quanto as vozes humanas, proporcionando uma experiência mais envolvente e realista para os ouvintes.

O processo de criação de voz por IA geralmente envolve duas etapas principais:

Para que a IA aprenda a gerar vozes realistas, ela precisa ser alimentada com um grande conjunto de dados de áudio. Esses dados podem incluir gravações de voz humana, discursos, conversas e outras amostras de áudio.

Quanto maior e mais diversificado o conjunto de dados, mais capaz a IA será de produzir vozes autênticas.

Com base nos dados de treinamento, a IA utiliza algoritmos de aprendizado de máquina como redes neurais para construir modelos capazes de mapear símbolos fonéticos e aprender os padrões e as nuances das vozes humanas.

Assim, esses modelos são capazes de gerar sequências de áudio que se assemelham ao som que queremos gerar, seja para imitar alguém ou criar uma nova voz.

O mesmo processo vale para mudar a sua voz. A IA é capaz de transformar a voz sintética em diferentes tons e estilos, como vozes masculinas, femininas, infantis e até mesmo vozes de celebridades.

Essa flexibilidade a torna uma ferramenta poderosa para aplicações em diversas áreas, como entretenimento, dublagem, narração e muito mais.

É importante ressaltar que a definição de "melhor IA de voz" pode variar dependendo das necessidades do usuário e dos critérios de avaliação, afinal, cada uma delas têm suas próprias características e níveis de realismo. Algumas das principais IA de voz disponíveis atualmente são:

Criada pela DeepMind, a WaveNet é uma das primeiras IA de voz a utilizar a técnica de síntese baseada em amostras de áudio. Isso permite uma geração de voz mais realista e com maior controle sobre as características da fala.

Há uma versão pluggin para o Google Chrome do Wavenet.

O Murf.AI oferece recursos de edição da voz em diferentes idiomas e sua interface facilita o processo de ajustar o tom, a velocidade e o timbre das vozes. A ferramenta tem um plano gratuito, mas para quem deseja utilizar todas as funções disponíveis, é preciso assinar o plano cobrado em dólar.

A Speechify é uma IA que transforma texto em áudios de alta qualidade. Você pode, inclusive, alternar entre diferentes vozes e sotaques para personalizada a sua criação online. Disponível em site e aplicativo para aparelhos Android e iOS.

Veja no Youtube

O Play.ht é mais uma ferramenta que gera de voz a partir de texto e recursos de ajuste para estilizar as pronúncias de acordo com a sua vontade. Por enquanto, o site entrega apenas vozes em inglês. Há um plano gratuito e assinatura premium cujo preço inicial é US$39.

O site Falatron utiliza IA para sintetizar vozes com base na tecnologia Tacotron-2, da Nvidia, e adaptações para o idioma português brasileiro feitas pelo nickname Cris140. Os modelos de voz treinados do Falatron possibilitam a conversão de texto com até 300 caracteres em áudios limitados em 5 segundos.

Ainda é possível definir as emoções que a voz irá transmitir ao inserir "|" após a frase digitada no campo de submissão. As opções de voz são várias, desde Mickey Mouse até famosos como Faustão e Silvio Santos.

Veja no Youtube

A VALL-E ainda está em fase de pesquisa, mas já apresenta uma abordagem distinta em relação ao processo de clonagem de voz pelo seu alto nível de personalização e expressividade.

A ferramenta da Microsoft apresentada no início de 2023 é capaz de simular um timbre de voz com apenas 3 segundos de áudio. Além disso, a ferramenta trouxe uma inovação notável! Basta inserir um texto e selecionar a emoção que deve ser reproduzida no tom de voz clonado: raiva, alegria, sonolência, neutralidade e por aí vai.

Sim, a clonagem de voz está se tornando uma realidade cada vez mais acessível com os avanços tecnológicos em IA. De modo geral, a técnica aplicada consegue mapear as características únicas da voz de um indivíduo e criar uma réplica sintética altamente precisa.

Essa tecnologia tem aplicações em dublagem, dublagem de filmes, assistentes de voz personalizados e até mesmo para preservar a voz de pessoas com doenças que possam afetar suas cordas vocais.

A clonagem de voz por inteligência artificial traz benefícios para a comunicação global em diversos setores, seja na tradução simultânea com timbres semelhantes ao do locutor original, no entretenimento ou na assistência aos portadores de deficiência.

No entanto, seu mau uso pode levar a golpes refinados e ainda servir como mais um recurso para a disseminação de "fake news" ao deturpar discursos políticos e associar falas sensacionalistas a celebridades, por exemplo.

Os riscos previstos até o momento por especialistas na área jurídica, como falsificação de identificação de voz e disputa por direitos autorais, podem ser evitados.

É urgente a criação de mais regulamentações acerca da inteligência artificial no mundo e a promoção de campanhas de conscientização também deve ser uma frente de investimento público e privado para garantir um uso ético e responsável dessas avançadas tecnologias.

Esse texto não reflete, necessariamente, a opinião do TIM NEWS, da TIM ou de suas afiliadas.