Google apresenta nova IA que cria sons para vídeos
Tecmundo
A DeepMind , braço do Google focado em inteligência artificial (IA), apresentou uma nova ferramenta capaz de criar som para vídeos e descrição em texto. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar o áudio desejado.
Ainda sem nome, a solução é uma ferramenta de "vídeo para áudio" ("video-to-audio", ou "V2A", em inglês). A plataforma aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico para uma variedade de contextos, incluindo músicas e diálogos.
Segundo o Google, a ferramenta tem a capacidade de entregar várias possibilidades, como trilhas sonoras para gravações, filmes, cenas de conversas e som ambiente.
Em comunicado, a empresa explicou como a tecnologia funciona. Há uma combinação de codificadores de vídeo e texto, junto a um modelo de difusão, este responsável por gerar um áudio ainda em compressão que, após decodificado, gera o áudio final.
Assim como em geradores de imagens, a IA da DeepMind não requer que o usuário seja meticuloso na descrição em texto — mas quanto mais detalhes, melhor. A empresa menciona que a ferramenta pode gerar uma quantidade "ilimitada" de efeitos sonoros para vídeos.
O resultado ainda tem cara de uma produção gerada por IA. O som apresenta uma alta qualidade e a DeepMind trabalha em melhorar a sincronização de lábios com diálogo.
Ainda que a ferramenta esteja em seus primeiros estágios de desenvolvimento e não esteja disponível para o público geral, o estudo representa um importante avanço em inteligência artificial e na preparação de ferramentas mais robustas.
Além disso, a solução do Google é um pouco mais robusta do que as que estão disponíveis em plataformas concorrentes, como o gerador de áudios da ElevenLabs.
Agora, a ferramenta de vídeo para áudio da DeepMind passará por uma profunda avaliação de segurança e experimentação. Não há previsão para o lançamento definitivo da novidade.