TIM News utiliza cookies e outras tecnologias semelhantes para personalizar a sua experiência e publicidade e recomendar conteúdo, de acordo com a nossa Privacidade . Ao continuar navegando, você concorda com estas condições.
Aceitar
Home
Tecnologia
Google apresenta nova IA que cria sons para vídeos
Tecnologia

Google apresenta nova IA que cria sons para vídeos

publisherLogo
Tecmundo
18/06/2024 18h45
icon_WhatsApp
icon_facebook
icon_email
https://timnews.com.br/system/images/photos/16261090/original/open-uri20240618-56-pm35dx?1718736541
©GettyImages
icon_WhatsApp
icon_facebook
icon_email
PUBLICIDADE

A DeepMind , braço do Google focado em inteligência artificial (IA), apresentou uma nova ferramenta capaz de criar som para vídeos e descrição em texto. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar o áudio desejado.

Ainda sem nome, a solução é uma ferramenta de "vídeo para áudio" ("video-to-audio", ou "V2A", em inglês). A plataforma aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico para uma variedade de contextos, incluindo músicas e diálogos.

Segundo o Google, a ferramenta tem a capacidade de entregar várias possibilidades, como trilhas sonoras para gravações, filmes, cenas de conversas e som ambiente.

Em comunicado, a empresa explicou como a tecnologia funciona. Há uma combinação de codificadores de vídeo e texto, junto a um modelo de difusão, este responsável por gerar um áudio ainda em compressão que, após decodificado, gera o áudio final.

Assim como em geradores de imagens, a IA da DeepMind não requer que o usuário seja meticuloso na descrição em texto — mas quanto mais detalhes, melhor. A empresa menciona que a ferramenta pode gerar uma quantidade "ilimitada" de efeitos sonoros para vídeos.

O resultado ainda tem cara de uma produção gerada por IA. O som apresenta uma alta qualidade e a DeepMind trabalha em melhorar a sincronização de lábios com diálogo.

Ainda que a ferramenta esteja em seus primeiros estágios de desenvolvimento e não esteja disponível para o público geral, o estudo representa um importante avanço em inteligência artificial e na preparação de ferramentas mais robustas. 

Além disso, a solução do Google é um pouco mais robusta do que as que estão disponíveis em plataformas concorrentes, como o gerador de áudios da ElevenLabs.

Agora, a ferramenta de vídeo para áudio da DeepMind passará por uma profunda avaliação de segurança e experimentação. Não há previsão para o lançamento definitivo da novidade.

Esse texto não reflete, necessariamente, a opinião do TIM NEWS, da TIM ou de suas afiliadas.
icon_WhatsApp
icon_facebook
icon_email
PUBLICIDADE
Confira também