Quando for lançada, o áudio gerado incluirá a marca d'água SynthID do Google para indicar que foi criado por IAGetty Images

O Google DeepMind lançará uma nova ferramenta de IA para gerar trilhas sonoras para vídeos. Além de utilizar prompts de texto para criar áudio, a ferramenta da DeepMind também considera o conteúdo do vídeo.
Combinando essas duas abordagens, a DeepMind afirma que os usuários podem usar a ferramenta para criar cenas com “uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que correspondam aos personagens e ao tom de um vídeo”. Você pode conferir alguns exemplos no site da DeepMind – e eles são impressionantes.
Para um vídeo de um carro dirigindo em uma paisagem urbana no estilo cyberpunk, o Google usou o prompt “carros derrapando, motor de carro acelerando, música eletrônica angelical” para gerar o áudio. Os sons de derrapagem se ajustam perfeitamente ao movimento do carro. Em outro exemplo, a ferramenta cria uma paisagem sonora subaquática usando o prompt “água-viva pulsando sob a água, vida marinha, oceano”.
Embora os usuários possam fornecer um prompt de texto, a DeepMind diz que isso é opcional. Os usuários também não precisam ajustar meticulosamente o áudio gerado às cenas apropriadas, já que a ferramenta pode gerar um número “ilimitado” de trilhas sonoras para vídeos, permitindo uma infinidade de opções de áudio.
Isso pode diferenciá-la de outras ferramentas de IA, como o gerador de efeitos sonoros da ElevenLabs, que utiliza prompts de texto para criar áudio. Além disso, pode facilitar a sincronização de áudio com vídeos gerados por IA usando ferramentas como Veo e Sora da DeepMind (esta última planeja eventualmente incorporar áudio).
A DeepMind afirma que treinou sua ferramenta de IA em vídeos, áudios e anotações contendo “descrições detalhadas de som e transcrições de diálogos falados”. Isso permite que o gerador de áudio combine eventos sonoros com cenas visuais.
No entanto, a ferramenta ainda tem algumas limitações. Por exemplo, a DeepMind está trabalhando para melhorar a capacidade de sincronizar movimentos labiais com diálogos, como demonstrado em um vídeo de uma família em claymation. A DeepMind também observa que a qualidade do vídeo é crucial, pois qualquer coisa granulada ou distorcida “pode levar a uma queda perceptível na qualidade do áudio”.
A ferramenta da DeepMind ainda não está disponível, pois precisa passar por “avaliações e testes de segurança rigorosos”. Quando for lançada, o áudio gerado incluirá a marca d'água SynthID do Google para indicar que foi criado por IA.