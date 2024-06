Quando for lançada, o áudio gerado incluirá a marca d'água SynthID do Google para indicar que foi criado por IA - Getty Images

Publicado 18/06/2024 15:55 | Atualizado 18/06/2024 15:56

O Google DeepMind lançará uma nova ferramenta de IA para gerar trilhas sonoras para vídeos. Além de utilizar prompts de texto para criar áudio, a ferramenta da DeepMind também considera o conteúdo do vídeo.

Combinando essas duas abordagens, a DeepMind afirma que os usuários podem usar a ferramenta para criar cenas com “uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que correspondam aos personagens e ao tom de um vídeo”. Você pode conferir alguns exemplos no site da DeepMind – e eles são impressionantes.

Para um vídeo de um carro dirigindo em uma paisagem urbana no estilo cyberpunk, o Google usou o prompt “carros derrapando, motor de carro acelerando, música eletrônica angelical” para gerar o áudio. Os sons de derrapagem se ajustam perfeitamente ao movimento do carro. Em outro exemplo, a ferramenta cria uma paisagem sonora subaquática usando o prompt “água-viva pulsando sob a água, vida marinha, oceano”.

Embora os usuários possam fornecer um prompt de texto, a DeepMind diz que isso é opcional. Os usuários também não precisam ajustar meticulosamente o áudio gerado às cenas apropriadas, já que a ferramenta pode gerar um número “ilimitado” de trilhas sonoras para vídeos, permitindo uma infinidade de opções de áudio.

Isso pode diferenciá-la de outras ferramentas de IA, como o gerador de efeitos sonoros da ElevenLabs, que utiliza prompts de texto para criar áudio. Além disso, pode facilitar a sincronização de áudio com vídeos gerados por IA usando ferramentas como Veo e Sora da DeepMind (esta última planeja eventualmente incorporar áudio).

A DeepMind afirma que treinou sua ferramenta de IA em vídeos, áudios e anotações contendo “descrições detalhadas de som e transcrições de diálogos falados”. Isso permite que o gerador de áudio combine eventos sonoros com cenas visuais.

No entanto, a ferramenta ainda tem algumas limitações. Por exemplo, a DeepMind está trabalhando para melhorar a capacidade de sincronizar movimentos labiais com diálogos, como demonstrado em um vídeo de uma família em claymation. A DeepMind também observa que a qualidade do vídeo é crucial, pois qualquer coisa granulada ou distorcida “pode levar a uma queda perceptível na qualidade do áudio”.

A ferramenta da DeepMind ainda não está disponível, pois precisa passar por “avaliações e testes de segurança rigorosos”. Quando for lançada, o áudio gerado incluirá a marca d'água SynthID do Google para indicar que foi criado por IA.