Primeiro deepfaker do Brasil, Bruno Sartori decidiu educar sobre tecnologia após incompreensão do públicoReprodução
Quer dizer que ele usa inteligência artificial para criar imagens e áudios sintéticos. Deepfake é um método de produção de imagens falsas, normalmente em vídeo, construído por técnicas de inteligência artificial. A partir de um conjunto de imagens de arquivo é possível sintetizar aquela pessoa em um vídeo.
Sartori publicou nesta quinta-feira (31) uma paródia humorística na qual diversos políticos cantam a música 'Malandragem', sucesso na interpretação de Cássia Eller. Bruno incluiu as vozes no clipe, após usuários do Twitter atribuírem cada verso da canção a diferentes personalidades da política brasileira.
"Não deu pra fazer um conteúdo com uma qualidade melhor, devido ao curto espaço de tempo e o risco de alguém tentar passar pra frente como original, mas deu pra demonstrar o que é possível de ser criado com poucos minutos de voz. Em alguns anos, qualquer pessoa conseguirá 'clonar' a sua voz. Já imaginou alguém pedindo PIX pra algum dos seus contatos usando sua voz?", alertou.
Na produção, Sartori forjou as vozes de Cabo Daciolo, Carlos Bolsonaro, Ciro Gomes, entre outros. Para sintetizar aquelas vozes, Bruno utilizou dois minutos de falas gravadas de cada político. A publicação fez sucesso e um dos comentários era de Vivi Seixas, filha de Raul Seixas, que propôs que o Bruxo dos vídeos fizesse um trabalho com a voz do pai. "Vamos voltar a sonhar com aquele nosso projeto?", escreveu.
O humorista e especialista na tecnologia conversou com O DIA sobre deepfake e o trabalho como chargista digital. O primeiro trabalho viralizado foi quando colocou o rosto de Jair Bolsonaro em um vídeo do personagem mexicano Chapolin Colorado. A peça ironizava as declarações do presidente em maio de 2019 durante visita aos Estados Unidos.
Na época, o público não entendeu tratar-se de uma montagem. Bruno percebeu a necessidade de informar sobre a nova tecnologia. O temor era de que a deepfake fosse incorporada à desinformação política, o que de fato já acontece nestas eleições.
No ano que seu primeiro vídeo viralizou, Bruno cursava Direito em Unaí, Minas Gerais. Com o sucesso do conteúdo, ele foi convidado para entrevistas e até para o programa de Tatá Werneck. Em 2020, mudou-se para São Paulo, onde, aos 33 anos, tem uma empresa especializada em deepfake.
Ele considera que seu trabalho tenha surgido no momento certo, para que o público se familiarizasse com a tecnologia antes desta campanha eleitoral.
No futuro, ele diz que a deepfake estará nas séries de streaming, nas quais poderemos colocar a nós mesmos e nossa família para protagonizar um episódio. Nas plataformas de áudio, será possível ouvir músicas na nossa voz ou de parentes e artistas que já faleceram, conta o deepfaker.
O DIA: Bruno, como conheceu e estudou a deepfake?
Em dezembro de 2017, eu já fazia os vídeos que faço hoje utilizando efeitos especiais. Buscando melhorar a técnica de troca de rostos, acabei trombando com um código em um fórum americano. O pessoal estava usando esta tecnologia para criar pornografia. Percebi que havia a possibilidade do recurso ser usado para o humor e para a publicidade e estudei.
O DIA: Quais são os tipos de deepfake que existem?
O primeiro foi o de imagem. Eram as troca de rostos. Naquela época, em 2017, 2018, grandes atrizes de cinema eram as vítimas. Elas têm vasto material disponível, o que é necessário para a produção de deepfake. Criava-se o uso de conteúdo pornográfico.
Em seguida, foi feito uso político para mostrar o perigo dessas deepfakes. Circularam vídeos de falas alteradas do presidente Barack Obama. Depois, isso se estendeu para outros setores do entretenimento.
De uns 2,5 anos pra cá, temos o uso do deepfake em áudio. É o deepvoice, no qual é possível copiar timbre, cadência, cacoete e cadência para criar uma voz igual à original.
O DIA: O deepvoice, assim como a deepfake de imagem, precisa de um bom banco de dados para ser feito?
Publiquei um vídeo com uma paródia na qual diferentes políticos cantavam versos de “Malandragem”. Foi um trabalho que durou entre 24 e 36 horas. Utilizei uma base de dois minutos de cada. O resultado foi de vozes ainda robóticas. Mas, se eu tivesse um banco de dados maior, conseguiria uma qualidade melhor.
A inteligência artificial encontra um padrão na voz e consegue reproduzir. Com um pequeno banco, o padrão não é tão alto, mas quando o banco é maior, conseguimos melhores resultados. Além disso, os códigos tendem a melhorar. Em algum tempo, teremos maior qualidade para a mesma quantidade de dados.
São códigos sendo executados pela máquina. Pra gente que conhece o caminho das pedras, é simples. Só é necessário que você tenha esse conhecimento. Depois que você tem, o processo se torna mais natural, como tudo na vida.
Nos meus vídeos, eu costumo deixar claro que aquele conteúdo não é original por conta de estarmos no período eleitoral. Tenho usado o deepvoice de maneira que ainda deixa a voz robótica.
A deepvoice ainda está engatinhando, enquanto que a deepfake em vídeo está correndo, já chegando no final. Com a evolução da deepvoice, vamos chegar a um nível que poderemos gravar um disco com a voz de algum artista que já morreu. Minha empresa trabalha em transferir timbre de voz para outras línguas: portugês e japonês. Também será um avanço nas comunicações.
O DIA: Vimos deepfakes atingirem os apresentadores do Jornal Nacional William Bonner e Renata Vasconcellos recentemente. Nesses casos foram utilizados imitadores ou deepvoice?
O da Renata não é deepfake, mas também não é real. O vídeo foi colocado em uma ordem diferente. É uma shallowfake. Trata-se de uma edição simples para dar um novo contexto ao conteúdo. Não é deepfake porque não tem inteligência artificial ali.
O caso do Bonner, sim, foi feito artificialmente com banco de dados. Mas, você percebe as frases robóticas. Foi utilizado o processo text to speek. Você digita e o computador reproduz na voz da pessoa. É precário. Mas, utilizando bons modelos alcançamos um resultado próximo do real.
O DIA: O senhor costuma fazer alertas em sua rede sobre o uso de deepfake na desinformação. Como começou a ter essa preocupação?
Inicialmente, fazer os vídeos com deepfake era um hobbie. Mas percebi que as pessoas achavam que era real. Não tínhamos deepfake no Brasil. No primeiro que viralizou, coloquei o rosto do Bolsonaro no Chapolin Colorado e tinha gente acreditando. Achavam que Bolsonaro estava vestido de Chapolin.
Percebi que precisava apresentar pras pessoas essa tecnologia. Por mais que eu não tivesse capacidade de fazer vídeos tão realistas, tinha noção do que a deepfake poderia virar.
O DIA: Porque decidiu usar o termo deepfaker para definir seu trabalho?
Quem sabe usar bem o programa Photoshop, é photoshoper. Não há nada de pejorativo no termo deepfake. É como acontece com o termo hacker. O hacker desenvolve funcionalidades e aplicações para computadores, dispositivos móveis e internet. Não há nada de errado. Os crackers que são aqueles que utilizam o conhecimento para ações maléficas.
O DIA: Em quais campos o senhor trabalha hoje com deep fake?
Eu tenho uma empresa que atende o mercado publicitário e de entretenimento. Produzimos mídia sintética. Produzimos o que o cliente precisa. Por exemplo, precisamos de um jogador de futebol ou de uma atriz e inserimos no vídeo. Também trabalhamos com voz. Reproduzimos de pessoas que já morreram. Estamos testando um dispositivo que você grava em português e a voz é reproduzida em outro idioma: inglês ou japonês.
O DIA: O senhor é otimista ou pessimista com esta tecnologia?
A gente aposta bastante na deepfake na nossa empresa. É um futuro promissor. No futuro a gente vai ter a customização do conteúdo. Vamos ouvir música na nossa própria voz, na de um avô que já se foi, na voz de outro cantor. Quando formos assistir a uma série poderemos enviar nossa foto e estar dentro da tela, no lugar de algum personagem. Essa tecnologia já existe. O futuro caminha pra isso.
O DIA: Como o senhor resumiria seu trabalho?
Considero que esse trabalho foi essencial e no momento certo. Ele surgiu em 2018. Naquelas eleições, não tinha gente qualificada para usar conteúdo falso. Durante os anos seguintes, tiveram vídeos meus com esta tecnologia pipocando.
Com isso, tivemos tempo para poder ser vacinado com essa tecnologia. Também surgiram aplicativos que usavam deepfake. Essa popularização foi essencial antes dessa campanha eleitoral. Se a gente chegasse neste período sem o contato inicial, o estrago seria muito grande.
Eu ainda não tenho dimensão de onde meu trabalho chega. Os maiores artistas acabam compartilhando e minha ficha ainda não caiu: Paulo Coelho, Adnet, Laerte.
Não é todo dia que você recebe um apelido de Paulo Coelho. Ele me mandou um livro autografado e se referiu a mim como “Bruxo dos vídeos” na dedicatória.
Os comentários não representam a opinião do jornal e são de responsabilidade do autor.