quarta-feira, 4 de agosto de 2021

No fundo, fica falso (ou como minha profissão pode acabar)

É cada vez mais frequente entre meus colegas de trabalho a discussão sobre o fim da nossa profissão com a evolução das tecnologias text-to-speech e técnicas de deepfake por computação gráfica. Aliás, essa discussão, em e com outros termos, já existia muito antes de eu entrar nesse meio. E é óbvio que essa profissão vai acabar um dia, assim como muitas outras que deixaram de existir. Enquanto isso é ruim para os profissionais envolvidos, é apenas natural para a humanidade como um todo. 

Entretanto, algumas questões ficam sem grandes respostas na minha cabeça. Quando isso vai acontecer? Estamos tão perto assim do fim da necessidade de dublagem ou, melhor dizendo, o fim da dublagem feita por pessoas? Em termos simples, nosso trabalho é feito de interpretação artística, ou seja, atuação, e sincronização com movimentos labiais e/ou áudio original de uma obra. Uma tecnologia de text-to-speech é capaz de interpretar? Provavelmente sim. Essa mesma tecnologia conseguiria adaptar falas de um roteiro para que o movimento labial combinasse com o que está sendo dito ou essa parte do trabalho ainda teria que ser feita por um ser humano?

Na possibilidade de um sistema text-to-speech não conseguir cuidar do lipsync, as técnicas de deepfake poderiam resolver essa parte do trabalho? Ora, se um filme de orçamento milionário teve parte de sua recepção negativa causada por um bigode removido digitalmente de maneira porca, poderíamos mesmo usar animação em CGI para alterar o movimento labial de todos os atores de um filme sem que aquilo tudo ficasse parecendo um episódio bem trabalhado de Annoying Orange? Não pergunto nem se o público vai se importar, considerando que ninguém gosta muito dos voice-overs, aquelas dublagens "estranhas" de documentários. Quanto a voz, temos outras questões importantes. As vozes deveriam ser formadas em cima de um banco de dados e fonemas gravados previamente. Fico interessado em saber se são pagos os royalties para as pessoas que gravaram vozes de inteligências artificiais que já usamos, se vai haver pagamento de direitos autorais e conexos.

Claro que boa parte dessas perguntas só fazem sentido se ignorarmos a possibilidade de uma máquina conseguir gerar uma voz do zero, coisa que eu acho bem improvável. Aliás, se uma máquina conseguir interpretar com sentimentos, ela está a quantos passos de poder ser considerada um ser vivo com direitos e deveres? Bom, essa última pergunta foi uma versão rasa de qualquer discussão em obras de ficção científica. Ainda na ficção científica, se nada disso importar e conseguirmos, num futuro próximo, ter tradutores universais, como os de Star Trek ou Doctor Who. Além de acabar com a minha profissão, isso mudaria nossa forma de pensar? Estaríamos abrindo mão de formas diferentes de pensar?

Aproveito a deixa para redirecionar aqui um artigo científico que fala um pouco sobre como aprender outros idiomas muda nossa forma de pensar: http://euler.mat.ufrgs.br/~viali/estatistica/estatistica/outros/Linguagem.pdf

Depois de fazer perguntas – algumas meramente retóricas – sobre o quanto essas novas tecnologias impactam no meu trabalho, deixo registrada uma preocupação um pouco mais ampla e de alcance e consequências coletivas: ao criar ferramentas que emulam vozes reais e emoções reais, esbarramos na perigoso uso para fins maliciosos, como incriminar outras pessoas. 

Agora imaginem que um líder político que a população considera um grande g3n0c1d4 se livra de acusações dizendo que metade de suas declarações criminosas foi fruto de uma brincadeira de algum tuiteiro engraçadinho com habilidades avançadas de edição de vídeo e animação. É um problema possivelmente maior do que o fim da minha profissão.

Nenhum comentário:

Postar um comentário