Detectando Deepfakes de Videoconferência com a Função 'Vibrar' de um Smartphone

Uma nova pesquisa de Cingapura propôs um novo método para detectar se alguém do outro lado de uma ferramenta de videoconferência de smartphone está usando métodos como o DeepFaceLive para se passar por outra pessoa.

Intitulado Falsoa nova abordagem abandona os métodos passivos empregados pela maioria dos sistemas e faz com que o telefone do usuário vibrar (usando os mesmos mecanismos de “vibração” comuns em smartphones) e desfocar sutilmente o rosto.

Embora os sistemas de deepfaking ao vivo sejam capazes de replicar o desfoque de movimento, desde que a filmagem desfocada tenha sido incluída nos dados de treinamento, ou pelo menos nos dados de pré-treinamento, eles não conseguem responder rápido o suficiente a desfoques inesperados desse tipo e continuam a exibir seções não desfocadas de rostos, revelando a existência de uma teleconferência deepfake.

O DeepFaceLive não consegue responder rápido o suficiente para simular o desfoque causado pelas vibrações da câmera. Fonte: https://arxiv.org/pdf/2409.10889v1

Os resultados dos testes no conjunto de dados autogerenciados pelos pesquisadores (já que não há conjuntos de dados com trepidação ativa da câmera) descobriram que o SFake superou os métodos concorrentes de detecção de deepfake baseados em vídeo, mesmo quando confrontados com circunstâncias desafiadoras, como o movimento pure da mão que ocorre quando a outra pessoa em uma videoconferência está segurando a câmera com a mão, em vez de usar um suporte estático para telefone.

A crescente necessidade de detecção de deepfake baseada em vídeo

Pesquisas sobre detecção de deepfake com base em vídeo aumentaram recentemente. Após vários anos de assaltos bem-sucedidos de deepfake com base em voz, no início deste ano um trabalhador financeiro foi enganado para transferir US$ 25 milhões para um fraudador que estava se passando por um CFO em uma videoconferência deepfake.

Embora um sistema dessa natureza exija um alto nível de acesso ao {hardware}, muitos usuários de smartphones já estão acostumados com serviços de verificação financeira e de outros tipos que nos pedem para registrar nossas características faciais para autenticação baseada em rosto (na verdade, isso até faz parte do processo de verificação do LinkedIn).

Portanto, parece provável que tais métodos sejam cada vez mais aplicados em sistemas de videoconferência, já que esse tipo de crime continua a ser manchete.

A maioria das soluções que abordam deepfaking de videoconferência em tempo actual assumem um cenário muito estático, onde o comunicante está usando uma webcam estacionária, e nenhum movimento ou mudanças excessivas de ambiente ou iluminação são esperadas. Uma chamada de smartphone não oferece tal situação 'fixa'.

Em vez disso, o SFake usa uma série de métodos de detecção para compensar o alto número de variantes visuais em uma videoconferência baseada em smartphone portátil e parece ser o primeiro projeto de pesquisa a abordar o problema usando equipamento de vibração padrão integrado em smartphones.

O artigo é intitulado Agitando o Faux: Detectando vídeos Deepfake em tempo actual por meio de sondas ativase vem de dois pesquisadores da Universidade Tecnológica de Nanyang, em Cingapura.

Método

O SFake foi projetado como um serviço baseado em nuvem, onde um aplicativo native enviaria dados para um serviço de API remoto para serem processados, e os resultados seriam enviados de volta.

No entanto, seu tamanho de apenas 450 MB e sua metodologia otimizada permitem que ele processe a detecção de deepfake inteiramente no próprio dispositivo, em casos em que a conexão de rede pode fazer com que as imagens enviadas fiquem excessivamente compactadas, afetando o processo de diagnóstico.

Executar 'tudo native' dessa maneira significa que o sistema teria acesso direto ao feed da câmera do usuário, sem a interferência do codec frequentemente associada à videoconferência.

O tempo médio de análise requer uma amostra de vídeo de quatro segundos, durante a qual o usuário é solicitado a permanecer parado, e durante a qual o SFake envia “sondas” para fazer com que as vibrações da câmera ocorram, em intervalos seletivamente aleatórios aos quais sistemas como o DeepFaceLive não conseguem responder a tempo.

(Deve ser enfatizado novamente que qualquer invasor que não tenha incluído conteúdo desfocado no conjunto de dados de treinamento provavelmente não conseguirá produzir um modelo que possa gerar desfoque mesmo em circunstâncias muito mais favoráveis, e que o DeepFaceLive não pode simplesmente “adicionar” essa funcionalidade a um modelo treinado em um conjunto de dados mal curado)

O sistema escolhe áreas selecionadas do rosto como áreas de potencial conteúdo deepfake, excluindo os olhos e as sobrancelhas (já que piscar e outras motilidade facial nessa área estão fora do escopo da detecção de desfoque e não são um indicador supreme).

Esquema conceitual para SFake.

Como podemos ver no esquema conceitual acima, após escolher padrões de vibração apropriados e não previsíveis, definir a melhor distância focal e realizar o reconhecimento facial (incluindo detecção de pontos de referência por meio de um componente Dlib que estima um padrão de 68 pontos de referência faciais), o SFake deriva gradientes do rosto de entrada e se concentra em áreas selecionadas desses gradientes.

A sequência de variância é obtida pela análise sequencial de cada quadro no clipe curto em estudo, até que a sequência média ou “supreme” seja alcançada, e o restante seja desconsiderado.

Isso fornece recursos extraídos que podem ser usados como um quantificador para a probabilidade de conteúdo deepfaked, com base no banco de dados treinado (sobre o qual, mais brevemente).

O sistema requer uma resolução de imagem de 1920×1080 pixels, bem como um requisito de zoom de pelo menos 2x para a lente. O artigo observa que tais resoluções (e resoluções ainda maiores) são suportadas no Microsoft Groups, Skype, Zoom e Tencent Assembly.

A maioria dos smartphones tem uma câmera frontal e uma câmera selfie, e muitas vezes apenas uma delas tem os recursos de zoom exigidos pelo SFake; o aplicativo, portanto, exigiria que o comunicante usasse qualquer uma das duas câmeras que atendesse a esses requisitos.

O objetivo aqui é obter uma proporção correta do rosto do usuário no fluxo de vídeo que o sistema analisará. O artigo observa que a distância média que as mulheres usam dispositivos móveis é de 34,7 cm, e para os homens, 38,2 cm (conforme relatado em Revista de Optometria), e que o SFake opera muito bem nessas distâncias.

Como a estabilização é um problema com vídeo portátil, e como o desfoque que ocorre com o movimento da mão é um impedimento ao funcionamento do SFake, os pesquisadores tentaram vários métodos para compensar. O mais bem-sucedido deles foi calcular o ponto central dos marcos estimados e usá-lo como uma “âncora” – efetivamente uma técnica de estabilização algorítmica. Por esse método, uma precisão de 92% foi obtida.

Dados e Testes

Como não existiam conjuntos de dados adequados para esse propósito, os pesquisadores desenvolveram os seus próprios:

'(Nós) usamos 8 marcas diferentes de smartphones para gravar 15 participantes de gêneros e idades variados para construir nosso próprio conjunto de dados. Colocamos o smartphone no suporte de telefone a 20 cm de distância do participante e ampliamos duas vezes, mirando no rosto do participante para abranger todas as suas características faciais enquanto vibramos o smartphone em diferentes padrões.

'Para telefones cujas câmeras frontais não podem dar zoom, usamos as câmeras traseiras como um substituto. Gravamos 150 vídeos longos, cada um com 20 segundos de duração. Por padrão, assumimos que o período de detecção dura 4 segundos. Cortamos 10 clipes de 4 segundos de um vídeo longo, randomizando o tempo de início. Portanto, obtemos um whole de 1500 clipes reais, cada um com 4 segundos de duração.'

Embora o DeepFaceLive (hyperlink do GitHub) tenha sido o alvo central do estudo, já que atualmente é o sistema de deepfaking ao vivo de código aberto mais amplamente utilizado, os pesquisadores incluíram quatro outros métodos para treinar seu modelo de detecção base: Hififace; FS-GANV2; RemakerAI; e MobileFaceSwap — o último deles uma escolha particularmente apropriada, dado o ambiente de destino.

1500 vídeos falsos foram usados para treinamento, juntamente com o número equivalente de vídeos reais e inalterados.

O SFake foi testado em vários classificadores diferentes, incluindo SBI; FaceAF; CnnDetect; LRNet; variantes do DefakeHop; e o serviço gratuito de detecção de deepfake on-line Deepaware. Para cada um desses métodos de deepfake, 1500 vídeos falsos e 1500 vídeos reais foram treinados.

Para o classificador de teste base, foi usada uma rede neural simples de duas camadas com uma função de ativação ReLU. 1000 vídeos reais e 1000 falsos foram escolhidos aleatoriamente (embora os vídeos falsos fossem exclusivamente exemplos do DeepFaceLive).

A área sob a curva característica operacional do receptor (AUC/AUROC) e a precisão (ACC) foram usadas como métricas.

Para treinamento e inferência, foi usada uma NVIDIA RTX 3060, e os testes foram executados no Ubuntu. Os vídeos de teste foram gravados com um Xiaomi Redmi 10x, um Xiaomi Redmi K50, um OPPO Discover x6, um Huawei Nova9, um Xiaomi 14 Extremely, um Honor 20, um Google Pixel 6a e um Huawei P60.

Para concordar com os métodos de detecção existentes, os testes foram implementados no PyTorch. Os resultados dos testes primários são ilustrados na tabela abaixo:

Resultados do SFake em comparação com métodos concorrentes.

Aqui os autores comentam:

'Em todos os casos, a precisão de detecção do SFake excedeu 95%. Entre os cinco algoritmos deepfake, exceto o Hififace, o SFake tem melhor desempenho contra outros algoritmos deepfake do que os outros seis métodos de detecção. Como nosso classificador é treinado usando imagens falsas geradas pelo DeepFaceLive, ele atinge a maior taxa de precisão de 98,8% ao detectar o DeepFaceLive.

'Ao enfrentar rostos falsos gerados pelo RemakerAI, outros métodos de detecção têm desempenho ruim. Especulamos que isso pode ser devido à compressão automática de vídeos ao baixar da web, resultando na perda de detalhes da imagem e, portanto, reduzindo a precisão da detecção. No entanto, isso não afeta a detecção pelo SFake, que atinge uma precisão de 96,8% na detecção contra o RemakerAI.'

Os autores observam ainda que o SFake é o sistema de melhor desempenho no cenário de um zoom de 2x aplicado à lente de captura, uma vez que isso exagera o movimento e é uma perspectiva incrivelmente desafiadora. Mesmo nessa situação, o SFake foi capaz de atingir precisão de reconhecimento de 84% e 83%, respectivamente para fatores de ampliação de 2,5 e 3.

Conclusão

Um projeto que usa as fraquezas de um sistema deepfake ativo contra si mesmo é uma oferta revigorante em um ano em que a detecção de deepfake foi dominada por artigos que apenas estimularam abordagens veneráveis em torno da análise de frequência (que está longe de ser imune a inovações no espaço deepfake).

No closing de 2022, outro sistema usou a variação de brilho do monitor como um gancho detector; e no mesmo ano, minha própria demonstração da incapacidade do DeepFaceLive de lidar com visualizações de perfil de 90 graus atraiu algum interesse da comunidade.

O DeepFaceLive é o alvo correto para tal projeto, pois é quase certamente o foco de interesse criminoso em relação à fraude de videoconferência.

No entanto, recentemente vi algumas evidências de que o sistema LivePortrait, atualmente muito standard na comunidade de efeitos visuais, lida com visualizações de perfil muito melhor do que o DeepFaceLive; teria sido interessante se ele pudesse ter sido incluído neste estudo.

Primeira publicação terça-feira, 24 de setembro de 2024

join the future newsletter Unite AI Mobile Newsletter 1