Tech

AniPortrait: síntese de animação de retratos fotorrealistas baseada em áudio

LifeTechWebMay 3, 2024

0 8 minutes read

DALL·E 2024 05 03 22.41.45 Create a widescreen image illustrating the concept of audio driven synthesis of photorealistic portrait animation. The image should depict a highly de

Ao longo dos anos, a criação de animações de retratos realistas e expressivos a partir de imagens estáticas e áudio encontrou uma variedade de aplicações, incluindo jogos, mídia digital, realidade digital e muito mais. Apesar de seu potencial de aplicação, ainda é difícil para os desenvolvedores criar frameworks capazes de gerar animações de alta qualidade, que mantenham consistência temporal e sejam visualmente cativantes. Uma das principais causas da complexidade é a necessidade de uma coordenação intrincada de movimentos labiais, posições da cabeça e expressões faciais para criar um efeito visualmente atraente.

Neste artigo, falaremos sobre AniPortrait, um novo framework projetado para gerar animações de alta qualidade baseadas em uma imagem de retrato de referência e uma amostra de áudio. O funcionamento do framework AniPortrait é dividido em duas etapas. Primeiro, a estrutura AniPortrait extrai as representações 3D intermediárias das amostras de áudio e as projeta em uma sequência de pontos de referência faciais 2D. Depois disso, a estrutura emprega um modelo de difusão robusto acoplado a um módulo de movimento para converter as sequências de marcos em animações fotorrealistas e temporalmente consistentes. Os resultados experimentais demonstram a superioridade e capacidade do framework AniPortrait em gerar animações de alta qualidade com excepcional qualidade visible, diversidade de poses e naturalidade facial, oferecendo assim uma experiência perceptual aprimorada e enriquecida. Além disso, a estrutura AniPortrait possui um potencial notável em termos de controlabilidade e flexibilidade e pode ser aplicada de forma eficaz em áreas como reconstituição facial, edição de movimentos faciais e muito mais. Este artigo tem como objetivo cobrir o framework AniPortrait em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks do estado da arte. Então vamos começar.

A criação de animações de retratos realistas e expressivas tem sido o foco dos pesquisadores há algum tempo devido ao seu incrível potencial e aplicações que vão desde mídia digital e realidade digital até jogos e muito mais. Apesar de anos de pesquisa e desenvolvimento, produzir animações de alta qualidade que mantenham a consistência temporal e sejam visualmente cativantes ainda representa um desafio significativo. Um grande obstáculo para os desenvolvedores é a necessidade de uma coordenação complexa entre as posições da cabeça, as expressões visuais e os movimentos dos lábios para criar um efeito visualmente atraente. Os métodos existentes não conseguiram enfrentar esses desafios, principalmente porque a maioria deles depende de geradores de capacidade limitada, como NeRF, decodificadores baseados em movimento e GAN para criação de conteúdo visible. Estas redes apresentam capacidades limitadas de generalização e são instáveis na geração de conteúdo de alta qualidade. No entanto, o recente surgimento de modelos de difusão facilitou a geração de imagens de alta qualidade, e algumas estruturas construídas sobre modelos de difusão juntamente com módulos temporais facilitaram a criação de vídeos atraentes, permitindo que os modelos de difusão se destacassem.

Com base nos avanços dos modelos de difusão, a estrutura AniPortrait visa gerar retratos animados de alta qualidade usando uma imagem de referência e uma amostra de áudio. O funcionamento do framework AniPortrait é dividido em duas etapas. No primeiro estágio, a estrutura AniPortrait emprega modelos baseados em transformadores para extrair uma sequência de malha facial 3D e pose de cabeça a partir da entrada de áudio, e os projeta posteriormente em uma sequência de pontos de referência faciais 2D. O primeiro estágio facilita a estrutura AniPortrait para capturar movimentos labiais e expressões sutis do áudio, além de movimentos de cabeça que sincronizam com o ritmo da amostra de áudio. O segundo estágio, a estrutura AniPortrait, emprega um modelo de difusão robusto e o integra com um módulo de movimento para transformar a sequência de marco facial em um retrato animado fotorrealista e temporalmente consistente. Para ser mais específico, a estrutura AniPortrait baseia-se na arquitetura de rede do modelo AnimateAnyone existente que emprega Secure Diffusion 1.5, um modelo de difusão potente para gerar fluido e realista com base em uma imagem de referência e uma sequência de movimento corporal. O que vale a pena notar é que a estrutura AniPortrait não usa o módulo guia de pose nesta rede conforme implementado na estrutura AnimateAnyone, mas o redesenha, permitindo que a estrutura AniPortrait não apenas mantenha um design leve, mas também exiba maior precisão na geração de lábios. movimentos.

Resultados experimentais demonstram a superioridade do framework AniPortrait na criação de animações com impressionante naturalidade facial, excelente qualidade visible e poses variadas. Ao empregar representações faciais 3D como recursos intermediários, a estrutura AniPortrait ganha flexibilidade para modificar essas representações de acordo com seus requisitos. A adaptabilidade melhora significativamente a aplicabilidade da estrutura AniPortrait em domínios que incluem reconstituição facial e edição de movimentos faciais.

AniPortrait: Funcionamento e Metodologia

A estrutura AniPortrait proposta compreende dois módulos, nomeadamente Lmk2Video e Audio2Lmk. O módulo Audio2Lmk tenta extrair uma sequência de pontos de referência que captura movimentos intrincados dos lábios e expressões faciais da entrada de áudio, enquanto o módulo Lmk2Video usa essa sequência de pontos de referência para gerar vídeos de retratos de alta qualidade com estabilidade temporal. A figura a seguir apresenta uma visão geral do funcionamento do framework AniPortrait. Como pode ser observado, a estrutura AniPortrait primeiro extrai a malha facial 3D e a pose da cabeça do áudio e, posteriormente, projeta esses dois elementos em pontos-chave 2D. Na segunda etapa, o framework emprega um modelo de difusão para transformar os pontos-chave 2D em um vídeo retrato com dois estágios sendo treinados simultaneamente na rede.

Áudio2Lmk

Para uma determinada sequência de trechos de fala, o objetivo principal da estrutura AniPortrait é prever a sequência de malha facial 3D correspondente com representações vetoriais de translação e rotação. A estrutura AniPortrait emprega o método wav2vec pré-treinado para extrair recursos de áudio, e o modelo exibe um alto grau de generalização e é capaz de reconhecer com precisão a entonação e a pronúncia do áudio, o que desempenha um papel essential na geração de animações faciais realistas. Ao aproveitar os robustos recursos de fala adquiridos, a estrutura AniPortrait é capaz de empregar efetivamente uma arquitetura simples que consiste em duas camadas fc para converter esses recursos em malhas faciais 3D. A estrutura AniPortrait observa que este design simples implementado pelo modelo não só aumenta a eficiência do processo de inferência, mas também garante a precisão. Ao converter áudio em pose, a estrutura AniPortrait emprega a mesma rede wav2vec que o spine, embora o modelo não compartilhe os pesos com o módulo de áudio para malha. Isso se deve principalmente ao fato de a pose estar mais associada ao tom e ao ritmo presentes no áudio, o que tem uma ênfase diferente quando comparada ao áudio para tarefas de malha. Para compensar o impacto dos estados anteriores, a estrutura AniPortrait emprega um decodificador transformador para decodificar a sequência de pose. Durante esse processo, o framework integra os recursos de áudio ao decodificador usando mecanismos de atenção cruzada e, para ambos os módulos, o framework os treina usando a perda L1. Uma vez que o modelo obtém a sequência de pose e malha, ele emprega a projeção em perspectiva para transformar essas sequências em uma sequência 2D de pontos de referência faciais que são então utilizados como sinais de entrada para o estágio subsequente.

Lmk2Video

Para uma determinada imagem de retrato de referência e uma sequência de pontos de referência faciais, o módulo Lmk2Video proposto cria uma animação de retrato temporalmente consistente, e essa animação alinha o movimento com a sequência de pontos de referência e mantém uma aparência consistente com a imagem de referência e, finalmente , a estrutura representa a animação do retrato como uma sequência de molduras de retrato. O design da estrutura de rede do Lmk2Video busca inspiração no framework AnimateAnyone já existente. A estrutura AniPortrait emprega um Secure Diffusion 1.5, um modelo de difusão extremamente potente como sua espinha dorsal, e incorpora um módulo de movimento temporal que converte efetivamente entradas de ruído de vários quadros em uma sequência de quadros de vídeo. Ao mesmo tempo, um componente de rede ReferencenNet espelha a estrutura do Secure Diffusion 1.5 e a utiliza para extrair as informações de aparência da imagem de referência e integrá-las ao spine. O design estratégico garante que a identificação facial permaneça consistente durante todo o vídeo de saída. Diferenciando-se da estrutura AnimateAnyone, a estrutura AniPortrait aumenta a complexidade do design do PoseGuider. A versão unique da estrutura AnimateAnyone compreende apenas algumas camadas de convolução após as quais os recursos de referência se fundem com os latentes na camada de entrada do spine. A estrutura AniPortrait descobre que o design é insuficiente na captura de movimentos intrincados dos lábios e, para resolver esse problema, a estrutura adota a estratégia multiescala da arquitetura ConvNet e incorpora recursos de referência de escalas correspondentes em diferentes blocos da espinha dorsal. Além disso, a estrutura AniPortrait introduz uma melhoria adicional ao incluir os pontos de referência da imagem de referência como uma entrada adicional. O módulo de atenção cruzada do componente PoseGuider facilita a interação entre os pontos de referência alvo de cada quadro e os pontos de referência. Este processo fornece à rede dicas adicionais para compreender a correlação entre aparência e pontos de referência faciais, auxiliando assim na geração de animações de retratos com movimentos mais precisos.

AniPortrait: Implementação e Resultado

Para o estágio Audio2Lmk, a estrutura AniPortrait adota o componente wav2vec2.0 como spine e aproveita a arquitetura MediaPipe para extrair malhas 3D e poses 6D para anotações. O modelo obtém os dados de treinamento para o componente Audio2Mesh a partir de seu conjunto de dados interno que compreende quase 60 minutos de dados de fala de alta qualidade provenientes de um único alto-falante. Para garantir que a malha 3D extraída pelo componente MediaPipe esteja estável, o dublador é instruído a ficar de frente para a câmera e manter uma posição estável da cabeça durante todo o processo de gravação. Para o módulo Lmk2Video, a estrutura AniPortrait implementa uma abordagem de treinamento em duas etapas. Na primeira etapa, o framework concentra-se no treinamento do ReferenceNet e do PoseGuider, o componente 2D do spine, e deixa de fora o módulo de movimento. Na segunda etapa, a estrutura AniPortrait congela todos os outros componentes e concentra-se no treinamento do módulo de movimento. Para esta etapa, a estrutura utiliza dois conjuntos de dados de vídeo facial de alta qualidade em grande escala para treinar o modelo e processa todos os dados usando o componente MediaPipe para extrair pontos de referência faciais 2D. Além disso, para aumentar a sensibilidade da rede aos movimentos labiais, o modelo AniPortrait diferencia os lábios superiores e inferiores com cores distintas ao renderizar a imagem da pose a partir de pontos de referência 2D.

Conforme demonstrado na imagem a seguir, o framework AniPortrait gera uma série de animações que demonstram qualidade superior e também realismo.

A estrutura utiliza então uma representação 3D intermediária que pode ser editada para manipular a saída de acordo com os requisitos. Por exemplo, os usuários podem extrair pontos de referência de uma determinada fonte e alterar seu ID, permitindo assim que a estrutura AniPortrait crie um efeito de reconstituição facial.

Pensamentos finais

Neste artigo, falamos sobre AniPortrait, um novo framework projetado para gerar animações de alta qualidade baseadas em uma imagem de retrato de referência e uma amostra de áudio. Simplesmente inserindo uma imagem de referência e um clipe de áudio, a estrutura AniPortrait é capaz de gerar um vídeo de retrato que apresenta movimento pure de cabeças e movimento suave dos lábios. Ao aproveitar os recursos robustos de generalização do modelo de difusão, a estrutura AniPortrait gera animações que exibem uma qualidade de imagem realista impressionante e movimentos realistas. O funcionamento do framework AniPortrait é dividido em duas etapas. Primeiro, a estrutura AniPortrait extrai as representações 3D intermediárias das amostras de áudio e as projeta em uma sequência de pontos de referência faciais 2D. Depois disso, a estrutura emprega um modelo de difusão robusto acoplado a um módulo de movimento para converter as sequências de marcos em animações fotorrealistas e temporalmente consistentes. Os resultados experimentais demonstram a superioridade e capacidade do framework AniPortrait em gerar animações de alta qualidade com excepcional qualidade visible, diversidade de poses e naturalidade facial, oferecendo assim uma experiência perceptual aprimorada e enriquecida. Além disso, a estrutura AniPortrait possui um potencial notável em termos de controlabilidade e flexibilidade e pode ser aplicada de forma eficaz em áreas como reconstituição facial, edição de movimentos faciais e muito mais.