Tech

Um novo sistema para personagens de vídeo de difusão estável e temporalmente consistente

Uma nova iniciativa do Alibaba Group oferece um dos melhores métodos que já vi para gerar avatares humanos de corpo inteiro a partir de um modelo de base baseado em difusão estável.

Intitulado MIMO (MIMIrritado com Object Interactions), o sistema usa uma variedade de tecnologias e módulos populares, incluindo modelos humanos baseados em CGI e AnimateDiff, para permitir a substituição de personagens temporalmente consistente em vídeos – ou então para conduzir um personagem com uma pose esquelética definida pelo usuário.

Aqui vemos caracteres interpolados de uma única fonte de imagem e movidos por um movimento predefinido:

(Clique no vídeo abaixo para reproduzir)

A partir de imagens de fonte única, três personagens diversos são conduzidos por uma sequência de poses 3D (extrema esquerda) usando o sistema MIMO. Veja o website do projeto e o vídeo do YouTube que o acompanha (incorporado no closing deste artigo) para mais exemplos e resolução superior. Fonte: https://menyifang.github.io/initiatives/MIMO/index.html

Personagens gerados, que também podem ser obtidos de quadros em vídeos e de diversas outras maneiras, podem ser integrados em filmagens do mundo actual.

O MIMO oferece um novo sistema que gera três codificações discretas, cada uma para personagem, cena e oclusão (ou seja, matting, quando algum objeto ou pessoa passa na frente do personagem que está sendo retratado). Essas codificações são integradas no momento da inferência.

(Clique no vídeo abaixo para reproduzir)

O MIMO pode substituir caracteres originais por caracteres fotorrealistas ou estilizados que seguem o movimento do vídeo alvo. Veja o website do projeto e o vídeo do YouTube que o acompanha (incorporado no closing deste artigo) para mais exemplos e resolução superior.

O sistema é treinado no modelo Secure Diffusion V1.5, usando um conjunto de dados personalizado selecionado pelos pesquisadores e composto igualmente por vídeos reais e simulados.

O grande problema do vídeo baseado em difusão é a estabilidade temporal, onde o conteúdo do vídeo oscila ou “evolui” de maneiras que não são desejadas para uma representação consistente dos personagens.

O MIMO, por outro lado, usa efetivamente uma única imagem como um mapa para orientação consistente, que pode ser orquestrada e restringida pelo modelo CGI SMPL intersticial.

Como a referência de origem é consistente e o modelo base sobre o qual o sistema é treinado foi aprimorado com exemplos de movimento representativos adequados, as capacidades do sistema para saída temporalmente consistente estão bem acima do padrão geral para avatares baseados em difusão.

(Clique no vídeo abaixo para reproduzir)

Mais exemplos de personagens MIMO orientados por pose. Veja o website do projeto e o vídeo do YouTube que o acompanha (incorporado no closing deste artigo) para mais exemplos e resolução superior.

Está se tornando mais comum que imagens únicas sejam usadas como fonte para representações neurais efetivas, seja por si mesmas, ou de forma multimodal, combinadas com prompts de texto. Por exemplo, o in style sistema de transferência facial LivePortrait também pode gerar faces deepfaked altamente plausíveis a partir de imagens de faces únicas.

Os pesquisadores acreditam que os princípios usados ​​no sistema MIMO podem ser estendidos a outros e novos tipos de sistemas e estruturas generativas.

O novo artigo é intitulado MIMO: Síntese de vídeo de caracteres controláveis ​​com modelagem espacial decompostae vem de quatro pesquisadores do Institute for Clever Computing do Alibaba Group. O trabalho tem uma página de projeto repleta de vídeos e um vídeo do YouTube que o acompanha, que também está incorporado na parte inferior deste artigo.

Método

O MIMO alcança a separação automática e não supervisionada dos três componentes espaciais mencionados acima, em uma arquitetura de ponta a ponta (ou seja, todos os subprocessos são integrados ao sistema, e o usuário precisa apenas fornecer o materials de entrada).

O esquema conceitual para MIMO. Fonte: https://arxiv.org/pdf/2409.16160

Objetos em vídeos de origem são traduzidos de 2D para 3D, inicialmente usando o estimador de profundidade monocular Depth Something. O elemento humano em qualquer quadro é extraído com métodos adaptados do projeto Tune-A-Video.

Esses recursos são então traduzidos em facetas volumétricas baseadas em vídeo por meio da arquitetura Section Something 2 do Fb Analysis.

A camada de cena em si é obtida removendo objetos detectados nas outras duas camadas, fornecendo efetivamente uma máscara no estilo rotoscópio automaticamente.

Para o movimento, um conjunto de códigos latentes extraídos para o elemento humano são ancorados a um modelo SMPL baseado em CGI humano padrão, cujos movimentos fornecem o contexto para o conteúdo humano renderizado.

Um mapa de características 2D para o conteúdo humano é obtido por um rasterizador diferenciável derivado de uma iniciativa de 2020 da NVIDIA. Combinando os dados 3D obtidos do SMPL com os dados 2D obtidos pelo método NVIDIA, os códigos latentes que representam a 'pessoa neural' têm uma correspondência sólida com seu contexto eventual.

Neste ponto, é necessário estabelecer uma referência comumente necessária em arquiteturas que usam SMPL – uma pose canônica. Isso é amplamente comparable ao 'homem Vitruviano' de Da Vinci, pois representa um modelo de pose zero que pode aceitar conteúdo e então ser deformado, trazendo o conteúdo (efetivamente) mapeado por textura com ele.

Essas deformações, ou “desvios da norma”, representam o movimento humano, enquanto o modelo SMPL preserva os códigos latentes que constituem a identidade humana que foi extraída e, portanto, representa o avatar resultante corretamente em termos de pose e textura.

Um exemplo de uma pose canônica em uma figura SMPL. Fonte: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Um exemplo de pose canônica em uma figura SMPL. Fonte: https://www.researchgate.internet/determine/Format-of-23-joints-in-the-SMPL-models_fig2_351179264

Em relação à questão do emaranhamento (até que ponto os dados treinados podem se tornar inflexíveis quando você os estende além dos limites e associações treinados), os autores afirmam*:

'Para destrinchar completamente a aparência dos quadros de vídeo posados, uma solução supreme é aprender a representação humana dinâmica do vídeo monocular e transformá-la do espaço posado para o espaço canônico.

'Considerando a eficiência, empregamos um método simplificado que transforma diretamente a imagem humana posada no resultado canônico em pose A padrão usando um modelo de repouso humano pré-treinado. A imagem de aparência canônica sintetizada é alimentada para codificadores de ID para obter a identidade.

'Este design simples permite o desemaranhamento completo de atributos de identidade e movimento. Seguindo (Animate Anybody), os codificadores de ID incluem um codificador de imagem CLIP e uma arquitetura de rede de referência para incorporar para o recurso international e native, (respectivamente).'

Para os aspectos de cena e oclusão, um Variational Autoencoder (VAE) compartilhado e fixo – neste caso derivado de uma publicação de 2013) é usado para incorporar os elementos de cena e oclusão no espaço latente. Incongruências são tratadas por um método de inpainting do projeto ProPainter de 2023.

Uma vez montados e retocados dessa maneira, tanto o fundo quanto quaisquer objetos oclusivos no vídeo fornecerão um fosco para o avatar humano em movimento.

Esses atributos decompostos são então alimentados em um spine U-Web baseado na arquitetura Secure Diffusion V1.5. O código de cena completo é concatenado com o ruído latente nativo do sistema host. O componente humano é integrado por meio de camadas de autoatenção e atenção cruzada, respectivamente.

Em seguida, o resultado sem ruído é enviado pelo decodificador VAE.

Dados e Testes

Para treinamento, os pesquisadores criaram um conjunto de dados de vídeo humano intitulado HUD-7K, que consistia em 5.000 vídeos de personagens reais e 2.000 animações sintéticas criadas pelo sistema En3D. Os vídeos reais não exigiam nenhuma anotação, devido à natureza não semântica dos procedimentos de extração de figuras na arquitetura do MIMO. Os dados sintéticos foram totalmente anotados.

O modelo foi treinado em oito GPUs NVIDIA A100 (embora o artigo não especifique se eram os modelos de VRAM de 40 GB ou 80 GB), por 50 iterações, usando 24 quadros de vídeo e um tamanho de lote de quatro, até a convergência.

O módulo de movimento para o sistema foi treinado nos pesos do AnimateDiff. Durante o processo de treinamento, os pesos do codificador/decodificador VAE e do codificador de imagem CLIP foram congelados (em contraste com o ajuste fino completo, que terá um efeito muito mais amplo em um modelo de fundação).

Embora o MIMO não tenha sido testado contra sistemas análogos, os pesquisadores o testaram em sequências de movimentos difíceis fora da distribuição originadas do AMASS e do Mixamo. Esses movimentos incluíam escalar, brincar e dançar.

Eles também testaram o sistema em vídeos humanos na natureza. Em ambos os casos, o artigo relata 'alta robustez' para esses movimentos 3D invisíveis, de diferentes pontos de vista.

Embora o artigo ofereça vários resultados de imagens estáticas demonstrando a eficácia do sistema, o verdadeiro desempenho do MIMO é melhor avaliado com os extensos resultados em vídeo fornecidos na página do projeto e no vídeo do YouTube incorporado abaixo (do qual os vídeos no início deste artigo foram derivados).

Os autores concluem:

'Resultados experimentais (demonstram) que nosso método permite não apenas controle flexível de personagens, movimentos e cenas, mas também escalabilidade avançada para personagens arbitrários, generalidade para novos movimentos 3D e aplicabilidade a cenas interativas.

'Também (acreditamos) que nossa solução, que considera a natureza 3D inerente e codifica automaticamente o vídeo 2D em componentes espaciais hierárquicos, pode inspirar pesquisas futuras para síntese de vídeo com reconhecimento 3D.

'Além disso, nossa estrutura não é apenas adequada para gerar vídeos de personagens, mas também pode ser potencialmente adaptada a outras tarefas de síntese de vídeo controláveis.'

Conclusão

É revigorante ver um sistema de avatar baseado em Difusão Estável que parece capaz de tamanha estabilidade temporal – principalmente porque os Avatares Gaussianos parecem estar ganhando espaço neste setor de pesquisa em explicit.

Os avatares estilizados representados nos resultados são eficazes e, embora o nível de fotorrealismo que o MIMO pode produzir não seja atualmente igual ao que o Gaussian Splatting é capaz, as diversas vantagens de criar humanos temporalmente consistentes em uma Rede de Difusão Latente (LDM) baseada semanticamente são consideráveis.

* Minha conversão das citações inline dos autores em hiperlinks e, quando necessário, hiperlinks explicativos externos.

Primeira publicação quarta-feira, 25 de setembro de 2024

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button