Tech

DynamiCrafter: Animando imagens de domínio aberto com difusão de vídeo Priors

LifeTechWebMarch 25, 2024

0 10 minutes read

DALL·E 2024 03 23 18.37.05 Imagine a futuristic interface for a software named DynamiCrafter designed for animating open domain images with video diffusion priors. The interfac

A visão computacional é um dos campos mais interessantes e bem pesquisados dentro da comunidade de IA atualmente e, apesar do rápido aprimoramento dos modelos de visão computacional, um desafio de longa knowledge que ainda preocupa os desenvolvedores é a animação de imagens. Ainda hoje, as estruturas de animação de imagens lutam para converter imagens estáticas em suas respectivas contrapartes de vídeo que exibem dinâmica pure enquanto preservam a aparência authentic das imagens. Tradicionalmente, as estruturas de animação de imagem concentram-se principalmente na animação de cenas naturais com movimentos específicos de domínio, como cabelos humanos ou movimentos corporais, ou dinâmicas estocásticas, como fluidos e nuvens. Embora esta abordagem funcione até certo ponto, ela limita a aplicabilidade destas estruturas de animação a conteúdos visuais mais genéricos.

Além disso, as abordagens convencionais de animação de imagens concentram-se principalmente na síntese de movimentos oscilantes e estocásticos ou na personalização de categorias de objetos específicas. No entanto, uma falha notável na abordagem são as fortes suposições impostas a esses métodos que, em última análise, limitam sua aplicabilidade, especialmente em cenários gerais, como animação de imagens de domínio aberto. Nos últimos anos, os modelos T2V ou Textual content to Video demonstraram um sucesso notável na geração de vídeos vívidos e diversos usando prompts textuais, e esta demonstração dos modelos T2V é o que forma a base para a estrutura DynamiCrafter.

A estrutura DynamiCrafter é uma tentativa de superar as limitações atuais dos modelos de animação de imagens e expandir sua aplicabilidade a cenários genéricos envolvendo imagens de mundo aberto. A estrutura DynamiCrafter tenta sintetizar conteúdo dinâmico para imagens de domínio aberto, convertendo-as em vídeos animados. A ideia principal por trás do DynamiCrafter é incorporar a imagem como orientação no processo generativo, na tentativa de utilizar o movimento anterior do texto já existente para modelos de difusão de vídeo. Para uma determinada imagem, o modelo DynamiCrafter primeiro implementa um transformador de consulta que projeta a imagem em um espaço de representação de contexto rico alinhado com texto, facilitando ao modelo de vídeo digerir o conteúdo da imagem de maneira compatível. No entanto, o modelo DynamiCrafter ainda luta para preservar alguns detalhes visuais nos vídeos resultantes, um problema que o modelo DynamiCrafter supera ao alimentar a imagem completa para o modelo de difusão concatenando a imagem com os ruídos iniciais, complementando assim o modelo com imagens mais precisas Informação.

Este artigo tem como objetivo cobrir o framework DynamiCrafter em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks de geração de imagens e vídeos de última geração. Então vamos começar.

Animar uma imagem estática geralmente oferece uma experiência visible envolvente para o público, pois parece dar vida à imagem estática. Ao longo dos anos, vários frameworks exploraram vários métodos de animação de imagens estáticas. As estruturas de animação iniciais implementaram abordagens baseadas em simulação física que se concentravam na simulação do movimento de objetos específicos. No entanto, devido à modelagem independente de cada categoria de objeto, essas abordagens não foram eficazes nem generalizáveis. Para replicar movimentos mais realistas, surgiram métodos baseados em referência que transferiram informações de movimento ou aparência de sinais de referência, como vídeos, para o processo de síntese. Embora as abordagens baseadas em referências tenham proporcionado melhores resultados com melhor coerência temporal quando comparadas com abordagens baseadas em simulação, necessitavam de orientação adicional que limitasse as suas aplicações práticas.

Nos últimos anos, a maioria das estruturas de animação concentra-se principalmente na animação de cenas naturais com movimentos estocásticos, específicos de domínio ou oscilantes. Embora a abordagem implementada por estes quadros funcione até certo ponto, os resultados que estes quadros geram não são satisfatórios, com espaço significativo para melhorias. Os resultados notáveis alcançados pelos modelos generativos de Texto para Vídeo nos últimos anos inspiraram os desenvolvedores da estrutura DynamiCrafter a aproveitar os poderosos recursos generativos dos modelos de Texto para Vídeo para animação de imagens.

A base principal da estrutura DynamiCrafter é incorporar uma imagem condicional na tentativa de governar o processo de geração de vídeo dos modelos de difusão de texto para vídeo. No entanto, o objetivo closing da animação de imagens ainda não é trivial, uma vez que a animação de imagens requer a preservação de detalhes, bem como a compreensão de contextos visuais essenciais para a criação de dinâmicas. No entanto, modelos de difusão de vídeo controláveis multimodais, como o VideoComposer, tentaram permitir a geração de vídeo com orientação visible a partir de uma imagem. No entanto, estas abordagens não são adequadas para animação de imagens, uma vez que resultam em mudanças temporais abruptas ou em baixa conformidade visible com a imagem de entrada devido aos seus mecanismos de injeção de imagem menos abrangentes. Para superar esse obstáculo, a estrutura DyaniCrafter propõe uma abordagem de injeção de fluxo duplo, que consiste em orientação visible detalhada e representação de contexto alinhada ao texto. A abordagem de injeção de fluxo duplo permite que a estrutura DynamiCrafter garanta que o modelo de difusão de vídeo sintetize conteúdo dinâmico com detalhes preservados de maneira complementar.

Para uma determinada imagem, a estrutura DynamiCrafter primeiro projeta a imagem no espaço de representação de contexto alinhado ao texto usando uma rede de aprendizagem de contexto especialmente projetada. Para ser mais específico, o espaço de representação de contexto consiste em um transformador de consulta que pode ser aprendido para promover ainda mais sua adaptação aos modelos de difusão e um codificador de imagem CLIP pré-treinado para extrair recursos de imagem alinhados ao texto. O modelo então usa os recursos de contexto ricos usando camadas de atenção cruzada, e o modelo usa fusão fechada para combinar esses recursos de texto com as camadas de atenção cruzada. No entanto, esta abordagem troca as representações de contexto aprendidas com detalhes visuais alinhados ao texto que facilitam a compreensão semântica do contexto da imagem, permitindo a síntese de dinâmicas razoáveis e vívidas. Além disso, na tentativa de complementar detalhes visuais adicionais, a estrutura concatena a imagem completa com o ruído inicial para o modelo de difusão. Como resultado, a abordagem de injeção dupla implementada pela estrutura DynamiCrafter garante conformidade visible, bem como conteúdo dinâmico plausível para a imagem de entrada.

Seguindo em frente, os modelos de difusão ou DMs demonstraram desempenho notável e capacidade generativa na geração T2I ou Texto para Imagem. Para replicar o sucesso dos modelos T2I para geração de vídeo, são propostos modelos VDM ou de difusão de vídeo que usam uma arquitetura U-New fatorada no espaço-tempo no espaço de pixels para modelar vídeos de baixa resolução. A transferência dos conhecimentos adquiridos nos quadros T2I para os quadros T2V ajudará a reduzir os custos de formação. Embora VDM ou modelos de difusão de vídeo tenham a capacidade de gerar vídeos de alta qualidade, eles aceitam apenas prompts de texto como única orientação semântica que podem não refletir as verdadeiras intenções do usuário ou podem ser vagas. No entanto, os resultados da maioria dos modelos VDM raramente aderem à imagem de entrada e sofrem com o problema de variação temporal irrealista. A abordagem DynamiCrafter é construída sobre modelos de difusão de vídeo condicionados por texto que aproveitam sua rica dinâmica anterior para animar imagens de domínio aberto. Isso é feito incorporando designs personalizados para melhor compreensão semântica e conformidade com a imagem de entrada.

DynamiCrafter: Método e Arquitetura

Para uma determinada imagem estática, o framework DyanmiCrafter tenta animar a imagem para vídeo, ou seja, produzir um pequeno videoclipe. O videoclipe herda o conteúdo visible da imagem e exibe uma dinâmica pure. No entanto, existe a possibilidade de a imagem aparecer na localização arbitrária da sequência de quadros resultante. O aparecimento de uma imagem em um native arbitrário é um tipo especial de desafio observado em tarefas de geração de vídeo condicionado por imagem com altos requisitos de conformidade visible. A estrutura DynamiCrafter supera esse desafio utilizando os antecedentes generativos de modelos de difusão de vídeo pré-treinados.

Dinâmica de imagem da difusão de vídeo anterior

Normalmente, sabe-se que modelos de difusão de texto para vídeo de domínio aberto exibem conteúdo visible dinâmico modelado condicionado a descrições de texto. Para animar uma imagem estática com antecedentes generativos de Texto para Vídeo, os frameworks devem primeiro injetar a informação visible no processo de geração de vídeo de forma abrangente. Além disso, para síntese dinâmica, o modelo T2V deve digerir a imagem para compreensão do contexto, ao mesmo tempo que deve ser capaz de preservar os detalhes visuais nos vídeos gerados.

2 3

Representação de contexto alinhada ao texto

Para orientar a geração de vídeo com contexto de imagem, a estrutura DynamiCrafter tenta projetar a imagem em um espaço de incorporação alinhado, permitindo que o modelo de vídeo use as informações da imagem de maneira compatível. Em seguida, a estrutura DynamiCrafter emprega o codificador de imagem para extrair recursos da imagem de entrada, uma vez que os embeddings de texto são gerados usando um codificador de texto CLIP pré-treinado. Agora, embora os tokens semânticos globais do codificador de imagem CLIP estejam alinhados com as legendas da imagem, ele representa principalmente o conteúdo visible no nível semântico, falhando, portanto, em capturar toda a extensão da imagem. A estrutura DynamiCrafter implementa tokens visuais completos da última camada do codificador CLIP para extrair informações mais completas, uma vez que esses tokens visuais demonstram alta fidelidade em tarefas de geração de imagens condicionais. Além disso, a estrutura emprega incorporações de contexto e texto para interagir com os recursos intermediários da U-Internet usando as camadas duplas de atenção cruzada. O design deste componente facilita a capacidade do modelo de absorver as condições da imagem de maneira dependente da camada. Além disso, como as camadas intermediárias da arquitetura U-Internet se associam mais às poses ou formas dos objetos, espera-se que as características da imagem influenciem predominantemente a aparência dos vídeos, especialmente porque as camadas de duas extremidades estão mais ligadas à aparência.

Orientação de detalhes visuais

A estrutura DyanmiCrafter emprega representação de contexto rica em informações que permite que o modelo de difusão de vídeo em sua arquitetura produza vídeos que se assemelham muito à imagem de entrada. No entanto, conforme demonstrado na imagem a seguir, o conteúdo gerado pode apresentar algumas discrepâncias devido à capacidade limitada do codificador CLIP pré-treinado de preservar completamente as informações de entrada, uma vez que foi projetado para alinhar recursos visuais e de linguagem.

3 3

Para melhorar a conformidade visible, a estrutura DynamiCrafter propõe fornecer ao modelo de difusão de vídeo detalhes visuais adicionais extraídos da imagem de entrada. Para conseguir isso, o modelo DyanmiCrafter concatena a imagem condicional com o ruído inicial por quadro e os alimenta no componente U-Internet de remoção de ruído como orientação.

Paradigma de Treinamento

A estrutura DynamiCrafter integra a imagem condicional por meio de dois fluxos complementares que desempenham um papel significativo na orientação detalhada e no controle de contexto. Para facilitar o mesmo, o modelo DynamiCrafter emprega um processo de treinamento em três etapas

Na primeira etapa, o modelo treina a rede de representação do contexto da imagem.
Na segunda etapa, o modelo adapta a rede de representação do contexto da imagem ao modelo Textual content to Video.
Na terceira e última etapa, o modelo ajusta a rede de representação do contexto da imagem em conjunto com o componente Visible Element Steerage.

Para adaptar as informações da imagem para compatibilidade com o modelo Textual content-to-Video (T2V), a estrutura DynamiCrafter sugere o desenvolvimento de uma rede de representação de contexto, P, projetada para capturar detalhes visuais alinhados ao texto de uma determinada imagem. Reconhecendo que P requer muitas etapas de otimização para convergência, a abordagem do framework envolve inicialmente treiná-lo usando um modelo Textual content-to-Picture (T2I) mais simples. Esta estratégia permite que a rede de representação de contexto se concentre no aprendizado sobre o contexto da imagem antes de integrá-lo ao modelo T2V por meio do treinamento conjunto com P e as camadas espaciais, em oposição às camadas temporais, do modelo T2V.

Para garantir a compatibilidade T2V, a estrutura DyanmiCrafter mescla a imagem de entrada com o ruído por quadro, procedendo ao ajuste fino das camadas espaciais P e do Modelo de Discriminação Visible (VDM). Este método é escolhido para manter a integridade dos insights temporais existentes do modelo T2V sem os efeitos adversos da fusão densa de imagens, o que poderia comprometer o desempenho e divergir do nosso objetivo principal. Além disso, a estrutura emprega uma estratégia de selecionar aleatoriamente um quadro de vídeo como condição de imagem para atingir dois objetivos: (i) evitar que a rede desenvolva um padrão previsível que associe diretamente a imagem mesclada a uma localização específica do quadro, e (ii) para encorajar uma representação de contexto mais adaptável, evitando o fornecimento de informações excessivamente rígidas para qualquer quadro específico.

DynamiCrafter: Experimentos e Resultados

A estrutura DynamiCrafter primeiro treina a rede de representação de contexto e as camadas de atenção cruzada de imagem em Difusão Estável. A estrutura então substitui o componente Secure Diffusion pelo VideoCrafter e ajusta ainda mais a rede de representação de contexto e as camadas espaciais para adaptação e com concatenação de imagens. Na inferência, a estrutura adota o amostrador DDIM com orientação livre de classificador multicondição. Além disso, para avaliar a coerência temporal e a qualidade dos vídeos sintetizados nos domínios temporal e espacial, o framework reporta FVD ou Frechet Video Distance, bem como KVD ou Kernel Video Distance, e avalia o desempenho zero-shot em todos os métodos dos benchmarks MSR-VTT e UCF-101. Para investigar a conformidade perceptual entre os resultados gerados e a imagem de entrada, o framework introduz PIC ou Perceptual Enter Conformity, e adota a métrica de distância perceptual DreamSim como função da distância.

A figura a seguir demonstra a comparação visible do conteúdo animado gerado com diferentes estilos e conteúdos.

4 3

Como pode ser observado, entre todos os diferentes métodos, o framework DynamiCrafter adere bem à condição da imagem de entrada e gera vídeos temporalmente coerentes. A tabela a seguir contém as estatísticas de um estudo de usuário com 49 participantes da taxa de preferência para Coerência Temporal (TC) e Qualidade de Movimento (MC), juntamente com a taxa de seleção para conformidade visible com a imagem de entrada. (IC). Como pode ser observado, a estrutura DynamiCrafter é capaz de superar os métodos existentes por uma margem considerável.

5 2

A figura a seguir demonstra os resultados alcançados usando o método de injeção de fluxo duplo e o paradigma de treinamento.

6 1

Pensamentos finais

Neste artigo falamos sobre DynamiCrafter, uma tentativa de superar as atuais limitações dos modelos de animação de imagens e ampliar sua aplicabilidade a cenários genéricos envolvendo imagens de mundo aberto. A estrutura DynamiCrafter tenta sintetizar conteúdo dinâmico para imagens de domínio aberto, convertendo-as em vídeos animados. A ideia principal por trás do DynamiCrafter é incorporar a imagem como orientação no processo generativo, na tentativa de utilizar o movimento anterior do texto já existente para modelos de difusão de vídeo. Para uma determinada imagem, o modelo DynamiCrafter primeiro implementa um transformador de consulta que projeta a imagem em um espaço de representação de contexto rico alinhado com texto, facilitando ao modelo de vídeo digerir o conteúdo da imagem de maneira compatível. No entanto, o modelo DynamiCrafter ainda luta para preservar alguns detalhes visuais nos vídeos resultantes, um problema que o modelo DynamiCrafter supera ao alimentar a imagem completa para o modelo de difusão concatenando a imagem com os ruídos iniciais, complementando assim o modelo com imagens mais precisas Informação.

join the future newsletter Unite AI Mobile Newsletter 1