Tech

InstantID: geração zero-shot de preservação de identidade em segundos

A tecnologia de geração de imagens alimentada por IA testemunhou um crescimento notável nos últimos anos, desde que grandes modelos de difusão de texto para imagem, como DALL-E, GLIDE, Steady Diffusion, Imagen e outros, entraram em cena. Apesar de os modelos de IA de geração de imagens terem arquitetura e métodos de treinamento exclusivos, todos eles compartilham um ponto focal comum: geração de imagens customizadas que visa criar imagens com ID de caractere, assunto e estilo consistentes com base em imagens de referência. Devido às suas notáveis ​​capacidades geradoras, as modernas estruturas de IA de geração de imagens encontraram aplicações em campos que incluem animação de imagens, realidade digital, comércio eletrônico, retratos de IA e muito mais. No entanto, apesar das suas notáveis ​​capacidades geradoras, todas estas estruturas partilham um obstáculo comum: a maioria delas é incapaz de gerar imagens personalizadas, preservando os delicados detalhes de identidade dos objetos humanos.

A geração de imagens personalizadas preservando detalhes intrincados é de importância crítica, especialmente em tarefas de identidade facial humana que exigem um alto padrão de fidelidade e detalhes, e semântica diferenciada quando comparada a tarefas gerais de geração de imagens de objetos que se concentram principalmente em texturas e cores de granulação grossa. Além disso, estruturas de síntese de imagens personalizadas nos últimos anos, como LoRA, DreamBooth, Textual Inversion e outras, avançaram significativamente. No entanto, os modelos de IA geradores de imagens personalizadas ainda não são perfeitos para implantação em cenários do mundo actual, uma vez que têm um alto requisito de armazenamento, exigem múltiplas imagens de referência e muitas vezes têm um processo demorado de ajuste fino. Por outro lado, embora os métodos existentes baseados em incorporação de ID exijam apenas uma única referência direta, eles não têm compatibilidade com modelos pré-treinados disponíveis publicamente, ou exigem um processo excessivo de ajuste fino em vários parâmetros, ou não conseguem manter altos enfrentar a fidelidade.

Para enfrentar esses desafios e aprimorar ainda mais os recursos de geração de imagens, neste artigo falaremos sobre InstantID, uma solução baseada em modelo de difusão para geração de imagens. InstantID é um módulo plug and play que lida habilmente com a geração e personalização de imagens em vários estilos com apenas uma única imagem de referência e também garante alta fidelidade. O objetivo principal deste artigo é fornecer aos nossos leitores uma compreensão completa dos fundamentos técnicos e componentes da estrutura InstantID, pois teremos uma visão detalhada da arquitetura do modelo, do processo de treinamento e dos cenários de aplicação. Então vamos começar.


O surgimento de modelos de difusão de texto para imagem contribuiu significativamente para o avanço da tecnologia de geração de imagens. O objetivo principal desses modelos é a geração personalizada e pessoal e a criação de imagens com assunto, estilo e identificação de personagem consistentes usando uma ou mais imagens de referência. A capacidade dessas estruturas de criar imagens consistentes criou aplicações potenciais em diferentes setores, incluindo animação de imagens, geração de retratos de IA, comércio eletrônico, realidade digital e aumentada e muito mais.

No entanto, apesar das suas capacidades notáveis, estas estruturas enfrentam um desafio elementary: muitas vezes têm dificuldade em gerar imagens personalizadas que preservem com precisão os detalhes intrincados dos assuntos humanos. Vale ressaltar que gerar imagens personalizadas com detalhes intrínsecos é uma tarefa desafiadora, uma vez que a identidade facial humana requer um maior grau de fidelidade e detalhes, juntamente com uma semântica mais avançada quando comparada a objetos ou estilos gerais que focam principalmente em cores ou texturas de granulação grossa. Os modelos de texto para imagem existentes dependem de descrições textuais detalhadas e lutam para alcançar uma forte relevância semântica para a geração de imagens personalizadas. Além disso, algumas grandes estruturas de texto para imagem pré-treinadas adicionam controles de condicionamento espacial para melhorar a controlabilidade, facilitando o controle estrutural refinado usando elementos como poses corporais, mapas de profundidade, esboços desenhados pelo usuário, mapas de segmentação semântica e muito mais. No entanto, apesar destas adições e melhorias, estas estruturas são capazes de alcançar apenas fidelidade parcial da imagem gerada à imagem de referência.

Para superar esses obstáculos, a estrutura InstantID concentra-se na síntese instantânea de imagens com preservação de identidade e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo plug and play simples que permite que a estrutura lide com a personalização de imagens usando apenas uma única imagem facial. mantendo alta fidelidade. Além disso, para preservar a identidade facial da imagem de referência, a estrutura InstantID implementa um novo codificador facial que retém os detalhes intrincados da imagem, adicionando condições espaciais fracas e semânticas fortes que orientam o processo de geração de imagem, incorporando prompts textuais, imagem de referência e imagem facial. .

Existem três recursos distintivos que separam a estrutura InstantID das estruturas existentes de geração de texto para imagem.

  • Compatibilidade e Plugabilidade: em vez de treinar os parâmetros completos da estrutura UNet, a estrutura InstantID se concentra no treinamento de um adaptador leve. Como resultado, a estrutura InstantID é compatível e conectável aos modelos pré-treinados existentes.
  • Sem ajuste: A metodologia do framework InstantID elimina a necessidade de ajuste fino, uma vez que necessita apenas de uma única propagação direta para inferência, tornando o modelo altamente prático e econômico para ajuste fino.
  • Efficiency superior: A estrutura InstantID demonstra alta flexibilidade e fidelidade, pois é capaz de fornecer desempenho de última geração usando apenas uma única imagem de referência, comparável a métodos baseados em treinamento que dependem de múltiplas imagens de referência.

No geral, as contribuições da estrutura InstantID podem ser categorizadas nos seguintes pontos.

  1. A estrutura InstantID é um método inovador de adaptação de preservação de ID para modelos de difusão de texto para imagem pré-treinados, com o objetivo de preencher a lacuna entre eficiência e fidelidade.
  2. A estrutura InstantID é compatível e conectável com modelos customizados e ajustados usando o mesmo modelo de difusão em sua arquitetura, permitindo a preservação de ID em modelos pré-treinados sem nenhum custo adicional.

InstantID: Metodologia e Arquitetura

Conforme mencionado anteriormente, a estrutura InstantID é um adaptador leve e eficiente que fornece texto pré-treinado para modelos de difusão de imagem com recursos de preservação de ID sem esforço.

Falando em arquitetura, o framework InstantID é construído sobre o modelo Steady Diffusion, conhecido por sua capacidade de realizar o processo de difusão com alta eficiência computacional em um espaço latente de baixa dimensão em vez de espaço de pixel com um codificador automático. Para uma imagem de entrada, o codificador primeiro mapeia a imagem para uma representação latente com fator de redução da resolução e dimensões latentes. Além disso, para eliminar o ruído de um ruído normalmente distribuído com ruído latente, condição e passo de tempo atual, o processo de difusão adota um componente UNet de eliminação de ruído. A condição é uma incorporação de prompts textuais gerados usando um componente codificador de texto CLIP pré-treinado.

Além disso, a estrutura InstantID também utiliza um componente ControlNet que é capaz de adicionar controle espacial a um modelo de difusão pré-treinado como sua condição, indo muito além dos recursos tradicionais de prompts textuais. O componente ControlNet também integra a arquitetura UNet da estrutura Steady Diffusion usando uma replicação treinada do componente UNet. A réplica do componente UNet apresenta camadas de convolução zero dentro dos blocos intermediários e dos blocos codificadores. Apesar das semelhanças, o componente ControlNet se diferencia do modelo de Difusão Estável; ambos diferem neste último merchandise residual. O componente ControlNet codifica informações de condições espaciais, como poses, mapas de profundidade, esboços e muito mais, adicionando os resíduos ao bloco UNet e, em seguida, incorpora esses resíduos na rede authentic.

A estrutura InstantID também se inspira no IP-Adapter ou no Picture Immediate Adapter, que introduz uma nova abordagem para obter recursos de immediate de imagem executados paralelamente aos prompts textuais, sem a necessidade de modificar o texto authentic nos modelos de imagem. O componente IP-Adapter também emprega uma estratégia exclusiva de atenção cruzada desacoplada que usa camadas adicionais de atenção cruzada para incorporar os recursos da imagem, deixando os outros parâmetros inalterados.

Metodologia

Para lhe dar uma breve visão geral, o framework InstantID visa gerar imagens customizadas com diferentes estilos ou poses usando apenas uma única imagem de identificação de referência com alta fidelidade. A figura a seguir fornece brevemente uma visão geral da estrutura InstantID.

Como pode ser observado, o framework InstantID possui três componentes essenciais:

  1. Um componente de incorporação de ID que captura informações semânticas robustas das características faciais na imagem.
  2. Um módulo leve adotado com um componente de atenção cruzada desacoplado para facilitar o uso de uma imagem como um immediate visible.
  3. Um componente IdentityNet que codifica os recursos detalhados da imagem de referência usando controle espacial adicional.

Incorporação de ID

Ao contrário dos métodos existentes como FaceStudio, PhotoMaker, IP-Adapter e outros que dependem de um codificador de imagem CLIP pré-treinado para extrair prompts visuais, a estrutura InstantID se concentra em maior fidelidade e detalhes semânticos mais fortes na tarefa de preservação de ID. É importante notar que as limitações inerentes do componente CLIP residem principalmente em seu processo de treinamento em dados fracamente alinhados, o que significa que os recursos codificados do codificador CLIP capturam principalmente informações semânticas amplas e ambíguas, como cores, estilo e composição. Embora esses recursos possam atuar como complemento geral para incorporações de texto, eles não são adequados para tarefas precisas de preservação de ID que colocam grande ênfase em semântica forte e alta fidelidade. Além disso, pesquisas recentes em modelos de representação facial, especialmente em torno do reconhecimento facial, demonstraram a eficiência da representação facial em tarefas complexas, incluindo reconstrução e reconhecimento facial. Com base no mesmo, a estrutura InstantID visa aproveitar um modelo facial pré-treinado para detectar e extrair embeddings de ID facial da imagem de referência, orientando o modelo para geração de imagem.

Adaptador de imagem

A capacidade de modelos de difusão de texto para imagem pré-treinados em tarefas de immediate de imagem aprimora significativamente os prompts de texto, especialmente para cenários que não podem ser descritos adequadamente pelos prompts de texto. A estrutura InstantID adota uma estratégia semelhante àquela usada pelo modelo IP-Adapter para prompts de imagens, que introduz um módulo adaptativo leve emparelhado com um componente de atenção cruzada desacoplado para suportar imagens como prompts de entrada. No entanto, ao contrário dos embeddings CLIP de alinhamento grosseiro, a estrutura InstantID diverge ao empregar embeddings de ID conforme a imagem solicita, na tentativa de obter uma integração imediata semanticamente rica e com mais nuances.

IdentidadeNet

Embora os métodos existentes sejam capazes de integrar os prompts de imagem com prompts de texto, a estrutura InstantID argumenta que esses métodos apenas aprimoram recursos de granulação grossa com um nível de integração que é insuficiente para a geração de imagens que preservam a ID. Além disso, adicionar tokens de imagem e texto em camadas de atenção cruzada tende diretamente a enfraquecer o controle dos tokens de texto, e uma tentativa de aumentar a força dos tokens de imagem pode resultar em prejudicar as habilidades dos tokens de texto em tarefas de edição. Para enfrentar esses desafios, a estrutura InstantID opta pelo ControlNet, um método alternativo de incorporação de recursos que utiliza informações espaciais como entrada para o módulo controlável, permitindo manter a consistência com as configurações UNet nos modelos de difusão.

A estrutura InstantID faz duas alterações na arquitetura ControlNet tradicional: para entradas condicionais, a estrutura InstantID opta por 5 pontos-chave faciais em vez de pontos-chave faciais OpenPose refinados. Segundo, a estrutura InstantID usa incorporações de ID em vez de prompts de texto como condições para as camadas de atenção cruzada na arquitetura ControlNet.

Treinamento e Inferência

Durante a fase de treinamento, a estrutura InstantID otimiza os parâmetros do IdentityNet e do Picture Adapter enquanto congela os parâmetros do modelo de difusão pré-treinado. Todo o pipeline do InstantID é treinado em pares imagem-texto que apresentam seres humanos e emprega um objetivo de treinamento semelhante ao usado na estrutura de difusão estável com condições de imagem específicas da tarefa. O destaque do método de treinamento InstantID é a separação entre as camadas de atenção cruzada de imagem e texto dentro do adaptador de immediate de imagem, uma escolha que permite à estrutura InstantID ajustar os pesos dessas condições de imagem de forma flexível e independente, garantindo assim uma abordagem mais direcionada e controlada. processo de inferência e treinamento.

InstantID: experimentos e resultados

A estrutura InstantID implementa o Steady Diffusion e o treina no LAION-Face, um conjunto de dados de código aberto em grande escala que consiste em mais de 50 milhões de pares imagem-texto. Além disso, a estrutura InstantID coleta mais de 10 milhões de imagens humanas com automações geradas automaticamente pelo modelo BLIP2 para melhorar ainda mais a qualidade da geração de imagens. A estrutura InstantID concentra-se principalmente em imagens de uma única pessoa e emprega um modelo de rosto pré-treinado para detectar e extrair incorporações de identificação facial de imagens humanas e, em vez de treinar os conjuntos de dados de rosto recortados, treina as imagens humanas originais. Além disso, durante o treinamento, a estrutura InstantID congela o texto pré-treinado no modelo de imagem e atualiza apenas os parâmetros do IdentityNet e do Picture Adapter.

Geração somente de imagem

O modelo InstantID usa um immediate vazio para orientar o processo de geração de imagem usando apenas a imagem de referência, e os resultados sem os prompts são demonstrados na imagem a seguir.

2

A geração de 'Immediate vazio', conforme demonstrado na imagem acima, demonstra a capacidade da estrutura InstantID de manter recursos faciais semânticos ricos, como identidade, idade e expressão, de forma robusta. No entanto, é importante notar que o uso de prompts vazios pode não ser capaz de replicar com precisão os resultados em outras semânticas, como gênero. Além disso, na imagem acima, as colunas 2 a 4 utilizam uma imagem e um immediate e, como pode ser visto, a imagem gerada não demonstra qualquer degradação nas capacidades de controle de texto, e também garante consistência de identidade. Por fim, as colunas 5 a 9 utilizam uma imagem, um immediate e um controle espacial, demonstrando a compatibilidade do modelo com modelos de controle espacial pré-treinados, permitindo que o modelo InstantID introduza controles espaciais de maneira flexível usando um componente ControlNet pré-treinado.

3

Vale ressaltar também que a quantidade de imagens de referência tem um impacto significativo na imagem gerada, conforme demonstrado na imagem acima. Embora a estrutura InstantID seja capaz de fornecer bons resultados usando uma única imagem de referência, múltiplas imagens de referência produzem uma imagem de melhor qualidade, uma vez que a estrutura InstantID considera a média média de incorporações de ID como immediate de imagem. Seguindo em frente, é essencial comparar a estrutura InstantID com métodos anteriores que geram imagens personalizadas usando uma única imagem de referência. A figura a seguir compara os resultados gerados pela estrutura InstantID e os modelos de última geração existentes para geração de imagens personalizadas de referência única.

4

Como pode ser visto, a estrutura InstantID é capaz de preservar as características faciais graças à incorporação de ID que carrega inerentemente informações semânticas ricas, como identidade, idade e sexo. Seria seguro dizer que a estrutura InstantID supera as estruturas existentes na geração de imagens personalizadas, uma vez que é capaz de preservar a identidade humana enquanto mantém o controle e a flexibilidade estilística.

5

Pensamentos finais

Neste artigo falamos sobre InstantID, uma solução baseada em modelo de difusão para geração de imagens. InstantID é um módulo plug and play que lida habilmente com a geração e personalização de imagens em vários estilos com apenas uma única imagem de referência e também garante alta fidelidade. A estrutura InstantID concentra-se na síntese instantânea de imagens com preservação de identidade e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo plug and play simples que permite que a estrutura lide com a personalização de imagens usando apenas uma única imagem facial, mantendo a alta fidelidade.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button