Estilo instantâneo: preservação de estilo na geração de texto para imagem

Nos últimos anos, os modelos de difusão baseados em ajuste demonstraram um progresso notável em uma ampla gama de tarefas de personalização e personalização de imagens. No entanto, apesar do seu potencial, os atuais modelos de difusão baseados em sintonia continuam a enfrentar uma série de desafios complexos na produção e geração de imagens com estilo consistente, e pode haver três razões por trás disso. Primeiro, o conceito de estilo ainda permanece amplamente indefinido e indeterminado e compreende uma combinação de elementos que incluem atmosfera, estrutura, design, materials, cor e muito mais. Os métodos baseados em segunda inversão são propensos à degradação do estilo, resultando em perda frequente de detalhes refinados. Finalmente, as abordagens baseadas em adaptadores exigem ajuste frequente de peso para cada imagem de referência para manter um equilíbrio entre a controlabilidade do texto e a intensidade do estilo.

Além disso, o objetivo principal da maioria das abordagens de transferência de estilo ou geração de imagem de estilo é usar a imagem de referência e aplicar seu estilo específico de um determinado subconjunto ou imagem de referência a uma imagem de conteúdo alvo. No entanto, é o grande número de atributos de estilo que dificulta o trabalho dos investigadores na recolha de conjuntos de dados estilizados, na representação correta do estilo e na avaliação do sucesso da transferência. Anteriormente, modelos e estruturas que lidam com processos de difusão baseados em ajuste fino ajustavam o conjunto de dados de imagens que compartilham um estilo comum, um processo que é demorado e com generalização limitada em tarefas do mundo actual, uma vez que é difícil para reunir um subconjunto de imagens que compartilham o mesmo estilo ou quase idêntico.

Neste artigo falaremos sobre InstantStyle, um framework desenhado com o objetivo de solucionar os problemas enfrentados pelos atuais modelos de difusão baseados em tuning para geração e customização de imagens. Falaremos sobre as duas estratégias principais implementadas pela estrutura InstantStyle:

Uma abordagem simples, mas eficaz, para dissociar estilo e conteúdo de imagens de referência dentro do espaço de recursos, prevista na suposição de que recursos dentro do mesmo espaço de recursos podem ser adicionados ou subtraídos uns dos outros.
Prevenir vazamentos de estilo injetando os recursos da imagem de referência exclusivamente nos blocos específicos do estilo e evitando deliberadamente a necessidade de usar pesos pesados para ajuste fino, muitas vezes caracterizando designs com mais parâmetros pesados.

Este artigo tem como objetivo cobrir em profundidade o framework InstantStyle e explorar o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks do estado da arte. Também falaremos sobre como a estrutura InstantStyle demonstra resultados notáveis de estilização visible e atinge um equilíbrio ideally suited entre a controlabilidade dos elementos textuais e a intensidade do estilo. Então vamos começar.

Estruturas de IA geradoras de texto para imagem baseadas em difusão obtiveram um sucesso notável e notável em uma ampla gama de tarefas de customização e personalização, particularmente em tarefas consistentes de geração de imagens, incluindo personalização de objetos, preservação de imagens e transferência de estilo. No entanto, apesar do sucesso recente e do aumento no desempenho, a transferência de estilo continua a ser uma tarefa desafiadora para os investigadores devido à natureza indeterminada e indefinida do estilo, muitas vezes incluindo uma variedade de elementos, incluindo atmosfera, estrutura, design, materials, cor e muito mais. Dito isto, o objetivo principal da geração de imagens estilizadas ou transferência de estilo é aplicar o estilo específico de uma determinada imagem de referência ou de um subconjunto de imagens de referência. para a imagem de conteúdo de destino. No entanto, o grande número de atributos de estilo dificulta o trabalho dos pesquisadores na coleta de conjuntos de dados estilizados, na representação correta do estilo e na avaliação do sucesso da transferência. Anteriormente, modelos e estruturas que lidam com processos de difusão baseados em ajuste fino ajustavam o conjunto de dados de imagens que compartilham um estilo comum, um processo que consome tempo e com generalização limitada em tarefas do mundo actual, uma vez que é difícil para reunir um subconjunto de imagens que compartilham o mesmo estilo ou quase idêntico.

Com os desafios encontrados pela abordagem atual, os pesquisadores têm se interessado em desenvolver abordagens de ajuste fino para transferência de estilo ou geração de imagens estilizadas, e essas estruturas podem ser divididas em dois grupos diferentes:

Abordagens sem adaptador: Abordagens e estruturas livres de adaptadores aproveitam o poder da autoatenção dentro do processo de difusão e, ao implementar uma operação de atenção compartilhada, esses modelos são capazes de extrair recursos essenciais, incluindo chaves e valores, diretamente de imagens de um determinado estilo de referência.

Abordagens baseadas em adaptador: As abordagens e estruturas baseadas em adaptadores, por outro lado, incorporam um modelo leve projetado para extrair representações de imagens detalhadas das imagens de estilo de referência. A estrutura então integra essas representações no processo de difusão usando habilmente mecanismos de atenção cruzada. O objetivo principal do processo de integração é orientar o processo de geração e garantir que a imagem resultante esteja alinhada com as nuances estilísticas desejadas da imagem de referência.

No entanto, apesar das promessas, os métodos livres de ajuste geralmente enfrentam alguns desafios. Primeiro, a abordagem sem adaptador requer uma troca de chave e valores dentro das camadas de autoatenção e captura previamente as matrizes de chave e valor derivadas das imagens de estilo de referência. Quando implementada em imagens naturais, a abordagem sem adaptador exige a inversão da imagem de volta ao ruído latente usando técnicas como DDIM ou inversão de modelos implícitos de difusão de redução de ruído. No entanto, o uso de DDIM ou outras abordagens de inversão pode resultar na perda de detalhes refinados, como cor e textura, diminuindo, portanto, as informações de estilo nas imagens geradas. Além disso, o passo adicional introduzido por estas abordagens é um processo demorado e pode representar desvantagens significativas em aplicações práticas. Por outro lado, o principal desafio dos métodos baseados em adaptadores reside em encontrar o equilíbrio certo entre o vazamento de contexto e a intensidade do estilo. O vazamento de conteúdo ocorre quando um aumento na intensidade do estilo resulta no aparecimento de elementos sem estilo da imagem de referência na saída gerada, sendo o principal ponto de dificuldade a separação eficaz dos estilos do conteúdo dentro da imagem de referência. Para resolver esse problema, alguns frameworks constroem conjuntos de dados emparelhados que representam o mesmo objeto em estilos diferentes, facilitando a extração da representação do conteúdo e estilos desembaraçados. No entanto, graças à representação inerentemente indeterminada do estilo, a tarefa de criar conjuntos de dados emparelhados em grande escala é limitada em termos da diversidade de estilos que pode capturar, e também é um processo que consome muitos recursos.

Para lidar com essas limitações, é introduzida a estrutura InstantStyle, que é um novo mecanismo livre de ajuste baseado em métodos existentes baseados em adaptadores, com a capacidade de integração perfeita com outros métodos de injeção baseados em atenção e alcançando a dissociação de conteúdo e estilo de forma eficaz. Além disso, a estrutura InstantStyle introduz não uma, mas duas maneiras eficazes de completar a dissociação entre estilo e conteúdo, alcançando uma melhor migração de estilo sem a necessidade de introduzir métodos adicionais para conseguir a dissociação ou construir conjuntos de dados emparelhados.

Além disso, as estruturas anteriores baseadas em adaptadores foram amplamente utilizadas nos métodos baseados em CLIP como um extrator de recursos de imagem, algumas estruturas exploraram a possibilidade de implementar o desacoplamento de recursos dentro do espaço de recursos e, quando comparados com a indeterminação de estilo, é mais fácil de descreva o conteúdo com texto. Como imagens e textos compartilham um espaço de recursos em métodos baseados em CLIP, uma simples operação de subtração de recursos de texto de contexto e recursos de imagem pode reduzir significativamente o vazamento de conteúdo. Além disso, na maioria dos modelos de difusão, existe uma camada específica em sua arquitetura que injeta as informações de estilo e realiza a dissociação entre conteúdo e estilo, injetando recursos de imagem apenas em blocos de estilo específicos. Ao implementar essas duas estratégias simples, a estrutura InstantStyle é capaz de resolver problemas de vazamento de conteúdo encontrados pela maioria das estruturas existentes, mantendo ao mesmo tempo a força do estilo.

Resumindo, a estrutura InstantStyle emprega dois mecanismos simples, diretos, mas eficazes, para conseguir uma separação eficaz entre conteúdo e estilo das imagens de referência. A estrutura Instantaneous-Fashion é uma abordagem independente de modelo e sem ajuste que demonstra desempenho notável em tarefas de transferência de estilo com um enorme potencial para tarefas posteriores.

Estilo Instantâneo: Metodologia e Arquitetura

Conforme demonstrado pelas abordagens anteriores, há um equilíbrio na injeção de condições de estilo em modelos de difusão sem sintonia. Se a intensidade da condição da imagem for muito alta, poderá resultar em vazamento de conteúdo, ao passo que se a intensidade da condição da imagem cair muito, o estilo poderá não parecer suficientemente óbvio. A principal razão por trás dessa observação é que, em uma imagem, o estilo e o conteúdo estão interligados e, devido aos atributos indeterminados inerentes ao estilo, é difícil dissociar o estilo e a intenção. Como resultado, pesos meticulosos são frequentemente ajustados para cada imagem de referência, na tentativa de equilibrar a controlabilidade do texto e a força do estilo. Além disso, para uma determinada imagem de referência de entrada e sua descrição de texto correspondente nos métodos baseados em inversão, abordagens de inversão como DDIM são adotadas sobre a imagem para obter a trajetória de difusão invertida, um processo que aproxima a equação de inversão para transformar uma imagem em uma imagem latente. representação de ruído. Com base no mesmo, e partindo da trajetória de difusão invertida junto com um novo conjunto de prompts, esses métodos geram novo conteúdo com seu estilo alinhado com a entrada. No entanto, conforme mostrado na figura a seguir, a abordagem de inversão DDIM para imagens reais é muitas vezes instável, pois depende de suposições de linearização native, resultando na propagação de erros e levando à perda de conteúdo e à reconstrução incorreta da imagem.

2 3

Chegando à metodologia, em vez de empregar estratégias complexas para separar conteúdo e estilo das imagens, a estrutura Instantaneous-Fashion adota a abordagem mais simples para obter desempenho semelhante. Quando comparado com os atributos de estilo subdeterminados, o conteúdo pode ser representado por texto pure, permitindo que a estrutura Instantaneous-Fashion use o codificador de texto do CLIP para extrair as características do texto do conteúdo como representações de contexto. Simultaneamente, a estrutura Instantaneous-Fashion implementa o codificador de imagem CLIP para extrair os recursos da imagem de referência. Aproveitando a caracterização dos recursos globais do CLIP e subtraindo os recursos de texto do conteúdo dos recursos de imagem, a estrutura Instantaneous-Fashion é capaz de dissociar explicitamente o estilo e o conteúdo. Embora seja uma estratégia simples, ajuda a estrutura Instantaneous-Fashion a ser bastante eficaz em manter o vazamento de conteúdo ao mínimo.

3 4

Além disso, cada camada dentro de uma rede profunda é responsável por capturar diferentes informações semânticas, e a principal observação dos modelos anteriores é que existem duas camadas de atenção responsáveis por lidar com o estilo. up Especificamente, são as camadas blocks.0.attentions.1 e down blocks.2.attentions.1 responsáveis por capturar estilos como cor, materials, atmosfera, e a camada de structure espacial captura estrutura e composição, respectivamente. A estrutura Instantaneous-Fashion usa essas camadas implicitamente para extrair informações de estilo e evita o vazamento de conteúdo sem perder a força do estilo. A estratégia é simples, mas eficaz, pois o modelo possui blocos de estilo localizados que podem injetar recursos de imagem nesses blocos para obter uma transferência de estilo perfeita. Além disso, como o modelo reduz bastante o número de parâmetros do adaptador, a capacidade de controle de texto da estrutura é aprimorada e o mecanismo também é aplicável a outros modelos de injeção de recursos baseados em atenção para edição e outras tarefas.

4 2

Estilo instantâneo: experimentos e resultados

A estrutura Instantaneous-Fashion é implementada na estrutura Secure Diffusion XL e usa o adaptador IR pré-treinado comumente adotado como exemplo para validar sua metodologia e silencia todos os blocos, exceto os blocos de estilo para recursos de imagem. O modelo Instantaneous-Fashion também treina o adaptador IR em 4 milhões de conjuntos de dados emparelhados de texto e imagem em grande escala a partir do zero e, em vez de treinar todos os blocos, atualiza apenas os blocos de estilo.

Para conduzir suas capacidades de generalização e robustez, a estrutura Instantaneous-Fashion conduz vários experimentos de transferência de estilo com vários estilos em diferentes conteúdos, e os resultados podem ser observados nas imagens a seguir. Dada uma imagem de referência de estilo único junto com prompts variados, a estrutura Instantaneous-Fashion oferece geração de imagem de estilo consistente e de alta qualidade.

5 2

Além disso, como o modelo injeta informações de imagem apenas nos blocos de estilo, ele é capaz de mitigar significativamente o problema de vazamento de conteúdo e, portanto, não precisa realizar ajuste de peso.

6 2

Seguindo em frente, a estrutura Instantaneous-Fashion também adota a arquitetura ControlNet para obter estilização baseada em imagem com controle espacial, e os resultados são demonstrados na imagem a seguir.

7 2

Quando comparado com métodos de última geração, incluindo StyleAlign, B-LoRA, Swapping Self Consideration e IP-Adapter, a estrutura Instantaneous-Fashion demonstra os melhores efeitos visuais.

8 1

Pensamentos finais

Neste artigo, falamos sobre Instantaneous-Fashion, uma estrutura geral que emprega duas estratégias simples, mas eficazes, para conseguir uma separação eficaz de conteúdo e estilo de imagens de referência. A estrutura InstantStyle foi projetada com o objetivo de resolver os problemas enfrentados pelos atuais modelos de difusão baseados em ajuste para geração e personalização de imagens. A estrutura Instantaneous-Fashion implementa duas estratégias vitais: Uma abordagem simples, mas eficaz, para dissociar estilo e conteúdo de imagens de referência dentro do espaço de recursos, prevista na suposição de que recursos dentro do mesmo espaço de recursos podem ser adicionados ou subtraídos uns dos outros. Em segundo lugar, evitar vazamentos de estilo injetando os recursos da imagem de referência exclusivamente nos blocos específicos do estilo e evitando deliberadamente a necessidade de usar pesos pesados para ajuste fino, muitas vezes caracterizando designs com mais parâmetros pesados.

join the future newsletter Unite AI Mobile Newsletter 1