Tech

BrushNet: pintura de imagem plug and play com difusão de ramificação dupla

A pintura interna de imagens é um dos problemas clássicos da visão computacional e tem como objetivo restaurar regiões mascaradas em uma imagem com conteúdo plausível e pure. Os trabalhos existentes que empregam técnicas tradicionais de pintura de imagens, como Redes Adversariais Generativas ou GANS, e Codificadores Automáticos Variacionais ou VAEs geralmente exigem recursos auxiliares de engenharia handbook, mas, ao mesmo tempo, não fornecem resultados satisfatórios. Nos últimos anos, os métodos baseados em difusão ganharam popularidade na comunidade de visão computacional devido às suas notáveis ​​​​capacidades de geração de imagens de alta qualidade, diversidade de saída e controle refinado. As tentativas iniciais de empregar modelos de difusão para pintura de imagens guiadas por texto modificaram a estratégia padrão de remoção de ruído, amostrando as regiões mascaradas de um modelo de difusão pré-treinado e as áreas não mascaradas de uma determinada imagem. Embora esses métodos tenham resultado em um desempenho satisfatório em tarefas simples de pintura de imagens, eles enfrentaram dificuldades com formas complexas de máscara, prompts de texto e conteúdos de imagem que resultaram em uma falta geral de coerência. A falta de coerência observada nestes métodos pode ser devida principalmente ao seu limitado conhecimento perceptivo dos limites da máscara e do contexto da região da imagem não mascarada.

Apesar dos avanços, pesquisas e desenvolvimento desses modelos nos últimos anos, a pintura de imagens ainda é um grande obstáculo para os desenvolvedores de visão computacional. As adaptações atuais de modelos de difusão para tarefas de pintura de imagens envolvem a modificação da estratégia de amostragem, ou o desenvolvimento de modelos de difusão específicos de pintura muitas vezes sofrem de qualidade de imagem reduzida e semântica inconsistente. Para enfrentar esses desafios e preparar o caminho para modelos de pintura de imagem, neste artigo falaremos sobre BrushNet, uma nova estrutura de engenharia plug and play de ramificação dupla que incorpora recursos de imagem mascarados em nível de pixel em qualquer difusão pré-treinada. modelo, garantindo assim coerência e melhores resultados nas tarefas de pintura de imagens. A estrutura BrushNet introduz um novo paradigma sob o qual a estrutura divide os recursos de imagem e ruidosos latentes em ramos separados. A divisão de características de imagem e latentes ruidosas diminui drasticamente a carga de aprendizagem do modelo e facilita uma incorporação diferenciada de informações essenciais da imagem mascarada de forma hierárquica. Além da estrutura BrushNet, também falaremos sobre BrushBench e BrushData que facilitam a avaliação de desempenho baseada em segmentação e o treinamento de pintura de imagens, respectivamente.

Este artigo tem como objetivo cobrir o framework BrushNet em profundidade e explorar o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks do estado da arte. Então vamos começar.

A pintura interna de imagens, um método que tenta restaurar as regiões de missão de uma imagem, mantendo a coerência geral, tem sido um problema de longa information no campo da visão computacional e tem incomodado desenvolvedores e pesquisadores há alguns anos. A pintura interna de imagens encontra suas aplicações em uma ampla variedade de tarefas de visão computacional, incluindo edição de imagens e experimentações virtuais. Recentemente, modelos de difusão como Steady Diffusion e Steady Diffusion 1.5 demonstraram notável capacidade de gerar imagens de alta qualidade e fornecem aos usuários a flexibilidade para controlar os controles semânticos e estruturais. O notável potencial dos modelos de difusão é o que levou os pesquisadores a recorrer a modelos de difusão para tarefas de pintura de imagens de alta qualidade que se alinham com os prompts de texto de entrada.

Os métodos empregados pelas estruturas tradicionais de pintura guiada por texto baseadas em difusão podem ser divididos em duas categorias, Modificação da estratégia de amostragem e Modelos de pintura dedicados. O método de modificação da estratégia de amostragem modifica o processo de remoção de ruído padrão, amostrando as regiões mascaradas de um modelo de difusão pré-treinado e copiando e colando as regiões não mascaradas da imagem fornecida em cada etapa de remoção de ruído. Embora as abordagens de modificação da estratégia de amostragem possam ser implementadas em modelos de difusão arbitrários, elas geralmente resultam em resultados de pintura incoerentes, uma vez que têm conhecimento perceptual limitado dos limites da máscara e do contexto da região da imagem não mascarada. Por outro lado, modelos de pintura interna dedicados ajustam um modelo de pintura interna de imagem projetado especificamente expandindo as dimensões do canal de entrada do modelo de difusão base para incorporar imagens e máscaras corrompidas. Embora os modelos de pintura interna dedicados permitam que o modelo de difusão gere resultados mais satisfatórios com modelos especializados com reconhecimento de forma e conteúdo, ele pode ou não ser o melhor projeto arquitetônico para modelos de pintura interna de imagem.

Conforme demonstrado na imagem a seguir, modelos de pintura interna dedicados fundem imagem mascarada latente, latente ruidosa, texto e máscara em um estágio inicial. O projeto arquitetônico de tais modelos de pintura dedicados influencia facilmente os recursos da imagem mascarada e evita que as camadas subsequentes na arquitetura UNet obtenham recursos de imagem mascarados puros devido à influência do texto. Além disso, lidar com a geração e a condição em um único ramo impõe uma carga adicional à arquitetura UNet e, como essas abordagens também exigem ajuste fino em diferentes variações do spine de difusão, essas abordagens são muitas vezes demoradas e com transferibilidade limitada.

2 1

Pode parecer que adicionar uma ramificação adicional dedicada à extração de recursos de imagens mascaradas pode ser uma solução adequada para os problemas mencionados acima; no entanto, as estruturas existentes muitas vezes resultam na extração e inserção de informações inadequadas quando aplicadas diretamente à pintura interna. Como resultado, estruturas existentes como ControlNet produzem resultados insatisfatórios quando comparadas com modelos de pintura interna dedicados. Para resolver este problema da maneira mais eficaz possível, a estrutura BrushNet introduz uma ramificação adicional à rede de difusão authentic e, assim, cria uma arquitetura mais adequada para tarefas de pintura de imagens. O design e a arquitetura da estrutura BrushNet podem ser resumidos em três pontos.

  1. Em vez de inicializar camadas de convolução aleatoriamente, a estrutura BrushNet implementa um codificador VAE para processar a imagem mascarada. Como resultado, o framework BrushNet é capaz de extrair os recursos da imagem para adaptação à distribuição UNet de forma mais eficaz.
  2. A estrutura BrishNet incorpora gradualmente todos os recursos da UNet, camada por camada, na arquitetura UNet pré-treinada, uma abordagem hierárquica que permite um controle denso por pixel.
  3. A estrutura BrushNet take away a atenção cruzada de texto do componente UNet para garantir que as informações puras da imagem sejam consideradas na ramificação adicional. Além disso, o modelo BrushNet também propõe implementar uma estratégia de mistura desfocada para obter melhor consistência juntamente com uma maior faixa de controlabilidade em regiões não mascaradas da imagem.

BrushNet: Método e Arquitetura

A figura a seguir nos dá uma breve visão geral da estrutura BrushNet.

3

Como pode ser observado, a estrutura emprega uma estratégia de ramificação dupla para inserção de orientação de imagem mascarada e utiliza operações de mesclagem com máscara desfocada para garantir melhor preservação de regiões não mascaradas. Vale a pena notar que a estrutura BrushNet é capaz de ajustar a escala adicionada para obter um controle flexível. Para uma determinada entrada de imagem mascarada e a máscara, o modelo BrushNet gera uma imagem pintada. O modelo primeiro reduz a resolução da máscara para acomodar o tamanho do latente, e a imagem mascarada é alimentada como uma entrada para o codificador VAE para alinhar a distribuição do espaço latente. O modelo então concatena a imagem latente mascarada, a latente com ruído e a máscara com amostragem reduzida e a usa como entrada. Os recursos extraídos pelo modelo são então adicionados à camada UNet pré-treinada após um bloco de convolução zero. Após a remoção de ruído, o modelo combina a imagem mascarada e a imagem gerada com uma máscara desfocada.

Orientação de imagem mascarada

A estrutura BrushNet insere o recurso de imagem mascarada na rede de difusão pré-treinada usando uma ramificação adicional, que separa explicitamente a extração de recursos de imagens mascaradas do processo de geração de imagem. A entrada é formada concatenando a imagem mascarada latente, latente com ruído e a máscara com resolução reduzida. Para ser mais específico, o ruído latente fornece informações para a geração de imagens durante o processo de geração atual e ajuda a estrutura a melhorar a coerência semântica do recurso de imagem mascarado. A estrutura BrushNet então extrai a imagem mascarada latente da imagem mascarada usando um AutoEncoder Variacional. Além disso, a estrutura emprega interpolação cúbica para reduzir a resolução da máscara, na tentativa de garantir que o tamanho da máscara se alinhe com a imagem latente mascarada e com a latente ruidosa. Para processar os recursos da imagem mascarada, a estrutura BrushNet implementa um clone do modelo de difusão pré-treinado e exclui as camadas de atenção cruzada do modelo de difusão. A razão é que os pesos pré-treinados do modelo de difusão servem como um forte anterior para extrair os recursos da imagem mascarada, e a exclusão das camadas de atenção cruzada garante que o modelo considere apenas informações puras da imagem dentro do ramo adicional. A estrutura BrushNet insere os recursos no modelo de difusão congelada camada por camada, permitindo assim um controle hierárquico denso por pixel, e também emprega camadas de convolução zero para estabelecer uma conexão entre o modelo BrushNet treinável e o modelo bloqueado, garantindo que o ruído prejudicial tenha nenhuma influência sobre os estados ocultos na cópia treinável durante os estágios iniciais de treinamento.

Operação de mistura

Conforme mencionado anteriormente, conduzir a operação de mesclagem no espaço latente redimensiona as máscaras, o que geralmente resulta em diversas imprecisões, e a estrutura BrushNet encontra um problema semelhante ao redimensionar a máscara para corresponder ao tamanho do espaço latente. Além disso, é importante notar que as operações de codificação e decodificação em AutoEncoders Variacionais têm operações inerentemente limitadas e podem não garantir a reconstrução completa da imagem. Para garantir que a estrutura reconstrói uma imagem totalmente consistente da região desmascarada, os trabalhos existentes implementaram diferentes técnicas, como copiar as regiões desmascaradas da imagem authentic. Embora a abordagem funcione, muitas vezes resulta numa falta de coerência semântica na geração dos resultados finais. Por outro lado, outros métodos como a adoção de operações de mistura latente enfrentam dificuldade em preservar a informação desejada nas regiões não mascaradas.

Controle Flexível

O design arquitetônico da estrutura BrushNet torna-a uma escolha adequada para integrações plug and play inerentes a vários modelos de difusão pré-treinados e permite uma escala de preservação flexível. Como a estrutura BrishNet não altera os pesos do modelo de difusão pré-treinado, os desenvolvedores têm a flexibilidade de integrá-lo como um componente plug and play com um modelo de difusão ajustado, permitindo fácil adoção e experimentação com modelos pré-treinados. Além disso, os desenvolvedores também têm a opção de controlar a escala de preservação das regiões não mascaradas, incorporando os recursos do modelo BrushNet no modelo de difusão congelada com o peso w fornecido que determina a influência da estrutura BrushNet na escala de preservação, oferecendo aos desenvolvedores a capacidade de ajustar os níveis desejados de preservação. Finalmente, a estrutura BrushNet permite aos usuários ajustar a escala de desfoque e decidir se devem ou não implementar a operação de desfoque, personalizando facilmente a escala de preservação das regiões não mascaradas, abrindo espaço para ajustes flexíveis e controle refinado sobre o processo de pintura da imagem. .

BrushNet: Implementação e Resultados

Para analisar seus resultados, a estrutura BrushNet propõe o BrushBench, um conjunto de dados de pintura de imagens baseado em segmentação com mais de 600 imagens, com cada imagem acompanhada por uma máscara anotada por humanos e anotação de legenda. As imagens no conjunto de dados de referência são distribuídas uniformemente entre imagens naturais e artificiais e também garantem uma distribuição uniforme entre diferentes categorias, permitindo uma avaliação justa entre diferentes categorias. Para aprimorar ainda mais a análise das tarefas de pintura, a estrutura BrushNet categoriza o conjunto de dados em duas partes distintas com base nos métodos utilizados: baseado em segmentação e máscaras de pincel.

Comparação Quantitativa

A tabela a seguir compara a estrutura BrushNet com os modelos existentes de pintura de imagem baseados em difusão no conjunto de dados BrushBench com a difusão estável como modelo base.

4

Como pode ser observado, a estrutura BrushNet demonstra notável eficiência na preservação de regiões mascaradas, alinhamento de texto e qualidade de imagem. Além disso, modelos como Steady Diffusion Inpainting, HD-Painter, PowerPaint e outros demonstram forte desempenho em tarefas de pintura interna de imagens, embora não consigam replicar seu desempenho em tarefas de pintura externa, especialmente em termos de alinhamento de texto e qualidade de imagem. No geral, a estrutura BrushNet oferece os resultados mais fortes.

Além disso, a tabela a seguir compara a estrutura BrushNet com os modelos existentes de pintura de imagens baseados em difusão no conjunto de dados EditBench, e o desempenho é comparável ao observado no conjunto de dados BrushBench. Os resultados indicam que a estrutura BrushNet oferece forte desempenho em uma ampla gama de tarefas de pintura de imagens com diferentes tipos de máscaras.

5

Comparação Qualitativa

A figura a seguir compara qualitativamente a estrutura BrushNet com os métodos existentes de pintura de imagens, com resultados cobrindo inteligência synthetic e imagens naturais em diferentes tarefas de pintura, incluindo pintura de máscara aleatória, máscara de segmentação dentro de pintura e máscara de segmentação fora de pintura.

6

Como pode ser observado, a estrutura BrushNet oferece resultados notáveis ​​na coerência da região desmascarada e das regiões coerentes, e realiza com sucesso o conhecimento da informação de base devido à implementação da abordagem de dissociação de ramo duplo. Além disso, o ramo intocado do modelo de difusão pré-treinado também oferece a vantagem de cobrir melhor diferentes domínios de dados, como anime e pintura, resultando em melhor desempenho em diferentes cenários.

7

Pensamentos finais

Neste artigo, falamos sobre BrushNet, uma nova estrutura de engenharia plug and play de ramificação dupla que incorpora recursos de imagem mascarados em nível de pixel em qualquer modelo de difusão pré-treinado, garantindo assim coerência e resultados aprimorados em tarefas de pintura de imagem. A estrutura BrushNet introduz um novo paradigma sob o qual a estrutura divide os recursos de imagem e ruidosos latentes em ramos separados. A divisão de características de imagem e latentes ruidosas diminui drasticamente a carga de aprendizagem do modelo e facilita uma incorporação diferenciada de informações essenciais da imagem mascarada de forma hierárquica. Além da estrutura BrushNet, também falaremos sobre BrushBench e BrushData que facilitam a avaliação de desempenho baseada em segmentação e o treinamento de pintura de imagens, respectivamente.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button