HD-Painter: pintura de imagem guiada por texto de alta resolução com modelos de difusão

Os modelos de espalhamento revolucionaram, sem incerteza, a indústria de IA e ML, com as suas aplicações em tempo real a tornarem-se secção integrante da nossa vida quotidiana. Depois que os modelos de texto para imagem mostraram suas habilidades notáveis, técnicas de manipulação de imagem baseadas em espalhamento, uma vez que geração controlável, síntese de imagem especializada e personalizada, edição de imagem em nível de objeto, variações condicionadas por prompt e edição, emergiram uma vez que tópicos de pesquisa importantes devido para suas aplicações na indústria de visão computacional.

No entanto, apesar das suas capacidades impressionantes e resultados excepcionais, as estruturas de texto para imagem, particularmente as estruturas de pintura de texto para imagem, ainda têm áreas potenciais para desenvolvimento. Isso inclui a capacidade de compreender cenas globais, principalmente ao expulsar o rumor da imagem em intervalos de tempo de subida espalhamento. Para resolver esse problema, os pesquisadores introduziram o HD-Painter, uma estrutura totalmente livre de treinamento que segue com precisão as instruções imediatas e se adapta à pintura de imagens de subida solução de forma congruente. A estrutura HD-Painter emprega uma categoria Prompt Aware Introverted Attention (PAIntA), que aproveita informações imediatas para melhorar as pontuações de autoatenção, resultando em melhor geração de alinhamento de texto.

Para melhorar ainda mais a congruência do prompt, o padrão HD-Painter introduz uma abordagem de Reweighting Attention Score Guidance (RASG). Esta abordagem integra perfeitamente uma estratégia de amostragem post-hoc na forma universal do componente DDIM, evitando mudanças latentes fora da distribuição. Aliás, a estrutura HD-Painter apresenta uma técnica especializada de super-resolução personalizada para pintura interna, permitindo estender-se a escalas maiores e completar regiões ausentes na imagem com resoluções de até 2K.

HD-Painter: pintura de imagem guiada por texto

Os modelos de espalhamento de texto para imagem têm sido de traje um tópico significativo na indústria de IA e ML nos últimos meses, com modelos demonstrando capacidades impressionantes em tempo real em várias aplicações práticas. Modelos pré-treinados de geração de texto para imagem, uma vez que DALL-E, Imagen e Stable Diffusion, mostraram sua adequação para peroração de imagem mesclando regiões desconhecidas sem rumor (geradas) com regiões conhecidas difundidas durante o processo de espalhamento reversa. Apesar de produzir resultados visualmente atraentes e muito harmonizados, os modelos existentes lutam para compreender o cenário global, particularmente sob o processo de eliminação de rumor de subida espalhamento. Ao modificar modelos de espalhamento de texto para imagem pré-treinados para incorporar informações de contexto adicionais, eles podem ser ajustados para peroração de imagem guiada por texto.

Aliás, dentro dos modelos de espalhamento, a pintura guiada por texto e a peroração de imagem guiada por texto são áreas importantes de interesse para os pesquisadores. Leste interesse é impulsionado pelo traje de que modelos de pintura guiada por texto podem gerar teor em regiões específicas de uma imagem de ingresso com base em prompts textuais, levando a aplicações potenciais, uma vez que retocar regiões específicas da imagem, modificar atributos do tema, uma vez que cores ou roupas, e aditar ou substituindo objetos. Em resumo, os modelos de espalhamento de texto para imagem alcançaram recentemente um sucesso sem precedentes, devido às suas capacidades de geração excepcionalmente realistas e visualmente atraentes.

No entanto, a maioria dos quadros existentes demonstra negligência imediata em dois cenários. O primeiro é Domínio de fundo quando o padrão completa a região desconhecida ignorando o prompt em segundo projecto, enquanto o segundo cenário é dominância de objetos próximos quando o padrão propaga os objetos da região conhecida para a região desconhecida usando a verosimilhança de contexto visual em vez do prompt de ingresso. É provável que ambos os problemas sejam resultado da capacidade da espalhamento vanilla inpainting de interpretar o prompt textual com precisão ou misturá-lo com as informações contextuais obtidas da região conhecida.

Para enfrentar esses obstáculos, a estrutura HD-Painter introduz a categoria Prompt Aware Introverted Attention ou PAIntA, que usa informações imediatas para melhorar as pontuações de autoatenção que, em última estudo, resulta em uma melhor geração de alinhamento de texto. PAIntA usa o condicionamento textual fornecido para melhorar a pontuação de autoatenção com o objetivo de reduzir o impacto de informações relevantes não-promptadas da região da imagem e, ao mesmo tempo, aumentar a taxa dos pixels conhecidos alinhados com o prompt. Para melhorar ainda mais o alinhamento do texto dos resultados gerados, a estrutura HD-Painter implementa um método de orientação post-hoc que aproveita as pontuações de atenção cruzada. No entanto, a implementação do mecanismo de orientação post-hoc vanilla pode fomentar mudanças fora da distribuição uma vez que resultado do termo gradiente suplementar na equação de espalhamento. A mudança fora da distribuição resultará, em última estudo, na degradação da qualidade da produção gerada. Para enfrentar esse tropeço, a estrutura HD-Painter implementa um Reweighting Attention Score Guidance ou RASG, um método que integra perfeitamente uma estratégia de amostragem post-hoc na forma universal do componente DDIM. Ele permite que a estrutura gere resultados de pintura visualmente plausíveis, guiando a modelo em direção aos latentes alinhados prontamente e contendo-os em seu domínio treinado.

Ao implantar os componentes RASH e PAIntA em sua arquitetura, a estrutura HD-Painter possui uma vantagem significativa sobre os modelos existentes, incluindo o estado da arte, pintura interna e espalhamento de texto para imagem, porque consegue resolver o problema existente de negligência imediata. Aliás, tanto os componentes RASH quanto os PAIntA oferecem funcionalidade plug and play, permitindo que sejam compatíveis com modelos de pintura de base de espalhamento para enfrentar os desafios mencionados supra. Aliás, ao implementar uma tecnologia de mistura iterativa no tempo e ao aproveitar os recursos dos modelos de espalhamento de subida solução, o pipeline do HD-Painter pode operar efetivamente para pinturas com solução de até 2K.

Resumindo, o HD-Painter pretende dar as seguintes contribuições na dimensão:

Seu objetivo é resolver o problema de negligência imediata do fundo e dominância de objetos próximos testado por estruturas de pintura de imagens guiadas por texto, implementando a categoria Prompt Aware Introverted Attention ou PAIntA em sua arquitetura.
Seu objetivo é melhorar o alinhamento do texto da saída implementando a categoria Reweighting Attention Score Guidance ou RASG em sua arquitetura que permite que a estrutura HD-Painter execute amostragem guiada post-hoc, evitando distribuições fora de vez.
Projetar um pipeline eficiente de peroração de imagem guiada por texto, sem treinamento, capaz de superar as estruturas de última geração existentes e usar a estrutura de super-resolução especializada em pintura simples, porém eficiente, para realizar pintura de imagem guiada por texto com solução de até 2K.

HD-Painter: Método e Arquitetura

Antes de darmos uma olhada na arquitetura, é vital compreender os três conceitos fundamentais que formam a base da estrutura do HD-Painter: Pintura de imagens, orientação post-hoc em estruturas de espalhamento, e Pintura de blocos arquitetônicos específicos.

Image Inpainting é uma abordagem que visa preencher as regiões que faltam em uma imagem, garantindo ao mesmo tempo o apelo visual da imagem gerada. As estruturas tradicionais de tirocínio profundo implementaram métodos que usaram regiões conhecidas para propagar recursos profundos. No entanto, a introdução de modelos de espalhamento resultou na evolução dos modelos de pintura interna, principalmente as estruturas de pintura interna de imagens guiadas por texto. Tradicionalmente, um padrão de espalhamento de texto para imagem pré-treinado substitui a região não mascarada do latente usando a versão com rumor da região conhecida durante o processo de amostragem. Embora esta abordagem funcione até evidente ponto, ela degrada significativamente a qualidade da saída gerada, uma vez que a rede de eliminação de rumor vê unicamente a versão com rumor da região conhecida. Para enfrentar esse tropeço, algumas abordagens tiveram uma vez que objetivo ajustar o padrão pré-treinado de texto para imagem para obter pintura de imagem guiada por texto. Ao implementar esta abordagem, o framework é capaz de gerar uma máscara aleatória via concatenação, uma vez que o padrão é capaz de condicionar o framework de eliminação de rumor na região não mascarada.

Seguindo em frente, os modelos tradicionais de aprendizagem profunda implementaram camadas de design especiais para uma pintura eficiente, com algumas estruturas sendo capazes de extrair informações de forma eficiente e produzir imagens visualmente atraentes, introduzindo camadas de convolução especiais para mourejar com as regiões conhecidas da imagem. Algumas estruturas até adicionaram uma categoria de atenção contextual em sua arquitetura para reduzir os pesados requisitos computacionais indesejados de atenção própria de todos para uma pintura interna de subida qualidade.

Finalmente, os métodos de orientação post-hoc são métodos de amostragem de espalhamento retroativa que orientam a próxima lanço da previsão latente em direção a um objetivo específico de minimização de função. Os métodos de orientação post-hoc são de grande ajuda quando se trata de gerar teor visual, principalmente na presença de restrições adicionais. No entanto, os métodos de orientação Post-hoc têm uma grande desvantagem: são conhecidos por resultarem em degradações na qualidade da imagem, uma vez que tendem a transmitir o processo de geração latente por um termo de gradiente.

Chegando à arquitetura do HD-Painter, a estrutura primeiro formula o problema de peroração de imagem guiada por texto e, em seguida, introduz dois modelos de espalhamento, nomeadamente o Stable Inpainting e o Stable Diffusion. O padrão HD-Painter introduz portanto os blocos PAIntA e RASG e, finalmente, chegamos à técnica de super solução específica para pintura.

Disseminação firme e pintura firme

Disseminação Firme é um padrão de espalhamento que opera dentro do espaço latente de um autoencoder. Para síntese de texto em imagem, a estrutura Stable Diffusion implementa um prompt textual para orientar o processo. A função orientadora possui estrutura semelhante à arquitetura UNet, e as camadas de atenção cruzada a condicionam aos prompts textuais. Aliás, o padrão de espalhamento firme pode realizar pintura de imagem com algumas modificações e ajustes finos. Para isso, as características da imagem mascarada gerada pelo codificador são concatenadas com a máscara binária reduzida para as latentes. O tensor resultante é portanto inserido na arquitetura UNet para obter o rumor estimado. A estrutura portanto inicializa os filtros convolucionais recém-adicionados com zeros enquanto o restante da UNet é inicializado usando pontos de verificação pré-treinados do padrão de espalhamento firme.

2 2

A figura supra demonstra a visão universal da estrutura HD-Painter que consiste em dois estágios. No primeiro estágio, o framework HD-Painter implementa a pintura de imagens guiada por texto, enquanto no segundo estágio, o padrão pinta a super-resolução específica da saída. Para preencher as regiões de missão e permanecer consistente com o prompt de ingresso, o padrão usa um padrão de espalhamento de pintura pré-treinado, substitui as camadas de autoatenção por camadas PAIntA e implementa o mecanismo RASG para realizar um processo de espalhamento reversa. O padrão portanto decodifica a latente estimada final, resultando em uma imagem pintada. O HD-Painter portanto implementa o padrão de espalhamento superestável para pintar a imagem de tamanho original e implementa o processo de espalhamento reversa da estrutura de Disseminação Firme condicionada à imagem de ingresso de baixa solução. O padrão combina as previsões sem rumor com a codificação da imagem original depois cada lanço na região conhecida e deriva a próxima latente. Finalmente, o padrão decodifica o latente e implementa a combinação de Poisson para evitar artefatos de borda.

Alerta de Atenção Introvertida Consciente ou PAIntA

Os modelos de pintura existentes, uma vez que o Stable Inpainting, tendem a responsabilizar mais no contexto visual em torno da dimensão de pintura e a ignorar as solicitações de ingresso do usuário. Com base na experiência do usuário, esse problema pode ser categorizado em duas classes: dominância de objetos próximos e dominância de fundo. A questão do domínio do contexto visual sobre os prompts de ingresso pode ser resultado da natureza unicamente espacial e livre de prompts das camadas de autoatenção. Para resolver esse problema, a estrutura HD-Painter apresenta o Prompt Aware Introverted Attention ou PAIntA que usa matrizes de atenção cruzada e uma máscara de pintura para controlar a saída das camadas de autoatenção na região desconhecida.

O componente Prompt Aware Introverted Attention primeiro aplica camadas de projeção para obter a chave, os valores e as consultas junto com a matriz de similaridade. O padrão portanto ajusta a pontuação de atenção dos pixels conhecidos para mitigar a poderoso influência da região conhecida sobre a região desconhecida e define uma novidade matriz de similaridade aproveitando o prompt textual.

Orientação de pontuação de atenção de reponderação ou RASG

A estrutura HD-Painter adota um método de orientação de amostragem post-hoc para melhorar ainda mais o alinhamento da geração com os prompts textuais. Juntamente com uma função objetivo, a abordagem de orientação de amostragem post-hoc visa aproveitar as propriedades de segmentação de vocabulário franco das camadas de atenção cruzada. No entanto, esta abordagem de orientação post-hoc simples tem o potencial de mudar o domínio de espalhamento latente que pode degradar a qualidade da imagem gerada. Para resolver esse problema, o padrão HD-Painter implementa o mecanismo Reweighting Attention Score Guidance ou RASG que introduz um mecanismo de reponderação de gradiente resultando na preservação do domínio latente.

HD-Painter: Experimentos e Resultados

Para examinar seu desempenho, a estrutura HD-Painter é comparada com modelos atuais de última geração, incluindo Stable Inpainting, GLIDE e BLD ou Blended Latent Diffusion em mais de 10.000 amostras aleatórias, onde o prompt é selecionado uma vez que o rótulo da máscara de instância selecionada.

Uma vez que pode ser observado, a estrutura HD-Painter supera as estruturas existentes em três métricas diferentes por uma margem significativa, principalmente a melhoria de 1,5 pontos na métrica CLIP e a diferença na pontuação de precisão gerada de muro de 10% em relação a outros métodos de última geração. .

Seguindo em frente, a figura a seguir demonstra a confrontação qualitativa da estrutura HD-Painter com outras estruturas de pintura. Uma vez que pode ser observado, outros modelos de risco de base reconstroem as regiões ausentes na imagem uma vez que uma prolongação dos objetos da região conhecida, desconsiderando os prompts, ou geram um fundo. Por outro lado, o framework HD-Painter é capaz de gerar os objetos claro com sucesso devido à implementação dos componentes PAIntA e RASG em sua arquitetura.

Pensamentos finais

Neste cláusula, falamos sobre o HD-Painter, uma abordagem de pintura de subida solução guiada por texto livre de treinamento que aborda os desafios enfrentados pelas estruturas de pintura existentes, incluindo negligência imediata e dominância de objetos próximos e de fundo. A estrutura HD-Painter implementa uma categoria Prompt Aware Introverted Attention ou PAIntA, que usa informações imediatas para melhorar as pontuações de autoatenção que, em última estudo, resulta em uma melhor geração de alinhamento de texto.

Para melhorar ainda mais a congruência do prompt, o padrão HD-Painter introduz uma abordagem Reweighting Attention Score Guidance ou RASG que integra uma estratégia de amostragem post-hoc na forma universal do componente DDIM perfeitamente para evitar mudanças latentes fora de distribuição. Aliás, a estrutura HD-Painter introduz uma técnica especializada de super-resolução personalizada para pintura interna que resulta na extensão para escalas maiores e permite que a estrutura HD-Painter complete as regiões ausentes na imagem com solução de até 2K.