Tech

Orientando a edição de imagens baseada em instruções por meio de modelos multimodais de grande linguagem

Ferramentas de design visual e modelos de linguagem de visão têm aplicações generalizadas na indústria multimídia. Apesar dos avanços significativos nos últimos anos, um conhecimento sólido dessas ferramentas ainda é necessário para o seu funcionamento. Para melhorar a acessibilidade e o controlo, a indústria multimédia está a escolher cada vez mais técnicas de edição de imagens guiadas por texto ou baseadas em instruções. Estas técnicas utilizam comandos de linguagem originário em vez de máscaras regionais tradicionais ou descrições elaboradas, permitindo uma manipulação de imagens mais maleável e controlada. No entanto, os métodos baseados em instruções geralmente fornecem instruções breves que podem ser um duelo para os modelos existentes capturarem e executarem totalmente. Aliás, os modelos de espalhamento, conhecidos pela sua capacidade de gerar imagens realistas, são muito procurados no setor de edição de imagens.

Aliás, os Modelos Multimodais de Grandes Linguagens (MLLMs) mostraram um desempenho impressionante em tarefas que envolvem geração de respostas com consciência visual e compreensão intermodal. MLLM Guided Image Editing (MGIE) é um estudo inspirado em MLLMs que avalia suas capacidades e analisa porquê eles suportam a edição por meio de texto ou instruções guiadas. Esta abordagem envolve aprender a fornecer orientação explícita e obter instruções expressivas. O padrão de edição MGIE compreende informações visuais e executa edições por meio de treinamento ponta a ponta. Neste item, nos aprofundaremos no MGIE, avaliando seu impacto na otimização global de imagens, modificações no estilo Photoshop e edição lugar. Também discutiremos a influência do MGIE em tarefas de edição de imagens baseadas em instruções que dependem de instruções expressivas. Vamos estrear nossa exploração.

Modelos multimodais de grandes linguagens e modelos de espalhamento são duas das estruturas de IA e ML mais amplamente utilizadas atualmente devido às suas notáveis ​​capacidades generativas. Por um lado, você tem modelos de espalhamento, mais conhecidos por produzir imagens altamente realistas e visualmente atraentes, enquanto, por outro lado, você tem modelos multimodais de grande linguagem, conhecidos por sua habilidade fabuloso na geração de uma ampla variedade de teor, incluindo texto, linguagem, fala e imagens/vídeos.

Os modelos de espalhamento trocam os mapas intermodais latentes para realizar manipulação visual que reflete a modificação da legenda do objetivo de ingressão, e também podem usar uma máscara guiada para editar uma região específica da imagem. Mas a principal razão pela qual os modelos de espalhamento são amplamente utilizados para aplicações multimídia é porque, em vez de depender de descrições elaboradas ou máscaras regionais, os modelos de espalhamento empregam abordagens de edição baseadas em instruções que permitem aos usuários expressar porquê editar a imagem diretamente usando instruções de texto ou comandos. . Seguindo em frente, os Grandes Modelos de Linguagem dispensam apresentações, uma vez que demonstraram avanços significativos em uma série de diversas tarefas linguísticas, incluindo resumo de texto, tradução automática, geração de texto e resposta a perguntas. Os LLMs geralmente são treinados em uma grande e diversificada quantidade de dados de treinamento que os equipam com originalidade e conhecimento visual, permitindo-lhes também realizar diversas tarefas de linguagem visual. Fundar-se em LLMs, MLLMs ou Modelos Multimodais de Grandes Linguagens pode usar imagens porquê entradas naturais e fornecer respostas visualmente conscientes apropriadas.

Dito isto, embora os modelos de espalhamento e as estruturas MLLM sejam amplamente utilizados para tarefas de edição de imagens, existem alguns problemas de orientação com instruções baseadas em texto que prejudicam o desempenho universal, resultando no desenvolvimento de MGIE ou MLLM Guided Image Editing, um sistema manteúdo por IA. estrutura que consiste em um padrão de espalhamento e um padrão MLLM conforme demonstrado na imagem a seguir.

Dentro da arquitetura MGIE, o padrão de espalhamento é treinado de ponta a ponta para realizar edição de imagens com imaginação latente do objetivo solicitado, enquanto a estrutura MLLM aprende a prever instruções expressivas precisas. Juntos, o padrão de espalhamento e a estrutura MLLM aproveitam a derivação visual inerente, permitindo abordar comandos humanos ambíguos, resultando em edição realista das imagens, conforme demonstrado na imagem a seguir.

O quadro MGIE inspira-se fortemente em duas abordagens existentes: Edição de imagens baseada em instruções e modelos de linguagem Vision Large.

A edição de imagens baseada em instruções pode melhorar significativamente a acessibilidade e a controlabilidade da manipulação visual, aderindo aos comandos humanos. Existem duas estruturas principais utilizadas para edição de imagens baseadas em instruções: estruturas GAN e modelos de espalhamento. GAN ou Redes Adversariais Generativas são capazes de mudar imagens, mas são limitadas a domínios específicos ou produzem resultados irrealistas. Por outro lado, modelos de espalhamento com treinamento em larga graduação podem controlar os mapas de atenção intermodais para mapas globais para obter edição e transformação de imagens. A edição baseada em instruções funciona recebendo comandos diretos porquê ingressão, muitas vezes não limitados a máscaras regionais e descrições elaboradas. No entanto, existe a verosimilhança de que as instruções fornecidas sejam ambíguas ou não sejam precisas o suficiente para seguir as instruções para tarefas de edição.

Os modelos de linguagem Vision Large são conhecidos por seus recursos de geração e generalização de texto em várias tarefas e geralmente têm uma compreensão textual robusta e podem produzir ainda mais programas executáveis ​​ou pseudocódigo. Essa capacidade de grandes modelos de linguagem permite que os MLLMs percebam imagens e forneçam respostas adequadas usando alinhamento de recursos visuais com ajuste de instrução, com modelos recentes adotando MLLMs para gerar imagens relacionadas ao chat ou ao texto de ingressão. No entanto, o que separa o MGIE dos MLLMs ou VLLMs é o vestuário de que, embora estes últimos possam produzir imagens distintas das entradas a partir do zero, o MGIE aproveita as habilidades dos MLLMs para aprimorar os recursos de edição de imagens com instruções derivadas.

MGIE: Arquitetura e Metodologia

Tradicionalmente, grandes modelos de linguagem têm sido usados ​​para tarefas generativas de processamento de linguagem originário. Mas desde que os MLLMs se tornaram populares, os LLMs foram capacitados com a capacidade de fornecer respostas razoáveis ​​ao perceber a ingressão de imagens. Convencionalmente, um padrão multimodal de linguagem grande é inicializado a partir de um LLM pré-treinado e contém um codificador visual e um adaptador para extrair os recursos visuais e projetar os recursos visuais na modalidade de linguagem, respectivamente. Devido a isso, a estrutura MLLM é capaz de perceber entradas visuais, embora a saída ainda esteja limitada ao texto.

A estrutura MGIE proposta visa resolver oriente problema e facilitar um MLLM para editar uma imagem de ingressão em uma imagem de saída com base na instrução textual fornecida. Para conseguir isso, a estrutura MGIE abriga um MLLM e treina para efluir instruções de texto expressivas concisas e explícitas. Aliás, a estrutura MGIE adiciona tokens de imagem especiais em sua arquitetura para preencher a vácuo entre a visão e a modalidade de linguagem, e adota o cabeçote de edição para a transformação das modalidades. Essas modalidades servem porquê imaginação visual latente do Padrão Multimodal de Grande Linguagem e orientam o padrão de espalhamento para realizar as tarefas de edição. A estrutura MGIE é logo capaz de realizar tarefas de percepção visual para edição razoável de imagens.

Instrução Expressiva Concisa

Tradicionalmente, os modelos multimodais de grandes linguagens podem oferecer respostas visuais com sua percepção intermodal devido ao ajuste de instruções e alinhamento de recursos. Para editar imagens, a estrutura MGIE usa um prompt textual porquê ingressão de linguagem principal com a imagem e deriva uma explicação detalhada para o comando de edição. No entanto, estas explicações podem muitas vezes ser excessivo longas ou envolver descrições repetitivas, resultando em intenções mal interpretadas, forçando o MGIE a infligir um resumidor pré-treinado para obter narrações sucintas, permitindo ao MLLM gerar resultados resumidos. A estrutura trata a orientação concisa, porém explícita, porquê uma instrução expressiva e aplica a perda de entropia cruzada para treinar o padrão multimodal de linguagem grande usando a emprego do professor.

Usar uma instrução expressiva fornece uma teoria mais concreta quando comparada à instrução de texto, pois preenche a vácuo para uma edição razoável de imagens, aumentando ainda mais a eficiência da estrutura. Aliás, a estrutura MGIE durante o período de inferência deriva instruções expressivas concisas em vez de produzir narrações longas e incumbir em resumos externos. Devido a isso, o framework MGIE consegue controlar a imaginação visual das intenções de edição, mas ainda está restringido à modalidade de linguagem. Para superar esse tropeço, o padrão MGIE anexa um patente número de tokens visuais em seguida a instrução expressiva com embeddings de palavras treináveis, permitindo que o MLLM os gere usando seu LM ou cabeçote de padrão de linguagem.

Edição de imagens com imaginação latente

Na próxima lanço, a estrutura MGIE adota o cabeçote de edição para transformar a instrução da imagem em orientação visual real. O cabeçote de edição é um padrão de sequência para sequência que ajuda a mapear os tokens visuais sequenciais do MLLM para o latente significativo semanticamente porquê sua orientação de edição. Para ser mais específico, a transformação sobre a vocábulo embeddings pode ser interpretada porquê representação universal na modalidade visual e usa um componente de imaginação visual com consciência de instância para as intenções de edição. Aliás, para orientar a edição de imagens com imaginação visual, a estrutura MGIE incorpora um padrão de espalhamento latente em sua arquitetura que inclui um autoencoder variacional e aborda a espalhamento de eliminação de soído no espaço latente. O objetivo principal do padrão de espalhamento latente é gerar o objetivo latente a partir da preservação da ingressão latente e seguir as orientações de edição. O processo de espalhamento adiciona soído ao objetivo latente em intervalos regulares de tempo e o nível de soído aumenta a cada passo de tempo.

Aprendizagem do MGIE

A figura a seguir resume o algoritmo do processo de aprendizagem do framework MGIE proposto.

Uma vez que pode ser observado, o MLLM aprende a efluir instruções expressivas concisas usando a perda de instrução. Usando a imaginação latente das instruções da imagem de ingressão, a estrutura transforma a modalidade do cabeçote de edição e orienta o padrão de espalhamento latente para sintetizar a imagem resultante e aplica a perda de edição para treinamento de espalhamento. Finalmente, a estrutura congela a maioria dos pesos, resultando em um treinamento ponta a ponta com eficiência de parâmetros.

MGIE: Resultados e Avaliação

A estrutura MGIE usa o conjunto de dados IPr2Pr porquê seus principais dados de pré-treinamento e contém mais de 1 milhão de dados filtrados por CLIP com instruções extraídas do padrão GPT-3 e um padrão Prompt-to-Prompt para sintetizar as imagens. Aliás, a estrutura MGIE trata a estrutura InsPix2Pix construída sobre o codificador de texto CLIP com um padrão de espalhamento porquê risca de base para tarefas de edição de imagens baseadas em instruções. Aliás, o padrão MGIE também leva em consideração um padrão de edição de imagens guiado por LLM, adotado para instruções expressivas a partir de entradas unicamente de instrução, mas sem percepção visual.

Estudo quantitativa

A figura a seguir resume os resultados da edição em uma feitio zero-shot com os modelos sendo treinados unicamente no conjunto de dados IPr2Pr. Para dados GIER e EVR que envolvem modificações no estilo Photoshop, as instruções expressivas podem revelar objetivos concretos em vez de comandos ambíguos que permitem que os resultados da edição se assemelhem melhor às intenções de edição.

Embora tanto o LGIE porquê o MGIE sejam treinados nos mesmos dados que o padrão InsPix2Pix, podem oferecer explicações detalhadas através da aprendizagem com o padrão de linguagem grande, mas ainda assim o LGIE está confinado a uma única modalidade. Aliás, a estrutura MGIE pode fornecer um aumento significativo de desempenho, pois tem aproximação a imagens e pode usar essas imagens para efluir instruções explícitas.

Para calcular o desempenho em tarefas de edição de imagens baseadas em instruções para fins específicos, os desenvolvedores ajustam vários modelos em cada conjunto de dados, conforme resumido na tábua a seguir.

Uma vez que pode ser observado, em seguida adequar as tarefas de edição estilo Photoshop para EVR e GIER, os modelos demonstram um aumento no desempenho. No entanto, vale a pena notar que, uma vez que o ajuste fino também torna as instruções expressivas mais específicas do domínio, a estrutura MGIE testemunha um enorme aumento no desempenho, uma vez que também aprende orientações relacionadas ao domínio, permitindo que o padrão de espalhamento demonstre cenas editadas concretas do padrão de linguagem grande ajustado, beneficiando tanto a modificação lugar quanto a otimização lugar. Aliás, uma vez que a orientação visual está mais alinhada com os objetivos de edição pretendidos, a estrutura MGIE oferece resultados superiores consistentemente quando comparado ao LGIE.

A figura a seguir demonstra a pontuação CLIP-S nas imagens de meta de ingressão ou verdade e instrução expressiva. Uma pontuação CLIP mais subida indica a relevância das instruções com a manadeira de edição e, porquê pode ser observado, o MGIE possui uma pontuação CLIP mais subida quando comparado ao padrão LGIE nas imagens de ingressão e de saída.

Resultados Qualitativos

A imagem a seguir resume perfeitamente a estudo qualitativa da estrutura MGIE.

Uma vez que sabemos, a estrutura LGIE está limitada a uma única modalidade, devido à qual possui uma visão única baseada em linguagem e é propensa a efluir explicações erradas ou irrelevantes para a edição da imagem. Porém, o framework MGIE é multimodal e, com aproximação a imagens, completa as tarefas de edição e fornece imaginação visual explícita que se alinha muito muito com o objetivo.

Pensamentos finais

Neste item, falamos sobre MGIE ou MLLM Guided Image Editing, um estudo inspirado no MLLM que visa calcular modelos multimodais de grandes linguagens e indagar porquê eles facilitam a edição usando texto ou instruções guiadas enquanto aprende porquê fornecer orientação explícita derivando instruções expressivas simultaneamente. O padrão de edição MGIE tomada a informação visual e realiza edição ou manipulação usando treinamento ponta a ponta. Em vez de orientações ambíguas e breves, a estrutura MGIE produz instruções explícitas com reconhecimento visual que resultam em uma edição de imagem razoável.

Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button