SHOW-O: Um único transformador que une compreensão e geração multimodal

Avanços significativos em grandes modelos de linguagem (LLMs) inspiraram o desenvolvimento de modelos multimodais de grandes linguagens (MLLMs). Os primeiros esforços de MLLM, como LLaVA, MiniGPT-4 e InstructBLIP, demonstram capacidades notáveis de compreensão multimodal. Para integrar LLMs em domínios multimodais, esses estudos exploraram recursos de projeção de um codificador específico de modalidade pré-treinado, como o CLIP, no espaço de entrada de LLMs, permitindo compreensão e raciocínio multimodal dentro do spine do transformador. Embora existam várias opções de design para MLLMs, como codificadores de visão, adaptadores de alinhamento de recursos e conjuntos de dados, o treinamento para a maioria desses modelos segue o paradigma de geração autoregressiva, que se mostrou eficaz para geração de texto em LLMs. Apesar das suas fortes capacidades de compreensão multimodal, estes modelos centram-se principalmente na percepção visible e não têm a capacidade de gerar resultados multimodais para além do texto.

Os modelos de transformadores demonstraram grande sucesso na modelagem autorregressiva no processamento de linguagem pure. Inspirados por esse progresso, estudos anteriores aplicaram diretamente a mesma modelagem autoregressiva para aprender a dependência dos pixels da imagem para geração de imagens e vídeos. Por exemplo, VideoPoet emprega uma arquitetura de transformador somente decodificador para sintetizar vídeos de alta qualidade a partir de entradas multimodais. Mais recentemente, o LlamaGen mostrou que uma arquitetura de modelo de linguagem grande como o Llama pode modelar tokens de imagem de forma autorregressiva, alcançando um desempenho decente na geração de imagens condicionais de classe.

Neste artigo discutiremos o Present-O, um transformador unificado que integra compreensão e geração multimodal. Ao contrário dos modelos totalmente autorregressivos, o Present-O unifica a modelagem de difusão autorregressiva e discreta para lidar de forma adaptativa com entradas e saídas de modalidades diversas e mistas. O modelo unificado oferece suporte flexível a uma ampla gama de tarefas de linguagem de visão, incluindo resposta visible a perguntas, geração de texto para imagem, pintura/extrapolação guiada por texto e geração de modalidade mista. Em vários benchmarks, o Present-O demonstra desempenho comparável ou superior aos modelos individuais existentes com um número equivalente ou maior de parâmetros, destacando seu potencial como modelo básico de próxima geração.

Nesta estrutura, o modelo tem a tarefa de prever o ruído gaussiano adicionado às representações latentes contínuas. Em contraste, outros modelos como D3PM, Masks-predict, ARDM e MaskGIT usam um processo de corrupção discreto como alternativa à difusão gaussiana. Especificamente, uma imagem é representada como uma sequência de tokens discretos usando tokenizadores de imagem, com cada token associado a um rótulo categórico. A distribuição token-wise é transformada em uma distribuição uniforme através de um processo de amostragem estocástica. Durante o treinamento, uma parte desses tokens é mascarada aleatoriamente e o modelo é treinado para prever os valores originais dos tokens mascarados. Neste trabalho, Present-O adota modelagem de difusão discreta para geração visible.

Nos últimos anos, surgiram avanços significativos nos dois pilares principais da inteligência multimodal: compreensão e geração. Para compreensão multimodal, Modelos Multimodais de Grandes Linguagens (MLLMs)) como o LLaVA demonstraram capacidades excepcionais em tarefas de linguagem visible, como resposta visible a perguntas (VQA). Para a geração visible, os modelos probabilísticos de difusão com eliminação de ruído (DDPMs) revolucionaram os paradigmas generativos tradicionais, alcançando um desempenho sem precedentes na geração de texto para imagem/vídeo.

Dadas estas conquistas em campos individuais, é pure explorar o potencial de conectá-los. Trabalhos recentes tentaram reunir modelos especialistas desses dois domínios diferentes para formar um sistema unificado que pudesse lidar tanto com a compreensão quanto com a geração multimodal. Contudo, as tentativas existentes envolvem frequentemente modelos separados de compreensão e geração. Por exemplo, NExT-GPT emprega um modelo de linguagem base para compreensão multimodal, mas requer um modelo de difusão pré-treinado adicional para geração de imagens. Isto levanta a questão: um único transformador pode lidar tanto com a compreensão quanto com a geração multimodal?

Recentemente, Chameleon demonstrou que isso é possível. Especificamente, o Chameleon permite a fusão de diferentes modalidades para gerar tokens de texto e imagem por meio de modelagem autorregressiva. Embora faça sentido modelar tokens de texto de forma autorregressiva, é menos claro se a modelagem de fragmentos de imagem ou pixels da mesma maneira é ideally suited. Um gargalo importante na previsão autorregressiva de uma imagem é o grande número de etapas de amostragem necessárias, especialmente quando se trata de imagens de resolução mais alta. Os modelos de difusão contínua têm apresentado desempenho superior na geração visible em comparação aos autorregressivos.

Isso nos leva a explorar se um único transformador pode integrar modelagem autoregressiva e de difusão. Present-O prevê um novo paradigma onde o texto é representado como tokens discretos e modelado autoregressivamente, enquanto pixels de imagem contínuos são modelados usando difusão de eliminação de ruído. No entanto, integrar estas duas técnicas distintas em uma única rede não é trivial devido às diferenças entre tokens de texto discretos e representações de imagens contínuas. Além disso, os modelos de difusão normalmente dependem de dois modelos distintos: um codificador de texto e uma rede de eliminação de ruído.

Para resolver isso, Present-O apresenta um novo modelo unificado capaz de lidar com tarefas de compreensão e geração multimodais usando modelagem mista autorregressiva e de difusão. Present-O é baseado em um LLM pré-treinado e aproveita seus recursos de modelagem autoregressiva para raciocínio baseado em texto. Inspirado em outros trabalhos, Present-O emprega difusão discreta de eliminação de ruído para modelar tokens de imagem em vez de representações contínuas. Além disso, Present-O codifica inerentemente informações condicionais de texto, eliminando a necessidade de codificadores de texto adicionais. Ao utilizar tokenizadores de texto e imagem, o Present-O pode processar diversos dados de entrada e tarefas, fornecendo respostas autorregressivamente para tarefas de linguagem de visão e gerando imagens usando difusão discreta de eliminação de ruído.

Present-O demonstra desempenho comparável e, em alguns casos, melhor do que modelos individuais com um número equivalente ou maior de parâmetros em vários benchmarks. Ao contrário da geração de imagens autorregressiva, a estrutura Present-O requer cerca de 20 vezes menos etapas de amostragem, tornando-a inerentemente mais rápida. Além disso, a estrutura Present-O oferece suporte a aplicativos downstream, como pintura e extrapolação guiada por texto, sem exigir ajuste fino, conforme demonstrado na imagem a seguir.

Present-O também tem potencial para geração de modalidade mista, como geração de quadros-chave de vídeo intercalados com descrições de texto, mostrando-se promissor para geração de vídeo de formato longo. Além disso, a estrutura Present-O investiga o impacto das representações de imagens discretas e contínuas na compreensão multimodal, oferecendo insights para futuros projetos de modelos unificados.

A figura a seguir apresenta uma comparação das características do modelo entre a estrutura Present-O e os métodos existentes em vários domínios. Present-O destaca-se como um modelo unificado que integra técnicas avançadas tanto para compreensão quanto para geração multimodal.

Em resumo, as principais contribuições deste artigo são as seguintes:

Present-O é um modelo unificado que integra compreensão e geração multimodal usando um único transformador.
Present-O unifica modelagem de difusão autorregressiva e discreta dentro de um transformador, lidando com texto e imagens de maneira eficaz.
A estrutura Present-O supera ou corresponde a modelos de linha de base individuais com parâmetros equivalentes ou maiores em benchmarks de compreensão e geração multimodais.
Present-O oferece suporte a aplicativos downstream como pintura e extrapolação baseada em texto sem ajuste fino e demonstra potencial para geração de modalidade mista.
Present-O explora o impacto de diferentes tipos de representaçõesfornecendo informações valiosas para melhorar a compreensão multimodal em modelos unificados.

Nos últimos anos, um número crescente de estudos tem se concentrado em modelos de linguagem multimodais unificados, capazes tanto de compreensão quanto de geração. Alguns esforços usam representações contínuas intercaladas com tokens de texto para modelagem autorregressiva para gerar imagens. SEED-X propõe um sistema de base unificado e versátil, capaz de lidar com tarefas de compreensão e geração multimodais. Nesta abordagem, representações de imagem contínuas do codificador CLIP ViT são combinadas com tokens de texto e alimentadas em um modelo de linguagem grande (LLM) para realizar previsão da próxima palavra e regressão de representação de imagem. Chameleon apresenta uma família de modelos modais mistos baseados em tokens, capazes de compreender e gerar imagens. Esta abordagem representa todas as modalidades como tokens discretos, utilizando uma arquitetura unificada baseada em transformador e treinando o modelo do zero de ponta a ponta. Em comparação, Present-O também adota tokens discretos para representar todas as modalidades, mas utiliza um processo de difusão discreta em vez de modelagem autorregressiva para geração visible.

SHOW-O: Metodologia e Arquitetura

O objetivo principal por trás da estrutura Present-O é desenvolver um modelo unificado que integre modelagem autoregressiva e de difusão para compreensão e geração multimodal conjunta. O desenvolvimento de um modelo unificado apresenta desafios significativos, com questões centrais girando em torno de: i) definir o espaço de entradas/saídas do modelo; ii) unificar vários tipos de dados de entrada de diferentes modalidades; iii) integração de modelagem autoregressiva e de difusão em um único transformador; e iv) treinar efetivamente esse modelo unificado.

Present-O aborda esses desafios com as seguintes soluções:

Present-O constrói o espaço de entrada/saída tokenizando dados de texto e imagem em tokens discretos.
Present-O apresenta sua arquitetura padrão e uma estratégia de immediate unificada para estruturar dados e modalidades de entrada.
Present-O demonstra como incorporar modelagem autoregressiva e de difusão em um único transformador.
Present-O apresenta um pipeline de treinamento em três estágios para treinar com eficácia o modelo unificado.

Tokenização

Dado que o Present-O proposto é construído sobre LLMs pré-treinadosé pure realizar aprendizagem unificada no espaço discreto. Ao manter um vocabulário unificado que inclui tokens discretos de texto e imagem, o Present-O tem a tarefa do mesmo objetivo de aprendizagem: prever tokens discretos.

Tokenização de texto

Present-O é baseado em um LLM pré-treinado e o mesmo tokenizer é usado para tokenização de dados de texto sem quaisquer modificações.

Tokenização de imagem

Seguindo o MAGVIT-v2, o Present-O treina um quantizador sem pesquisa usando cerca de 35 milhões de dados de imagem. O quantizador mantém um livro de códigos de tamanho 8.192 e codifica imagens com resolução de 256×256 em tokens discretos de 16×16. O MAGVIT-v2 foi escolhido por sua facilidade de ajuste fino, tornando-o adequado como um tokenizador de vídeo com capacidade de compressão temporal, um aspecto que o Present-O planeja explorar no futuro. Uma abordagem alternativa é usar tokenizadores diferentes para compreensão e geração, respectivamente. Inspirado em estudos existentes, o Present-O também extrai representações de imagens contínuas dos codificadores MAGVIT-v2 e CLIP-ViT pré-treinados para explorar melhorias nos recursos de compreensão multimodal. Nas seções a seguir, o Present-O padrão emprega tokens de imagem discretos como contribuição para compreensão e geração multimodal. Para simplificar, as seções de metodologia irão elaborar apenas o Present-O padrão.

Arquitetura

Present-O herda a arquitetura de LLMs existentes sem quaisquer modificações de arquitetura, exceto para anexar uma operação QK-Norm a cada camada de atenção. Present-O é inicializado com os pesos de um LLM pré-treinado e expande o tamanho da camada de incorporação incorporando 8.192 novos embeddings que podem ser aprendidos para tokens de imagem discretos. Ao contrário dos modelos de difusão de última geração que requerem um codificador de texto adicional, o Present-O codifica inerentemente informações condicionais de texto para geração de texto para imagem.

Solicitação unificada

Para realizar o aprendizado unificado na compreensão e geração multimodal, o Present-O utiliza uma estratégia de immediate unificada para formatar vários tipos de dados de entrada. Dado um par imagem-texto (x, y), ele é primeiro tokenizado em M tokens de imagem e N tokens de texto pelos tokenizadores de imagem e texto, respectivamente. Os tokens são então formados em uma sequência de entrada de acordo com o tipo de tarefa, conforme ilustrado na figura a seguir.

Ao empregar esse design rápido, o Present-O pode codificar efetivamente vários dados de entrada para compreensão multimodal, geração de texto para imagem e geração de modalidade mista como dados sequenciais. Essa configuração permite que o aprendizado unificado opere perfeitamente em sequências para essas diversas tarefas. Uma vez treinado, o Present-O pode ser solicitado a lidar com uma ampla gama de tarefas de linguagem visible, incluindo resposta visible a perguntas e geração de texto para imagem.

Mecanismo de Omni-Atenção

Ao contrário dos trabalhos existentes que modelam sequências apenas autoregressivamente, Present-O introduz um mecanismo de omni-atenção, permitindo modelar vários tipos de sinais de maneiras distintas. Este mecanismo de atenção abrangente alterna adaptativamente entre atenção causal e completa com base no formato da sequência de entrada. A figura a seguir ilustra exemplos de omniatenção para diferentes sequências de entrada.

Especificamente, o Present-O processa tokens de texto dentro da sequência por meio de atenção causal, enquanto os tokens de imagem são tratados com atenção complete, permitindo que cada token interaja de forma abrangente com todos os outros. Na compreensão multimodal, os tokens de texto podem atender a todos os tokens de imagem anteriores, enquanto na geração de texto para imagem, os tokens de imagem podem interagir com todos os tokens de texto anteriores. Omni-atenção retém o conhecimento de raciocínio de texto do LLM pré-treinado e aumenta a eficiência da geração de imagens, reduzindo as etapas de amostragem. Além disso, suporta diversas aplicações posteriores, como pintura interna e extrapolação, sem necessidade de ajuste fino. Quando recebem apenas tokens de texto, o mecanismo assume como padrão a atenção causal.

SHOW-O: Experimentos e Resultados

A tabela a seguir apresenta a capacidade de compreensão multimodal do Present-O em benchmarks públicos, como legendagem de imagens e tarefas visuais de resposta a perguntas.

A versão atual do Present-O é baseada no Phi-1.5 e, portanto, a contraparte apenas de compreensão do Present-O, LLaVA-v1.5-Phi-1.5, serve como linha de base direta. Present-O exibe desempenho comparável em todas as métricas de avaliação ao LLaVA-v1.5-Phi-1.5 de linha de base, que é dedicado exclusivamente à compreensão multimodal. Isto demonstra o grande potencial da estrutura Present-O para unificar a compreensão e geração multimodal dentro de um único transformador. Quando comparado a modelos apenas de compreensão, como InstructBLIP, Qwen-VL-Chat e mPLUG-Owl2, Present-O, apesar de ter um tamanho de modelo muito menor, alcança desempenho competitivo nos benchmarks POPE, MME, Flickr30k e VQAv2, e executa melhor no benchmark GQA. Quando comparado a modelos unificados com significativamente mais parâmetros, como NExT-GPT-13B e Chameleon-34B, o Present-O também alcança forte desempenho no benchmark Flickr30k e tem um desempenho muito melhor no benchmark VQAv2.

Dados estes resultados promissores, o Present-O é visto como um potencial modelo de base da próxima geração para unificar a compreensão e a geração. Esses resultados também demonstram o potencial de dimensionar o Present-O para alcançar um desempenho de última geração.

Comparações qualitativas

Apresentamos comparações qualitativas com modelos baseados em difusão, como SDv1.5, SDXL e o modelo autoregressivo LlamaGen, juntamente com modelos unificados como LWM e SEED-X, conforme demonstrado na figura a seguir.

Present-O demonstra a capacidade de gerar imagens realistas com conteúdo consistente descrito em prompts de texto curtos e longos. Comparado ao SDv1.5 e ao LlamaGen, o Present-O apresenta melhor qualidade visible e alinhamento imagem-texto mais forte. Por exemplo, na segunda coluna, tanto SDv1.5 quanto LlamaGen não conseguem compreender totalmente o immediate de texto e perdem atributos como “pôr do sol” e “cúpulas azuis” nas imagens geradas. Em comparação com o SDXL, o Present-O oferece qualidade visible e alinhamento comparáveis, como visto em exemplos como “uma corrida de carros de rally” e “contraste impressionante contra o pôr do sol vibrante”.

Pintura e extrapolação guiada por texto

Present-O suporta naturalmente pintura e extrapolação baseadas em texto sem exigir qualquer ajuste fino. A figura a seguir ilustra vários exemplos.

No topo da figura, com uma imagem de entrada e uma máscara de pintura, o Present-O pode transformar um bonde vermelho em um carro esporte azul com curvas elegantes e vidros escuros com base em um immediate de texto fornecido pelo usuário. Present-O também pode extrapolar a imagem unique horizontal ou verticalmente com base no immediate de texto fornecido. Por exemplo, na segunda linha, Present-O extrapola uma imagem adicionando novos objetos, como “flores silvestres vermelhas”. Os pixels nas regiões pintadas e extrapoladas permanecem consistentes com a imagem unique. Esses exemplos demonstram claramente as vantagens inerentes do Present-O sobre os modelos autoregressivos para aplicações downstream.

Considerações Finais

Neste artigo falamos sobre o Present-O, um transformador unificado que integra compreensão e geração multimodal. Ao contrário dos modelos totalmente autorregressivos, o Present-O unifica a modelagem de difusão autorregressiva e discreta para lidar de forma adaptativa com entradas e saídas de modalidades diversas e mistas. O modelo unificado oferece suporte flexível a uma ampla gama de tarefas de linguagem de visão, incluindo resposta visible a perguntas, geração de texto para imagem, pintura/extrapolação guiada por texto e geração de modalidade mista. Em vários benchmarks, o Present-O demonstra desempenho comparável ou superior aos modelos individuais existentes com um número equivalente ou maior de parâmetros, destacando seu potencial como modelo básico de próxima geração. Nesta estrutura, o modelo tem a tarefa de prever o ruído gaussiano adicionado às representações latentes contínuas. Em contraste, outros modelos como D3PM, Masks-predict, ARDM e MaskGIT usam um processo de corrupção discreto como alternativa à difusão gaussiana. Present-O é o primeiro a unificar modelagem de difusão autorregressiva e discreta, permitindo lidar com diferentes modalidades de maneiras distintas. Extensos resultados experimentais demonstram que o Present-O é comparável, ou até melhor, do que modelos especialistas individuais em uma ampla gama de tarefas de linguagem visible. Isto destaca o seu potencial como modelo de base da próxima geração.

join the future newsletter Unite AI Mobile Newsletter 1