Tech

LLaVA-UHD: um LMM que percebe qualquer proporção de aspecto e imagens de alta resolução

O recente progresso e avanço dos Grandes Modelos de Linguagem experimentou um aumento significativo nas capacidades de raciocínio, compreensão e interação da visão-linguagem. As estruturas modernas conseguem isso projetando sinais visuais em LLMs ou Grandes Modelos de Linguagem para permitir sua capacidade de perceber o mundo visualmente, uma série de cenários onde as estratégias de codificação visible desempenham um papel essential. No entanto, as imagens do mundo actual não contêm apenas uma ampla gama de cenários, mas também variam significativamente em termos de resoluções e proporções, representando desafios significativos para LLMs em diferentes domínios e tarefas. Para lidar com a variação significativa apresentada pelas imagens do mundo actual, os modelos modernos de grandes linguagens percebem imagens em baixa resolução, ou seja, 224×224, e em uma proporção fixa, ou seja, 1:1. Embora o compromisso de manter a baixa resolução e a proporção fixa aumente a generalização do LLM em aplicações do mundo actual, muitas vezes ele desfoca significativamente o conteúdo da imagem, ao mesmo tempo que resulta em grave distorção de forma. O compromisso impacta significativamente as habilidades dos grandes modelos multimodais ou LMMs, especialmente aqueles otimizados para tarefas refinadas, incluindo reconhecimento óptico de caracteres e compreensão de pequenos objetos. Além disso, uma vez que a resolução e a proporção são pré-determinadas, os modelos só podem fazer as melhores suposições para as imagens desfocadas, resultando em alucinações do modelo, uma situação sob a qual o modelo produz respostas textuais que não são fundamentadas factualmente nas imagens.

Neste artigo, falaremos sobre LLaVA-UHD, uma nova abordagem que primeiro toma as estruturas LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em sua estratégia de codificação visible. A estrutura LLaVA-UHD, um modal multimodal, é uma tentativa de enfrentar os desafios. A estrutura LLaVA-UHD pode perceber imagens em alta resolução, bem como em qualquer proporção. A estrutura LLaVA-UHD é construída em torno de três componentes principais. Primeiro, uma estratégia de modularização de imagens que divide imagens de resolução nativa em fatias menores de tamanho variável, na tentativa de aumentar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa ainda mais os tokens de imagem produzidos por codificadores visuais. Finalmente, um esquema espacial que organiza tokens de fatia para os grandes modelos de linguagem. Experimentos abrangentes indicam que a estrutura LLaVA-UHD é capaz de superar modelos de linguagem de grande porte de última geração em 9 benchmarks. Além disso, usando apenas 94% de computação de inferência, a estrutura LLaVA-UHD é capaz de suportar imagens com resolução 6 vezes maior, ou seja, 672×1088.

O raciocínio, a compreensão e a interação Visão-Linguagem têm feito progressos significativos ultimamente, em grande parte devido ao recente impulso para Grandes Modelos de Linguagem. Em estruturas modernas, o mesmo é conseguido alimentando sinais visuais em LLMs (Giant Language Fashions) para torná-los capazes de interpretar visualmente o mundo actual, uma gama diversificada de cenários que dependem de estratégias de codificação visible. A diferença de cenário reflete uma cobertura estreita de LLMs em diferentes domínios e tarefas, enquanto a diferença nas resoluções e proporções revela as grandes variações intraclasse nas imagens do mundo actual que são difíceis de manusear. Ao contrário da pequena escala que reduz a variância, os modelos após o BERT abordam a importância da baixa resolução (por exemplo, para o LLaVA-UHD é 224×224) de imagens com uma proporção fixa, 1:1 para fornecer imagens do mundo actual. Embora este compromisso seja útil para garantir a generalização do LLM para aplicações do mundo actual, muitas vezes leva a imagens muito desfocadas, ao mesmo tempo que promove severa distorção de forma. Isso reduz as capacidades dos grandes modelos multimodais ou LMMs (por exemplo, tarefas refinadas), como reconhecimento óptico de caracteres e compreensão de pequenos objetos. Como a resolução e a proporção são pré-definidas, os modelos só conseguem adivinhar as imagens borradas, levando à alucinação do modelo, fazendo com que as respostas textuais finais geradas não sejam fundamentadas factualmente nas imagens. Então, por que os modelos LMMs de benchmark não percebem imagens em altas resoluções e proporções variadas?

Existem duas razões principais pelas quais os LMMs de benchmark são incapazes de perceber imagens com alta resolução e resolução variada. Primeiro, como os codificadores visuais são pré-treinados em resoluções fixas, fica difícil para o modelo e o codificador lidar com imagens com proporções e resoluções variadas, impactando significativamente a adaptabilidade do modelo. Em segundo lugar, a codificação direta de imagens de alta resolução usando transformadores de visão está associada a custos computacionais significativos em relação ao tamanho das imagens. Além disso, os custos de computação podem ser significativamente mais elevados para o modelo de linguagem grande processar um grande número de tokens visuais para imagens de alta resolução, impactando significativamente a eficiência geral do modelo. Para enfrentar esses desafios, o LLaVA-UHD, um grande modelo multimodal que percebe imagens de alta resolução e qualquer proporção de aspecto, toma as estruturas LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em seu visible. estratégia de codificação.

A imagem acima reflete os resultados experimentais do GPT-4V na identificação do número de objetos em uma imagem. Basicamente, a estrutura LLaVA-UHD possui três componentes. Primeiro, uma estratégia de modularização de imagens que divide imagens de resolução nativa em fatias menores de tamanho variável para codificação extensível e eficiente. Ao contrário dos LLMs recentes que ajustam imagens em diversas resoluções e proporções fixas, as fatias de tamanho variável geradas pela estrutura LLaVA-UHD permitem whole adaptabilidade às imagens de resolução nativa sem distorcer formas, redimensionar ou preencher. Em segundo lugar, o modelo condensa os tokens visuais por uma camada de compressão em um comprimento modesto, resultando na redução significativa do cálculo para LLMs. Finalmente, o modelo organiza os tokens de fatia compactados em um esquema espacial para informar as posições das fatias nas imagens ao modelo de linguagem grande.

LLaVA-UHD: Metodologia e Arquitetura

Com base nos aprendizados de alguns experimentos piloto para estudar estruturas existentes, incluindo GPT-4V e LLaVA-1.5, a estrutura LLaVA-UHD implementa uma arquitetura de três componentes, conforme demonstrado na imagem a seguir.

2

Primeiro, uma estratégia de modularização de imagens que divide imagens de resolução nativa em fatias menores de tamanho variável, na tentativa de aumentar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa ainda mais os tokens de imagem produzidos por codificadores visuais. Finalmente, um esquema espacial que organiza tokens de fatia para os grandes modelos de linguagem. Vamos dar uma olhada detalhada nesses componentes.

Codificação Visible Modularizada

Uma abordagem comum para lidar com imagens de alta resolução com diferentes proporções é interpolar os embeddings de posição do Imaginative and prescient Transformer ou ViT no formato alvo para codificação direta como um todo. No entanto, a implementação desta abordagem é muitas vezes acompanhada de elevados custos de computação e problemas de falta de distribuição resultam numa degradação adicional do desempenho. Para enfrentar esse desafio, a estrutura LLaVA-UHD apresenta uma estratégia de codificação visible modularizada que basicamente visa dividir imagens de resolução nativa em fatias menores de tamanho variável, onde o formato de cada fatia é bastante próximo da configuração padrão de pré-treinamento do transformador de visão. . Devido ao uso de fatias de tamanho variável, a estrutura LLaVA-UHD é capaz de alcançar whole adaptabilidade a imagens de resolução nativa sem implementar qualquer remodelagem ou preenchimento que distorça a forma. Além disso, o objetivo principal da estratégia de fatiamento de imagem é determinar uma divisão de imagens de alta resolução com alterações mínimas nas resoluções de cada fatia. Para uma determinada imagem com uma determinada resolução (w,h), e um transformador de visão pré-treinado em outra resolução, a estrutura LLaVA-UHD determina primeiro o cálculo supreme, ou seja, o número de fatias necessárias para processar a imagem. A estrutura então fatora o número de fatias em m colunas en linhas. A estrutura então outline uma função de pontuação para medir o desvio da configuração padrão de pré-treinamento do transformador de visão. Teoricamente, a estrutura LLaVA-UHD é capaz de demonstrar que a estratégia de partição implementada em sua arquitetura garante pequenas alterações esperadas e alterações modestas no pior caso em relação à resolução padrão de pré-treinamento para cada fatia.

Além disso, a maioria dos LLMs existentes implementam uma resolução estática para codificação de fatias de imagem, uma abordagem que impede a complete adaptabilidade do modelo a resoluções nativas, uma vez que têm acesso apenas a várias fatias de formato fixo predefinidas. Além disso, a resolução estática da fatia prejudica o desempenho, a eficiência e a exatidão do modelo, uma vez que incorre inevitavelmente em redimensionamento ou preenchimento com distorção de forma. Para resolver esse problema, a estrutura LLaVA-UHD propõe codificar fatias de imagem na proporção definida pela estratégia de partição. Para ser mais específico, a estrutura LLaVA-UHD primeiro redimensiona a imagem unique proporcionalmente de acordo com a proporção de aspecto, de forma que o número de patches se ajuste ao orçamento de pré-treinamento, ou seja, o número de sequências de incorporação de posição no transformador de visão, no máximo . O modelo LLaVA-UHD então remodela a sequência de incorporação de posição 1D pré-treinada do transformador de visão em um formato 2D de acordo com suas configurações de pré-treinamento.

Camada de compressão

Um problema comum que os LLMs enfrentam ao processar imagens de alta resolução é que a quantidade de tokens visuais que eles precisam processar é significativamente maior (para referência, a estrutura LLaVA-1.5 produz cerca de 3.500 tokens visuais ao processar uma única imagem com resolução: 672×1008 ), representando a maior parte dos recursos e custos computacionais. Para enfrentar esse desafio, o modelo LLaVA-UHD implementa uma camada de reamostrador de percepção compartilhada para compactar os tokens visuais de cada fatia da imagem. O modelo então implementa um conjunto de vetores de consulta por meio de atenção cruzada para reamostrar a saída dos tokens de imagem pelos codificadores visuais para um número menor. Quando comparada com estratégias predominantes de projeção visible baseadas em Multilayer Perceptron, a abordagem de amostra de percepção implementada pelo LLaVA-UHD é capaz de manter um número acessível, porém fixo, de tokens visuais, independentemente de sua resolução de imagem, tornando a estrutura LLaVA-UHD mais compatível com alta- tarefas de processamento e compreensão de imagens de resolução. Para colocar isso em cena, a estrutura LLaVA-UDH gera a mesma quantidade de tokens ao codificar uma imagem com resolução de 672×1008 que a estrutura LLaVA-1.5 gera ao codificar uma imagem com resolução de 336×336, quase 6 vezes mais eficaz que seu concorrente.

Esquema espacial para fatias de imagem

É uma prática necessária informar o modelo de linguagem grande das organizações espaciais das fatias de imagem, uma vez que o particionamento de imagens é dinâmico entre diferentes imagens. A estrutura LLaVA-UHD projeta e implementa um esquema espacial que usa dois tokens especiais para informar ao LLM a posição relativa das fatias da imagem. Sob este esquema espacial, a estrutura LLaVA-UHD usa “,” para separar as representações de fatia em uma linha, e as diferentes linhas são separadas usando um “n”.

LLaVA-UDH: Experimentos e Resultados

A estrutura LLaVA-UHD é avaliada em relação a 9 benchmarks populares, incluindo benchmarks gerais de resposta a perguntas visuais, benchmarks de resposta a perguntas visuais baseados em caracteres ópticos, benchmark de alucinação e benchmarks abrangentes. Além disso, a estrutura LLaVA-UHD é comparada com linhas de base sólidas, incluindo LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 e muito mais.

O desempenho da estrutura LLaVA-UHD em 9 benchmarks populares é resumido e comparado com benchmarks populares na tabela abaixo.

3

Com base no desempenho acima, pode-se concluir que a estrutura LLaVA-UHD é capaz de superar modelos de linha de base fortes em benchmarks populares, incluindo linhas de base gerais fortes treinadas em uma quantidade significativamente maior de dados, juntamente com LLMs de desempenho superior que precisam de muito mais computação como Fuyu-8B, Monkey e muito mais. Em segundo lugar, os resultados também indicam que a estrutura LLaVA-UHD alcança resultados significativamente melhores em relação à arquitetura LLaVA-1.5 e, por um lado, onde LLaVA-1.5 suporta uma resolução fixa de 336×336, a estrutura LLaVA-UHD suporta imagens com resolução de 672×1088. com qualquer proporção e o mesmo número de tokens visuais.

4 5

Pensamentos finais

Neste artigo falamos sobre LLaVA-UHD, uma nova abordagem que primeiro toma as estruturas LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em sua estratégia de codificação visible. A estrutura LLaVA-UHD, um modal multimodal, é uma tentativa de enfrentar os desafios. A estrutura LLaVA-UHD pode perceber imagens em alta resolução, bem como em qualquer proporção. A estrutura LLaVA-UHD é construída em torno de três componentes principais. Primeiro, uma estratégia de modularização de imagens que divide imagens de resolução nativa em fatias menores de tamanho variável, na tentativa de aumentar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa ainda mais os tokens de imagem produzidos por codificadores visuais. Finalmente, um esquema espacial que organiza tokens de fatia para os grandes modelos de linguagem. Experimentos abrangentes indicam que a estrutura LLaVA-UHD é capaz de superar modelos de linguagem de grande porte de última geração em 9 benchmarks. Além disso, usando apenas 94% de computação de inferência, a estrutura LLaVA-UHD é capaz de suportar imagens com resolução 6 vezes maior, ou seja, 672×1088.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button