Tech

MoE-LLaVA: Mistura de especialistas para grandes modelos de linguagem visual

Avanços recentes em modelos de linguagem de visão ampla (LVLMs) mostraram que o dimensionamento dessas estruturas aumenta significativamente o desempenho em uma variedade de tarefas posteriores. LVLMs, incluindo MiniGPT, LLaMA e outros, alcançaram capacidades notáveis ​​ao incorporar camadas de projeção visible e um codificador de imagem em sua arquitetura. Ao implementar esses componentes, os LVLMs aprimoram as capacidades de percepção visible dos Massive Language Fashions (LLMs). O desempenho pode ser melhorado aumentando o tamanho e o número de parâmetros do modelo, bem como expandindo a escala do conjunto de dados.

Modelos como o InternVL expandiram seu codificador de imagem para mais de 6 bilhões de parâmetros, enquanto outros ampliaram o backend de LVLMs para 13 bilhões de parâmetros, alcançando desempenho superior em uma ampla gama de tarefas. IDEFICS treinou um LVLM com mais de 80 bilhões de parâmetros. Esses métodos de escalonamento igualaram ou excederam o desempenho de LLMs pré-treinados em mais de 34, 70 ou até 100 bilhões de parâmetros. No entanto, o dimensionamento tem uma desvantagem: aumenta significativamente os custos de formação e inferência. Isso porque exige que todos os parâmetros estejam ativos para cada token em cálculo, acarretando em altas necessidades computacionais e, consequentemente, em maiores custos.

Este artigo discute MoE-LLaVA, uma arquitetura LVLM esparsa baseada em Combination of Specialists (MoE) que emprega uma estratégia de treinamento eficaz, MoE-Tuning, para LVLMs. O MoE-Tuning aborda de forma inovadora a degradação do desempenho na aprendizagem de dispersão multimodal, resultando em um modelo com um grande número de parâmetros, mas custos consistentes de treinamento e inferência. A arquitetura MoE-LLaVA foi projetada para ativar apenas os principais especialistas durante a implantação, mantendo o restante inativo.

Nosso objetivo é explorar minuciosamente a estrutura MoE-LLaVA, examinando seu mecanismo, metodologia, arquitetura e como ela se compara às principais estruturas de geração de imagens e vídeos. Vamos nos aprofundar nos detalhes.

Além de aproveitar camadas de projeção visible e codificadores de imagem, os Massive Imaginative and prescient Language Fashions também aumentam o tamanho do modelo, aumentando o número de parâmetros para melhorar o desempenho do modelo. Alguns exemplos notáveis ​​de modelos de linguagem de visão ampla que seguiram essa abordagem para melhorar seu desempenho são MiniGPT-4, InternGPT, InternVL e outros. Em aplicações do mundo actual, dimensionar um modelo de linguagem grande ou um modelo de linguagem de visão grande com dados de treinamento de alta qualidade muitas vezes se torna uma necessidade para melhorar o desempenho do modelo. Embora dimensionar o tamanho de um modelo melhore o desempenho, também aumenta os custos computacionais de treinamento e implantação do modelo e aumenta ainda mais as complicações e a eficiência da implantação do modelo em dispositivos paralelos simultaneamente. Uma das principais razões por trás do aumento dos custos de treinamento e inferência, juntamente com os requisitos computacionais, é que cada token na estrutura exige computação com cada parâmetro dentro do modelo conhecido como modelo denso.

Por outro lado, MoE esparso ou Mistura de Modelos Especialistas demonstraram dimensionamento eficaz de estruturas processando dados com a ajuda de parâmetros fixos ativados, uma abordagem que tem sido amplamente adotada no campo de Processamento de Linguagem Pure. No entanto, usar Combination of Professional para treinar diretamente modelos de linguagem de visão grande esparsos é um desafio, uma vez que converter LLMs em LVLMs e esparsizar o modelo simultaneamente resulta em degradação significativa do desempenho. Para implementar a mistura de modelos para dimensionar LLMs e LVLMs, é essencial primeiro inicializar o LVLM para esparsificação. Para conseguir isso, a estrutura MoE-LLaVA apresenta o MoE-Tuning, uma estratégia de treinamento simples, mas eficaz, em três fases.

Conforme mostrado na figura acima, o processo MoE-Tuning primeiro treina um MLP ou um Perceptron Multicamada que adapta os tokens visuais a um Modelo de Linguagem Grande no primeiro estágio. A estrutura então treina todos os parâmetros do LLM para pré-capacitar o modelo de linguagem de visão ampla com capacidades gerais de compreensão multimodal. Finalmente, na terceira etapa, o framework duplicate o FFN ou Feed Ahead Community como pesos de inicialização para os especialistas e treina apenas as camadas Combination of Professional. No geral, o processo de treinamento ajuda na transição gradual do modelo esparso de uma inicialização LVLM para uma mistura esparsa de modelos especialistas.

Com o processo de treinamento sendo abordado, vamos esclarecer o MoE-LLaVA, uma linha de base para modelos de linguagem de visão grande com mistura de modelos especialistas que incorpora roteadores que podem ser aprendidos e modelos MoE. Basicamente, o modelo MoE-LLaVA consiste em vários caminhos esparsos, e a estrutura usa esses caminhos para despachar cada token para diferentes especialistas por meio do roteador que pode ser aprendido. Os tokens são então processados ​​coletivamente pelos especialistas ativados, mantendo os caminhos inativos em silêncio. A estrutura então empilha as camadas do codificador Combination of Professional iterativamente para fornecer um caminho esparso em direção a um LVLM maior e mais poderoso.

2 5

Graças à abordagem implementada pela estrutura MoE-LLaVA, é capaz de superar modelos com um número semelhante de parâmetros ativados, e superá-los por uma grande diferença no benchmark de alucinação de objetos POPE, apesar de ter apenas 2,2 bilhões de parâmetros. Além disso, a estrutura MoE-LLaVA com 2,2 bilhões de parâmetros é capaz de atingir desempenho comparável à estrutura InternVL-Chat-19B com quase 8 vezes o número de parâmetros ativados.

Além disso, poderosos modelos de linguagem grande com fortes capacidades de generalização e acompanhamento de instruções foram implementados em modelos de linguagem de visão grande. Os primeiros LLMs, como o BLIP, codificavam sinais visuais em uma sequência de tokens visuais, permitindo-lhes adaptar a visão aos LLMs com sucesso usando múltiplas camadas de projeção. Ao mesmo tempo, trabalhos recentes concentram-se em melhorar o desempenho do modelo através da implementação de métodos como expansão do conjunto de dados de ajuste de instruções, aumento da resolução da imagem, otimização de estratégias de treinamento, alinhamento da entrada, aprimoramento dos codificadores de imagem e muito mais. Essas abordagens ajudaram a capacitar os LVLMs com poderosos recursos de compreensão visible, expandindo o conjunto de dados de ajuste fino de instruções visuais e as escalas do modelo. Além disso, alguns LVLMs também possuem capacidades de compreensão de imagem refinadas, como compreensão de região e multirregião, juntamente com capacidades de aterramento em pixels. No entanto, o custo computacional acompanhado da ampliação de dados e modelos visuais densos é muitas vezes significativamente alto, o que torna seu uso difícil. Por outro lado, o quadro MoE-LLaVA visa tornar a investigação LVLM mais acessível, aproveitando as capacidades dos modelos MoE.

MoE-LLaVA: Método e Arquitetura

Em sua essência, a estrutura MoE-LLaVA consiste em uma camada de projeção visible (Multilayer Perceptron), um codificador de visão, blocos MoE, vários blocos LLM empilhados e uma camada de incorporação de palavras.

3 5

Arquitetura

A tabela a seguir resume as configurações detalhadas da estrutura MoE-LLaVA.

4 5

Para uma determinada imagem RGB, o codificador de visão processa as imagens para obter uma sequência de tokens visuais com uma camada de projeção visible mapeando a sequência de token visible para imagens de entrada. As entradas de texto são processadas pela camada de incorporação de palavras que as projeta para obter os tokens de sequência. Ao mesmo tempo, a estrutura MoE-LLaVA concatena os tokens de texto e visuais e os alimenta no LLM. No entanto, a estrutura apenas treina a camada de projeção visible com o grande modelo de linguagem que consiste em FFN ou Redes Neurais Feedforward e Camadas de Autoatenção Multi-Head. Finalmente, a estrutura aplica conexões residuais e normalização de camadas a cada bloco.

Seguindo em frente, a estrutura MoE-LLaVA duplicate o FFN ou Redes Neurais Feedforward do segundo estágio para formar um conjunto de especialistas como etapa de inicialização. O roteador sendo uma camada linear, prevê a probabilidade de cada token ser atribuído a cada especialista. Cada token é processado pelos principais especialistas com a probabilidade máxima e calcula a soma ponderada com base no resultado softmax das probabilidades.

Ajuste MoE

MoE-Tuning é uma estratégia de treinamento de três fases simples, mas eficaz, que primeiro treina um MLP ou um Perceptron Multicamada que adapta os tokens visuais a um Modelo de Linguagem Grande no primeiro estágio. A estrutura então treina todos os parâmetros do LLM para pré-capacitar o modelo de linguagem de visão ampla com capacidades gerais de compreensão multimodal. Finalmente, na terceira etapa, o framework duplicate o FFN ou Feed Ahead Community como pesos de inicialização para os especialistas e treina apenas as camadas Combination of Professional.

Estágio 1

Na primeira etapa, o objetivo principal é adaptar os tokens de imagem ao grande modelo de linguagem que permite ao LLM compreender as instâncias da imagem. A estrutura MoE-LLaVA emprega um perceptron multicamadas para projetar os tokens de imagem no domínio de entrada do modelo de linguagem grande e trata os patches de imagem como tokens de pseudotexto. Nesta fase, a estrutura MoE-LLaVA treina o LLM para descrever as imagens, e não aplica as camadas MoE ao LLM durante esta fase.

Estágio 2

No segundo estágio, o MoE-LLaVA tenta aprimorar as capacidades e a controlabilidade da estrutura ajustando o modelo com dados de instruções multimodais. A estrutura MoE-LLaVA consegue isso ajustando o LLM para se tornar um LVLM com capacidades de compreensão multimodal. A estrutura emprega instruções mais complexas, incluindo tarefas de reconhecimento de texto e raciocínio lógico de imagens que exigem que o modelo possua capacidades multimodais mais fortes. Tradicionalmente, o processo de treinamento para modelos densos é considerado concluído nesta etapa. No entanto, o quadro MoE-LLaVA encontrou desafios na transformação do LLM num LVLM simultaneamente com a dispersão do LVLM. Para enfrentar esse desafio, a estrutura utiliza os pesos do estágio como inicialização para o próximo estágio, na tentativa de aliviar a dificuldade de aprendizagem do modelo esparso.

Etapa 3

Na terceira etapa, o modelo duplicate a rede neural feedforward diversas vezes para inicializar os especialistas como procedimento de inicialização. A estrutura então alimenta os tokens de texto e imagem na mistura de camadas especializadas, após o que o roteador calcula os pesos correspondentes entre os especialistas e ambos os tokens. Cada token é então processado pelos principais especialistas com a saída agregada calculada pela soma ponderada com base nos pesos do roteador. Uma vez ativados os principais especialistas, o modelo fecha os especialistas restantes, uma abordagem que equipa a estrutura MoE-LLaVA com caminhos esparsos infinitamente possíveis, equipando assim o modelo com uma ampla gama de capacidades.

MoE-LLaVA: Resultados e Experimentos

A estrutura MoE-LLaVA adota CLIP-Massive como codificador de visão com o Multilayer Perceptron consistindo em duas camadas com uma camada de ativação GELU separando as duas. Por padrão, a estrutura emprega uma substituição alternada das redes neurais feedforward pela mistura de camadas especializadas, o que significa que a mistura de camadas especializadas compreende 50% do número complete de camadas. A tabela a seguir contém os diferentes conjuntos de dados junto com o tamanho da amostra usados ​​para treinar e avaliar a estrutura MoE-LLaVA.

5 4

Resposta a perguntas sobre imagens zero-shot

A figura a seguir demonstra que o MoE-LLaVA é um modelo esparso com um roteador mushy baseado em LVLM. A estrutura é avaliada em 5 benchmarks de resposta a perguntas de imagem e, como pode ser observado, a estrutura MoE-LLaVA demonstra capacidades notáveis ​​de compreensão de imagens e oferece desempenho comparável à estrutura LLaVA 1.5 de última geração em cinco benchmarks diferentes.

6 2

Avaliação de alucinação de objetos

Para avaliar a alucinação de objetos, a estrutura MoE-LLaVA adota o pipeline de avaliação POPE, um método de consulta baseado em pesquisas, e os resultados são demonstrados na tabela a seguir. Como pode ser observado, de todos os frameworks, o MoE-LLaVA apresenta os resultados mais fortes, indicando a capacidade do framework em gerar objetos consistentes com a imagem de entrada. Além disso, vale a pena notar que o quadro MoE-LLaVA equilibra bem o rácio sim, indicando a capacidade do modelo esparso de fornecer suggestions preciso para a questão dada.

7 1

A imagem a seguir contém a distribuição das cargas de especialistas, onde as linhas descontínuas representam uma distribuição bem equilibrada de tokens entre as modalidades ou especialistas. A primeira figura ilustra a carga de trabalho dos especialistas, enquanto as imagens restantes demonstram o desempenho dos especialistas nas diferentes modalidades.

8 1

Além disso, a figura a seguir demonstra a distribuição das modalidades entre diferentes especialistas.

9

Pensamentos finais

Neste artigo falamos sobre MoE-LLaVA, uma linha de base para modelos de linguagem de visão grande com mistura de modelos especialistas que incorpora roteadores que podem ser aprendidos e modelos MoE. Basicamente, o modelo MoE-LLaVA consiste em vários caminhos esparsos, e a estrutura usa esses caminhos para despachar cada token para diferentes especialistas por meio do roteador que pode ser aprendido. Os tokens são então processados ​​coletivamente pelos especialistas ativados, mantendo os caminhos inativos em silêncio. A estrutura então empilha as camadas do codificador Combination of Professional iterativamente para fornecer um caminho esparso em direção a um LVLM maior e mais poderoso. A estratégia MoE-Tuning aborda de forma inovadora o problema comum da degradação do desempenho na aprendizagem de dispersão multimodal, construindo consequentemente um modelo com um número significativamente grande de parâmetros, mas com custos consistentes de formação e inferência. A arquitetura da estrutura MoE-LLaVA foi projetada de forma a ativar apenas os principais especialistas durante a implantação, enquanto mantém os especialistas restantes inativos.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button