Tech

Uni-MoE: Dimensionando LLMs Multimodais Unificados com Mistura de Especialistas

Os recentes avanços na arquitetura e no desempenho de Modelos Multimodais de Grandes Linguagens ou MLLMs destacaram a importância de dados e modelos escaláveis ​​para melhorar o desempenho. Embora esta abordagem melhore o desempenho, ela incorre em custos computacionais substanciais que limitam a praticidade e usabilidade de tais abordagens. Ao longo dos anos, os modelos Combination of Knowledgeable ou MoE surgiram como uma abordagem alternativa bem-sucedida para dimensionar modelos de imagem-texto e de linguagem grande de forma eficiente, uma vez que os modelos Combination of Knowledgeable têm custos computacionais significativamente mais baixos e forte desempenho. No entanto, apesar das suas vantagens, a Mistura de Modelos não é a abordagem perfect para escalar modelos de linguagem de grande dimensão, uma vez que muitas vezes envolvem menos especialistas e modalidades limitadas, limitando assim as aplicações.

Para combater os obstáculos encontrados pelas abordagens atuais e escalar modelos de linguagem de grande porte de forma eficiente, neste artigo falaremos sobre o Uni-MoE, um modelo multimodal unificado de linguagem de grande porte com uma arquitetura MoE ou Combination of Knowledgeable que é capaz de lidar com uma ampla variedade de modalidades e especialistas. A estrutura Uni-MoE também implementa uma arquitetura de mistura esparsa de especialistas nos grandes modelos de linguagem, na tentativa de tornar o processo de treinamento e inferência mais eficiente, empregando paralelismo de modelo e paralelismo de dados em nível de especialista. Além disso, para melhorar a generalização e a colaboração multi-especialistas, o quadro Uni-MoE apresenta uma estratégia de formação progressiva que é uma combinação de três processos diferentes. No primeiro, a estrutura Uni-MoE alcança o alinhamento entre modalidades usando vários conectores com diferentes dados de modalidade cruzada. Em segundo lugar, a estrutura Uni-MoE ativa a preferência dos componentes especializados ao treinar especialistas específicos da modalidade com dados de instrução de modalidades cruzadas. Finalmente, o modelo Uni-MoE implementa a técnica de aprendizagem LoRA ou Low-Rank Adaptation em dados de instrução multimodais mistos para ajustar o modelo. Quando a estrutura Uni-MoE ajustada por instrução foi avaliada em um conjunto abrangente de conjuntos de dados multimodais, os extensos resultados experimentais destacaram significativamente a principal vantagem da estrutura Uni-MoE na redução do viés de desempenho no manuseio de conjuntos de dados multimodais mistos. Os resultados também indicaram uma melhoria significativa na colaboração e generalização entre vários especialistas.

Este artigo visa cobrir em profundidade a estrutura Uni-MoE e exploramos o mecanismo, a metodologia, a arquitetura da estrutura, juntamente com sua comparação com estruturas do estado da arte. Então vamos começar.

O advento de modelos multimodais de grande linguagem de código aberto, incluindo LLama e InstantBlip, delineou o notável sucesso e avanço em tarefas que envolvem a compreensão de imagem-texto nos últimos anos. Além disso, a comunidade de IA está trabalhando ativamente para construir um modelo multimodal unificado de grande linguagem que possa acomodar uma ampla gama de modalidades, incluindo imagem, texto, áudio, vídeo e muito mais, indo além do paradigma tradicional de imagem-texto. Uma abordagem comum seguida pela comunidade de código aberto para aumentar as capacidades dos grandes modelos multimodais de linguagem é aumentar o tamanho dos modelos de base de visão e integrá-los com grandes modelos de linguagem com bilhões de parâmetros e usar diversos conjuntos de dados multimodais para melhorar o ajuste de instrução. Esses desenvolvimentos destacaram a capacidade crescente dos modelos multimodais de grandes linguagens de raciocinar e processar múltiplas modalidades, mostrando a importância da expansão dos dados instrucionais multimodais e da escalabilidade do modelo.

Embora a ampliação de um modelo seja uma abordagem experimentada e testada que fornece resultados substanciais, a ampliação de um modelo é um processo computacionalmente caro tanto para os processos de treinamento quanto para os processos de inferência.

Para combater a questão dos altos custos computacionais indiretos, a comunidade de código aberto está avançando no sentido de integrar a arquitetura do modelo MoE ou Combination of Knowledgeable em grandes modelos de linguagem para melhorar a eficiência do treinamento e da inferência. Ao contrário da linguagem multimodal e dos modelos de linguagem grande que empregam todos os parâmetros disponíveis para processar cada entrada, resultando em uma abordagem computacional densa, a arquitetura Combination of Knowledgeable exige apenas que os usuários ativem um subconjunto de parâmetros especialistas para cada entrada. Como resultado, a abordagem Combination of Knowledgeable surge como um caminho viável para aumentar a eficiência de grandes modelos sem ativação extensiva de parâmetros e altos custos computacionais indiretos. Embora os trabalhos existentes tenham destacado a implementação e integração bem-sucedidas de modelos Combination of Knowledgeable na construção de modelos grandes somente de texto e de imagem de texto, os pesquisadores ainda não exploraram completamente o potencial de desenvolvimento da arquitetura Combination of Knowledgeable para construir grandes modelos multimodais unificados e poderosos. modelos de linguagem.

Uni-MoE é um modelo multimodal de linguagem grande que aproveita modelos esparsos de mistura de especialistas para interpretar e gerenciar múltiplas modalidades em uma tentativa de explorar o escalonamento de modelos multimodais unificados de linguagem grande com a arquitetura MoE. Conforme demonstrado na imagem a seguir, a estrutura Uni-MoE primeiro obtém a codificação de diferentes modalidades usando codificadores específicos de modalidade e, em seguida, mapeia essas codificações no espaço de representação de linguagem dos grandes modelos de linguagem usando vários conectores projetados. Esses conectores contêm um modelo de transformador treinável com projeções lineares subsequentes para destilar e projetar as representações de saída do codificador congelado. A estrutura Uni-MoE introduz então uma mistura esparsa de camadas especializadas dentro do bloco interno do denso modelo de linguagem grande. Como resultado, cada bloco baseado em Mistura de Especialistas apresenta uma camada de autoatenção compartilhada aplicável em todas as modalidades, um roteador esparso para alocar conhecimentos em nível de token e diversos especialistas baseados na rede feedforward. Devido a esta abordagem, a estrutura Uni-MoE é capaz de compreender múltiplas modalidades, incluindo fala, áudio, texto, vídeo, imagem, e requer apenas a ativação de parâmetros parciais durante a inferência.

Além disso, para melhorar a colaboração e generalização entre vários especialistas, o quadro Uni-MoE implementa uma estratégia de formação em três fases. No primeiro estágio, a estrutura utiliza pares extensos de imagem/áudio/fala para idiomas para treinar o conector correspondente devido à representação de modalidade unificada no espaço de linguagem do grande modelo de linguagem. Em segundo lugar, o modelo Uni-MoE treina especialistas específicos da modalidade, empregando conjuntos de dados intermodais separadamente, numa tentativa de refinar a proficiência de cada especialista dentro do seu respectivo domínio. No terceiro estágio, a estrutura Uni-MoE integra esses especialistas treinados na camada Mistura de Especialistas do modelo de linguagem grande e treina toda a estrutura Uni-MoE com dados de instrução multimodais mistos. Para reduzir ainda mais o custo de formação, a estrutura Uni-MoE emprega a abordagem de aprendizagem LoRA para ajustar estas camadas de autoatenção e os especialistas pré-sintonizados.

Uni-MoE: Metodologia e Arquitetura

A motivação básica por trás da estrutura Uni-MoE é o alto custo de treinamento e inferência de dimensionamento de modelos multimodais de linguagem grande, juntamente com a eficiência dos modelos Combination of Knowledgeable, e explorar a possibilidade de criar um modelo multimodal de linguagem grande eficiente, poderoso e unificado utilizando a arquitetura do MoE. A figura a seguir apresenta uma representação da arquitetura implementada na estrutura Uni-MoE demonstrando o design que inclui codificadores individuais para diferentes modalidades, ou seja, áudio, fala e recursos visuais, juntamente com seus respectivos conectores de modalidade.

2 4

A estrutura Uni-MoE integra então a arquitetura Combination of Knowledgeable com os grandes blocos principais do modelo de linguagem, um processo essential para aumentar a eficiência geral do processo de treinamento e inferência. A estrutura Uni-MoE consegue isso implementando um mecanismo de roteamento esparso. O processo geral de treinamento da estrutura Uni-MoE pode ser dividido em três fases: alinhamento entre modalidades, treinamento de especialistas específicos da modalidade e ajuste do Uni-MoE usando um conjunto diversificado de conjuntos de dados de instrução multimodais. Para transformar eficientemente diversas entradas modais em um formato linguístico, a estrutura Uni-MoE é construída sobre LLaVA, uma estrutura de linguagem visible pré-treinada. O modelo base LLaVA integra CLIP como seu codificador visible ao lado de uma camada de projeção linear que converte recursos de imagem em seus tokens de imagem suaves correspondentes. Além disso, para processar conteúdo de vídeo, a estrutura Uni-MoE seleciona oito quadros representativos de cada vídeo e os transforma em tokens de vídeo por meio de agrupamento médio para agregar sua imagem ou representação baseada em quadros. Para tarefas de áudio, a estrutura Uni-MoE implanta dois codificadores, BEATs e o codificador Whisper para aprimorar a extração de recursos. O modelo então destila recursos de áudio de fala vetorial e de comprimento fixo e os mapeia em tokens de fala e áudio suave, respectivamente, por meio de uma camada de projeção linear.

Estratégia de Treinamento

A estrutura Uni-MoE introduz uma estratégia de formação progressiva para o desenvolvimento incremental do modelo. A estratégia de formação progressiva introduziu tentativas de aproveitar as capacidades distintas de vários especialistas, melhorar a eficiência da colaboração multi-especialistas e impulsionar a generalização geral do quadro. O processo de formação é dividido em três etapas com a tentativa de atualizar a estrutura MLLM construída sobre uma Mistura Integrada de Especialistas.

Etapa 1: Alinhamento de Modalidade Cruzada

Na primeira fase, o quadro Uni-MoE tenta estabelecer conectividade entre diferentes linguísticas e modalidades. A estrutura Uni-MoE consegue isso traduzindo dados modais em tokens flexíveis por meio da construção de conectores. O objetivo principal do primeiro estágio de treinamento é minimizar a perda de entropia generativa. Dentro da estrutura Uni-MoE, o LLM é otimizado para gerar descrições para entradas em diferentes modalidades, e o modelo apenas submete os conectores ao treinamento, uma estratégia que permite que a estrutura Uni-MoE integre diferentes modalidades dentro de uma estrutura de linguagem unificada.

3 3

Etapa 2: Treinamento de Especialistas Específicos da Modalidade

Na segunda fase, o quadro Uni-MoE centra-se no desenvolvimento de especialistas em modalidade única, treinando o modelo especificamente em dados específicos de modalidades cruzadas. O objetivo principal é refinar a proficiência de cada especialista em seu respectivo domínio, melhorando assim o desempenho geral do sistema Combination of Knowledgeable em uma ampla gama de dados multimodais. Além disso, a estrutura Uni-MoE adapta as redes feedforward para se alinharem mais estreitamente com as características da modalidade, mantendo a perda de entropia generativa como treinamento métrico focal.

4 3

Etapa 3: Ajuste do Uni-MoE

Na terceira e última fase, a estrutura Uni-MoE integra os pesos ajustados pelos especialistas durante a Fase 2 nas camadas Mistura de Especialistas. A estrutura Uni-MoE então ajusta os MLLMs utilizando dados de instrução multimodais mistos em conjunto. As curvas de perda na imagem a seguir refletem o progresso do processo de treinamento.

5 3

A análise comparativa entre as configurações do Combination of Knowledgeable revelou que os especialistas que o modelo refinou durante a 2ª etapa de treinamento apresentaram estabilidade aprimorada e alcançaram convergência mais rápida em conjuntos de dados modais mistos. Além disso, em tarefas que envolviam dados multimodais complexos, incluindo texto, imagens, áudio, vídeos, a estrutura Uni-MoE demonstrou um desempenho de treinamento mais consistente e reduziu a variabilidade de perdas quando empregou quatro especialistas do que quando empregou dois especialistas.

6 2

Uni-MoE: Experimentos e Resultados

A tabela a seguir resume as especificações arquitetônicas da estrutura Uni-MoE. O objetivo principal da estrutura Uni-MoE, construída na arquitetura LLaMA-7B, é dimensionar o tamanho do modelo.

7 1

A tabela a seguir resume o projeto e a otimização da estrutura Uni-MoE conforme orientado por tarefas de treinamento especializado. Estas tarefas são fundamentais para refinar as capacidades das camadas MLP, aproveitando assim o seu conhecimento especializado para melhorar o desempenho do modelo. A estrutura Uni-MoE realiza oito tarefas especializadas de modalidade única para elucidar os impactos diferenciais de várias metodologias de formação.

8

O modelo avalia o desempenho de várias variantes de modelo em um conjunto diversificado de benchmarks que abrange duas tarefas de compreensão de vídeo, três de compreensão de áudio e cinco tarefas relacionadas à fala. Primeiro, o modelo é testado quanto à sua capacidade de compreender tarefas de fala-imagem e fala-texto, e os resultados estão contidos na tabela a seguir.

9

Como pode ser observado, os modelos de base anteriores apresentam resultados inferiores em tarefas de compreensão de fala, o que impacta ainda mais o desempenho em tarefas de raciocínio imagem-fala. Os resultados indicam que a introdução da arquitetura Combination of Knowledgeable pode melhorar a generalização dos MLLMs em tarefas de raciocínio de imagem auditiva invisíveis. A tabela a seguir apresenta os resultados experimentais em tarefas de compreensão de imagem-texto. Como pode ser observado, os melhores resultados dos modelos Uni-MoE superam as linhas de base e superam a tarefa de ajuste fino por uma margem média de 4 pontos.

10

Pensamentos finais

Neste artigo falamos sobre Uni-MoE, um modelo multimodal unificado de grande linguagem com uma arquitetura MoE ou Combination of Knowledgeable que é capaz de lidar com uma ampla gama de modalidades e especialistas. A estrutura Uni-MoE também implementa uma arquitetura de mistura esparsa de especialistas nos grandes modelos de linguagem, na tentativa de tornar o processo de treinamento e inferência mais eficiente, empregando paralelismo de modelo e paralelismo de dados em nível de especialista. Além disso, para melhorar a generalização e a colaboração multi-especialistas, o quadro Uni-MoE apresenta uma estratégia de formação progressiva que é uma combinação de três processos diferentes. No primeiro, a estrutura Uni-MoE alcança o alinhamento entre modalidades usando vários conectores com diferentes dados de modalidade cruzada. Em segundo lugar, a estrutura Uni-MoE ativa a preferência dos componentes especializados ao treinar especialistas específicos da modalidade com dados de instrução de modalidades cruzadas. Finalmente, o modelo Uni-MoE implementa a técnica de aprendizagem LoRA ou Low-Rank Adaptation em dados de instrução multimodais mistos para ajustar o modelo.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button