Tech

BlackMamba: mistura de especialistas em modelos de espaço de estados

LifeTechWebMarch 26, 2024

0 10 minutes read

DALL·E 2024 03 24 19.35.19 Visualize an abstract concept named BlackMamba Mixture of Experts for State Space Models. This image should depict a sleek futuristic interface wi

O desenvolvimento de Massive Language Fashions (LLMs) construídos a partir de modelos de transformadores somente decodificadores desempenhou um papel essential na transformação do domínio de Processamento de Linguagem Pure (PNL), bem como no avanço de diversas aplicações de aprendizagem profunda, incluindo aprendizagem por reforço, análise de séries temporais, imagem processamento e muito mais. No entanto, apesar de sua escalabilidade e forte desempenho, os LLMs construídos a partir de modelos de transformadores somente decodificadores ainda enfrentam deficiências significativas. Embora expressivo, o mecanismo de atenção em LLMs derivados de transformadores requer altos recursos computacionais durante a inferência e o treinamento, necessitando de memória substancial para o comprimento da sequência e FLOPs quadráticos. Este alto requisito computacional limita o comprimento do contexto dos modelos de transformadores, tornando as tarefas de geração autoregressiva proporcionalmente caras com a escala, e dificulta o aprendizado de fluxos de dados contínuos e a capacidade de processamento de sequência verdadeiramente ilimitado.

Nos últimos tempos, os Modelos de Espaço de Estados (SSMs) demonstraram capacidades e desempenho notáveis, competindo com modelos de arquitetura de transformadores em benchmarks de modelagem em larga escala, ao mesmo tempo em que alcançam complexidade de memória em função do comprimento da sequência e do tempo linear. Além disso, o Mamba, um modelo de espaço de estados lançado recentemente, mostrou excelente desempenho em uma variedade de tarefas de modelagem de linguagem e processamento de sequências longas. Simultaneamente, os modelos Combination of Knowledgeable (MoE) também mostraram um desempenho impressionante, ao mesmo tempo que reduziram significativamente a latência e os custos computacionais de inferência, embora às custas de um maior consumo de memória. Com base nos modelos Mamba e MoE, este artigo discutirá o BlackMamba, uma nova arquitetura que combina o modelo Mamba State House com modelos MoE para aproveitar os benefícios oferecidos por ambas as estruturas. Experimentos no BlackMamba demonstraram sua capacidade de superar a estrutura Mamba existente e as linhas de base do transformador tanto no treinamento de FLOPs quanto na inferência. O desempenho excepcional da estrutura BlackMamba mostra que ela pode combinar efetivamente as capacidades das estruturas Mamba e MoE, oferecendo inferência rápida e econômica do MoE com geração de complexidade linear do Mamba.

Este artigo tem como objetivo abordar em profundidade a estrutura do BlackMamba. Exploramos o mecanismo, a metodologia e a arquitetura da estrutura, juntamente com sua comparação com estruturas de geração de imagem e vídeo de última geração. Vamos começar.

A progressão de Massive Language Fashions (LLMs), particularmente aqueles baseados em arquiteturas de transformadores somente decodificadores, influenciou notavelmente o campo de Processamento de Linguagem Pure (PNL) e se expandiu para várias aplicações de aprendizagem profunda, incluindo aprendizagem por reforço, análise de séries temporais, processamento de imagens. , e além. No entanto, apesar de sua escalabilidade e desempenho robusto, esses LLMs baseados em transformador somente decodificador enfrentam desafios notáveis. O mecanismo de atenção, uma característica elementary dos LLMs baseados em transformadores, exige extensos recursos computacionais tanto para inferência quanto para treinamento. Isto envolve uma necessidade de memória que cresce com o comprimento da sequência e operações computacionais (FLOPs) que aumentam quadraticamente. Essas necessidades computacionais intensivas restringem o comprimento do contexto dos modelos, elevam os custos das tarefas de geração autoregressiva à medida que o modelo é dimensionado e prejudicam a capacidade dos modelos de aprender com eficiência a partir de fluxos de dados contínuos ou processar sequências de comprimento ilimitado.

Esforços significativos foram feitos nos últimos anos na tentativa de superar essas limitações, e a atenção foi desviada para o desenvolvimento de alternativas arquitetônicas para os modelos canônicos de transformadores de atenção densa, sendo os modelos SSMs e MoE as arquiteturas candidatas mais promissoras. O principal benefício obtido ao favorecer modelos de espaço de estados em vez de modelos de arquitetura de transformadores é a complexidade computacional linear em relação ao comprimento da sequência de entrada oferecida pelos SSMs, em oposição à complexidade quadrática oferecida pelos transformadores. Teoricamente, a complexidade computacional linear em relação ao comprimento da sequência de entrada permite que os modelos de espaço de estados processem sequências maiores do que os modelos de arquitetura de transformador para um determinado orçamento de FLOPS ou operações de ponto flutuante por segundo e tornem a geração autoregressiva constante em computação sem um cache KV. Modelos de espaço de estados desenvolvidos recentemente, incluindo Mamba, RetNet e alguns outros, demonstraram inferência e treinamento eficientes de sequências longas, juntamente com desempenho de tarefa de modelagem de linguagem competitiva para transformadores com propriedades de escala semelhantes. Por outro lado, as arquiteturas de modelos Combination of Knowledgeable estão ganhando popularidade como uma alternativa aos transformadores densos, uma vez que facilitam uma redução significativa na inferência e no treinamento de FLOPs essenciais para alcançar qualidade comparável a um modelo denso. Os modelos MoE (Combination of Specialists) operam ativando apenas uma seleção esparsa dos parâmetros totais durante uma única passagem direta. Eles utilizam uma função de roteamento para determinar quais “especialistas” serão chamados à ação com base no contexto determinado. Esta abordagem cria uma separação entre o custo computacional da inferência e o número complete de parâmetros, permitindo um melhor desempenho dentro de um orçamento de inferência fixo, embora com um número maior de parâmetros e um maior requisito de memória.

Este avanço na arquitetura oferece benefícios notáveis em relação aos transformadores tradicionais e representa uma direção estimulante para um maior desenvolvimento. Postulamos que a integração dessas melhorias em um modelo combinado Mamba-MoE poderia acelerar significativamente os recursos e a eficiência da modelagem de linguagem além dos modelos de transformadores padrão. As vantagens previstas de uma arquitetura Mamba-MoE em comparação com um modelo tradicional de transformador denso incluem:

Mamba: Atinge complexidade computacional linear em relação ao comprimento da sequência de entrada para as fases de treinamento e inferência. Ele permite que a geração autoregressiva ocorra em um período de tempo constante e com uso constante de memória.

MoE: Oferece velocidade de inferência e eficiência computacional de treinamento comparável a um modelo de linha de base menor e denso, ao mesmo tempo em que mantém um nível de qualidade do modelo que rivaliza com um modelo com um número de parâmetros equivalente à versão mais densa.

Com isso dito, é essencial afirmar que os modelos de arquitetura de transformadores ainda são o que há de mais moderno e têm demonstrado um desempenho consistente e notável em tarefas de modelagem de linguagem e tarefas de processamento de sequência. Em sua essência, a arquitetura do transformador emprega autoatenção que realiza uma comparação quadrática completa das semelhanças do produto escalar entre as incorporações de diferentes tokens em uma sequência e executa um mapa linear para um vetor de saída. O modelo do transformador consiste em blocos de autoatenção empilhados entre blocos MLP ou Multi-Layer Perceptron que consistem ainda em um MLP de duas camadas com uma determinada função de ativação.

BlackMamba: Arquitetura e Metodologia

Modelos de Espaço de Estado

Os Modelos de Espaço de Estados pertencem ao grupo de modelos de sequência com complexidade linear em relação ao comprimento da sequência de entrada. A arquitetura dos Modelos de Espaço de Estados se alinha mais com Redes Neurais Recorrentes e Redes Neurais Convolucionais do que com arquitetura baseada em atenção, e é inspirada em um sistema dinâmico contínuo que mapeia uma função unidimensional através de um espaço latente implícito. Um sistema dinâmico linear torna os cálculos paralelos eficientes usando uma varredura associativa ou de convolução. Em cenários práticos, a natureza recorrente dos Modelos de Espaço de Estados tem sido a razão pela qual ainda devem ser adotados em {hardware} de IA altamente paralelo, como GPUs. No entanto, o surgimento de SSMs como RWKV e Mamba usaram kernels de varredura paralelos para mapear operações recorrentes de forma eficiente para GPUs, facilitando assim o treinamento de novas arquiteturas com eficiência comparável àquelas alcançadas por modelos de transformadores.

A complexidade quadrática inerente em relação ao comprimento da sequência nos transformadores é uma limitação bem conhecida que impede o raciocínio e a compreensão em contextos muito longos. Inovações recentes introduziram a ideia de estender o comprimento do contexto, permitindo que os transformadores sejam treinados em uma escala viável antes de serem aplicados a contextos muito mais longos durante a inferência. Apesar desses avanços, o processo de inferência ainda exige uma quantidade considerável de recursos computacionais e memória, principalmente para manter o cache de valores-chave (KV), tornando-o um empreendimento que consome muitos recursos. Esforços de pesquisa recentes concentraram-se em melhorar as capacidades expressivas dos modelos de espaço de estados, incorporando mecanismos de controle dependentes de entrada, semelhantes às matrizes de Consulta, Chave, Valor (QKV) encontradas em mecanismos de atenção.

Esses esforços visam preservar a progressão inerentemente linear da recursão no espaço de estados, permitindo uma execução eficiente por meio de convolução ou de um processo de varredura seletiva. Esta abordagem reduz significativamente a disparidade de desempenho com transformadores em aplicações práticas. Entre esses avanços, o Mamba se destaca como um modelo de espaço de estados que reflete os objetivos de pesquisas anteriores, mostrando níveis de desempenho impressionantes comparáveis aos transformadores em escalas de até 2,8 bilhões de parâmetros. Ele consegue isso aplicando portas dependentes de entrada às entradas da recursão do modelo de espaço de estado (SSM), garantindo ao mesmo tempo uma computação eficiente por meio do uso de kernels de varredura seletiva sob medida.

Mistura de modelos especialistas

Os modelos de mistura de especialistas (MoE) conseguem uma separação entre o custo de inferência e a contagem complete de parâmetros ativando seletivamente os parâmetros durante a passagem direta. Em vez de usar todos os parâmetros, esses modelos direcionam tokens para especialistas específicos do Multilayer Perceptron (MLP). Idealmente, cada especialista é adaptado para processar um tipo específico de entrada, com um mecanismo de roteamento, essencialmente uma rede neural compacta, determinando o especialista mais adequado para cada token. Esta abordagem visa preservar o poder expressivo abrangente de um modelo com número equivalente de parâmetros em uma configuração mais densa, mas com demandas computacionais consideravelmente reduzidas. Normalmente, o roteador é um mapeamento das camadas lineares de tokens para índices de especialistas, sendo cada especialista simplesmente um Perceptron Multicamada de transformador padrão. No entanto, os desenvolvedores ainda não descobriram o método de treinamento superb para o roteador, uma vez que o problema de atribuição de especialistas não é diferenciável, e os modelos de mistura de especialistas geralmente enfrentam dificuldades com o balanceamento de carga e a estabilidade de treinamento entre diferentes especialistas para obter eficiência de {hardware}.

Arquitetura

Basicamente, o BlackMamba emprega um modelo de transformador padrão que consiste em blocos MLP intercalados e blocos de atenção adicionados em sequência ao longo de um fluxo residual. Agora, a maioria dos modelos Combination of Knowledgeable simplesmente substitui os blocos perceptron multicamadas por uma camada especialista roteada. Por outro lado, a estrutura BlackMamba não apenas substitui o bloco perceptron multicamadas no transformador por uma camada especialista roteada, mas também substitui a camada de atenção por uma camada Mamba State House Mannequin. A arquitetura do framework BlackMamba é demonstrada na figura a seguir.

Treinamento e conjunto de dados

O modelo BlackMamba é treinado em mais de 300 bilhões de tokens em um conjunto de dados personalizado e usa a função de ativação SwiGLU para perceptrons multicamadas especializados. A estrutura é treinada com 8 especialistas, um número que os desenvolvedores consideraram o equilíbrio certo e a compensação entre o consumo de memória e o custo de inferência do modelo. O conjunto de dados personalizado usado para treinar a estrutura BlackMamba consiste em uma mistura de conjuntos de dados de código aberto já existentes, incluindo Starcoder, SlimPajama, Pile e muito mais. A tabela a seguir demonstra os pesos de cada conjunto de dados usado para treinar a estrutura BlackMamba. No geral, existem 1,8 trilhões de tokens no conjunto de dados.

BlackMamba: Resultados

Para garantir uma comparação justa entre Mamba e BlackMamba, os desenvolvedores treinaram ambos os modelos com os mesmos parâmetros de treinamento nos mesmos dados de treinamento. A estrutura BlackMamba é capaz de superar os modelos Mamba e de transformador para tamanho de modelo de passagem direta idêntico no tempo de inferência, bem como treinar operações de ponto flutuante por segundo. A figura a seguir demonstra o tempo necessário para gerar uma sequência de um determinado comprimento de forma autorregressiva a partir de um immediate inicial de um token em função do comprimento da sequência.

Além disso, os benefícios de latência dos modelos Combination of Knowledgeable e Mamba são combinados na estrutura BlackMamba, resultando em tempos de inferência significativamente mais rápidos quando comparados com modelos de transformador, modelos Mamba puros e modelos MoE. Além disso, a vantagem de inferência da estrutura BlackMamba é diretamente proporcional aos comprimentos das sequências, tornando o BlackMamba extremamente eficaz na geração de sequências longas. Seguindo em frente, a figura a seguir ilustra o número de tokens atribuídos aos modelos BlackMamba com 340 milhões e 640 milhões de parâmetros respectivamente. Como pode ser visto, a maioria das camadas demonstra um alto nível de equilíbrio especializado como resultado do algoritmo Sinkhorn aprimorado implementado pelos modelos BlackMamba.

4 4

A tabela a seguir cobre as pontuações de avaliação da estrutura BlackMamba em comparação com uma variedade de modelos de linguagem pré-treinados de código aberto. Como pode ser observado, a estrutura BlackMamba é capaz de competir e superar a maioria das estruturas em todas as linhas de base. Além disso, vale ressaltar que os modelos que superam o BlackMamba possuem número consideravelmente maior de parâmetros, e a diferença de desempenho é mínima, indicando a capacidade do framework BlackMamba com menos parâmetros.

5 3

Pensamentos finais

Neste artigo, falamos sobre BlackMamba, uma nova arquitetura que combina o Mamba State House Mannequin com uma mistura de modelos Knowledgeable para colher os benefícios oferecidos por ambas as estruturas. Experimentos no BlackMamba demonstraram que ele supera a estrutura Mamba existente e as linhas de base do transformador tanto no treinamento de FLOPs quanto na inferência. O desempenho excepcional da estrutura BlackMamba demonstra que ele é capaz de herdar e combinar excepcionalmente bem as habilidades das estruturas Mamba e MoE, uma vez que combina a inferência barata e rápida do MoE com a geração de complexidade linear do Mamba. Já falamos sobre como a arquitetura da estrutura BlackMamba é capaz de superar modelos de linguagem grande treinados e fortes, a estrutura Mamba existente e modelos de mistura de especialistas em termos de treinamento de FLOPs e custo de inferência. Além disso, a estrutura BlackMamba também herda a geração de FLOPs e o treinamento reduzido dos modelos Combination of Knowledgeable e da estrutura Mamba simultaneamente.

join the future newsletter Unite AI Mobile Newsletter 1