MambaOut: Precisamos realmente do Mamba para ter visão?

Nas estruturas modernas de aprendizado de máquina e inteligência synthetic, os transformadores são um dos componentes mais amplamente utilizados em vários domínios, incluindo a série GPT e BERT em processamento de linguagem pure e transformadores de visão em tarefas de visão computacional. Embora a inclusão de transformadores na arquitetura do modelo proporcione um aumento significativo no desempenho do modelo, o módulo de atenção em Transformers é dimensionado quadraticamente com o comprimento da sequência, levando a grandes desafios computacionais. Ao longo dos anos, diferentes modelos exploraram diferentes estratégias para enfrentar os desafios computacionais, incluindo métodos como kernelização, compressão de memória histórica, limitação de intervalo de mistura de tokens e abordagens de baixa classificação. Recentemente, métodos como redes neurais recorrentes, incluindo Mamba e RWKV, ganharam atenção significativa devido aos seus resultados promissores em grandes modelos de linguagem.

Mamba, uma família de modelos que possui uma arquitetura com uma Rede Neural Recorrente como misturador de tokens de um modelo de espaço de estados foi recentemente introduzida para abordar a complexidade quadrática dos mecanismos de atenção e foi posteriormente aplicada a tarefas de visão. Os pesquisadores já exploraram maneiras de incorporar Mamba e SSM ou State House Mannequin em tarefas de reconhecimento visible, e Imaginative and prescient Mamba que incorpora Mamba para desenvolver modelos de visão isotrópica semelhantes ao Imaginative and prescient Transformer é um ótimo exemplo do mesmo. Por outro lado, LocalMamba incorpora vieses indutivos locais para aprimorar os modelos visuais do Mamba, e a estrutura VMamba emprega o modelo básico do Mamba para construir modelos hierárquicos semelhantes ao ResNet e AlexNet. No entanto, o framework Mamba é realmente essencial para tarefas de contexto de reconhecimento visible? A questão surge porque o desempenho da família de modelos Mamba para tarefas de visão tem sido desanimador até agora quando comparado com os modelos convolucionais e baseados na atenção tradicionais.

MambaOut é um trabalho que tenta aprofundar a essência do framework Mamba e responder se o Mamba é ultimate para tarefas com características autorregressivas e de sequência longa. A estrutura MambaOut levanta a hipótese de que o Mamba não é necessário para tarefas de visão, uma vez que a classificação de imagens não se alinha com características de sequência longa ou autorregressivas. Embora as tarefas de segmentação e detecção também não sejam autoregressivas, elas apresentam características de sequência longa, levando a estrutura MambaOut a levantar a hipótese do potencial do Mamba para essas tarefas. A estrutura MambaOut é construída empilhando blocos Mamba uns sobre os outros enquanto take away o modelo de espaço de estado, seu misturador de token principal. Os resultados experimentais apoiam a hipótese apresentada pelo framework MambaOut, uma vez que é capaz de superar todos os modelos visuais do Mamba no framework de classificação de imagens ImageNet, indicando que o Mamba não é necessário para tarefas de visão. Por outro lado, para tarefas de detecção e segmentação, a estrutura MambaOut é incapaz de replicar o desempenho oferecido pelo modelo Mamba de última geração, demonstrando o potencial da família de modelos Mamba para tarefas visuais de sequência longa.

Este artigo tem como objetivo cobrir o framework MambaOut em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks de última geração. Então vamos começar.

Com o progresso dos aplicativos e recursos de aprendizado de máquina, os Transformers emergiram como a espinha dorsal principal para uma série de tarefas, alimentando modelos proeminentes, incluindo Imaginative and prescient Transformers, série de modelos GPT, BERT e alguns mais. No entanto, o misturador de tokens do transformador incorre em uma complexidade quadrática em relação ao comprimento da sequência e apresenta desafios significativos para sequências mais longas. Para resolver esse problema, foram introduzidos vários misturadores de tokens com complexidade linear para comprimento de token, como Linformer, Longformer, Performer, Dynamic Convolution e Large Chook. No entanto, nos últimos tempos, modelos do tipo Rede Neural Recorrente estão ganhando destaque devido à sua capacidade de treinamento paralelizável e de fornecer desempenho eficiente em sequências mais longas. Guiados pelo notável desempenho oferecido por modelos do tipo RNN, os pesquisadores estão tentando introduzir e utilizar a família de modelos Mamba em tarefas de reconhecimento visible, uma vez que o misturador de tokens dos modelos Mamba é o modelo de espaço de estado estruturado sob o espírito das Redes Neurais Recorrentes . No entanto, os resultados experimentais indicam que as estruturas baseadas em modelos de espaço de estados para visão têm um desempenho desanimador em tarefas de visão do mundo actual quando comparadas com modelos convolucionais baseados em atenção e de última geração.

MambaOut é uma tentativa de investigar a natureza da família de modelos Mamba e resume que Mamba é adequado para tarefas que são autorregressivas ou de sequência longa, uma vez que o modelo de espaço de estados possui um mecanismo RNN inerente. No entanto, a maioria das tarefas de visão não apresenta ambas as características e, com base em alguns experimentos, o MambaOut propõe as duas hipóteses a seguir. Primeiro, o modelo de espaço de estados não é necessário para classificação de imagens, uma vez que a tarefa de classificação de imagens não está em conformidade com características autorregressivas nem de sequência longa. Em segundo lugar, os modelos de espaço de estados podem ser hipoteticamente benéficos para segmentação de instâncias e segmentação semântica juntamente com detecção de objetos, uma vez que seguem as características de sequência longa, embora não sejam autoregressivos. Resultados experimentais conduzidos para analisar o mecanismo do modelo de espaço de estados do tipo Rede Neural Recorrente concluem que o framework Mamba é adequado para tarefas com características autorregressivas ou de sequência longa, e é desnecessário para tarefas de classificação de imagens. Chegando ao próprio framework MambaOut, é uma série de modelos Mamba baseados em blocos de Rede Neural Convolucional Gated sem o modelo de espaço de estados, e resultados experimentais indicam que o framework MambaOut é capaz de superar modelos Mamba em tarefas de classificação de imagens, mas não consegue replicar. o desempenho em tarefas de detecção e segmentação de imagens.

Para quais tarefas o Mamba é adequado?

O misturador de tokens da estrutura Mamba é um modelo de espaço de estados seletivo que outline quatro parâmetros dependentes de entrada. A propriedade recorrente da estrutura distingue modelos de espaço de estados semelhantes a RNN da atenção causal. O estado oculto pode ser visto como uma memória de tamanho fixo que armazena informações históricas. O tamanho fixo significa que a memória apresenta perdas, mas também garante que a complexidade computacional de integração da memória com a entrada atual permaneça constante. Por outro lado, as camadas de atenção causal armazenam todas as chaves e valores dos tokens anteriores e se expandem adicionando a chave e o valor do token atual a cada nova entrada, e essa memória é teoricamente sem perdas. No entanto, o tamanho da memória aumenta à medida que mais tokens são inseridos, aumentando a complexidade da integração da memória com a entrada atual. A diferença entre os mecanismos de memória entre a atenção causal e os modelos do tipo RNN é ilustrada na figura a seguir.

Como a memória do modelo de espaço de estados é inerentemente com perdas, ela fica aquém da memória sem perdas da atenção causal e, como resultado, os modelos Mamba não conseguem demonstrar sua força no tratamento de sequências curtas, uma área onde o mecanismo de atenção causal funciona bem com facilidade . Porém, em cenários que envolvem sequências longas, a abordagem da atenção causal falha devido à complexidade quadrática. Neste cenário, a estrutura Mamba mostra sua eficiência na fusão da memória com a entrada atual e é capaz de lidar com sequências longas sem problemas, indicando que a família de modelos Mamba é adequada para processar sequências longas.

É também importante notar que por um lado onde a natureza recorrente do modelo de espaço de estados permite aos modelos Mamba lidar eficientemente com sequências longas, introduz uma certa limitação uma vez que pode aceder a informação apenas dos passos de tempo atuais e anteriores, e este tipo de a mistura de tokens é denominada modo causal e ilustrada na figura a seguir. Devido à sua natureza causal, este método é adequado para tarefas de geração autoregressiva.

2 3

O modo totalmente visível é adequado para tarefas de compreensão onde o modelo pode acessar todas as entradas de uma vez. Além disso, a atenção está no modo totalmente visível por padrão e pode ser facilmente transformada em modo causal aplicando máscaras causais aos mapas de atenção, e modelos semelhantes a RNN operam inerentemente no modo causal devido às suas propriedades recorrentes. Para resumir, a estrutura Mamba é adequada para tarefas que envolvem o processamento de sequências longas ou tarefas que requerem modo de mistura de token causal.

Tarefas de reconhecimento visible, código de mistura de token causal e sequências muito grandes

Conforme discutido anteriormente, o modo de mistura de tokens totalmente visível permite uma gama irrestrita de mistura, enquanto o modo causal limita o token atual para acessar apenas as informações dos tokens anteriores. Além disso, o reconhecimento visible é categorizado como uma tarefa de compreensão onde o modelo pode ver a imagem inteira de uma vez, e isso elimina a necessidade de restrições na mistura de tokens, e a imposição de restrições adicionais na mistura de tokens pode degradar potencialmente o desempenho do modelo. Geralmente, o modo totalmente visível é apropriado para tarefas de compreensão, enquanto o modo informal se adapta melhor a tarefas autorregressivas. Além disso, esta afirmação é apoiada ainda pelo fato de que os modelos BeRT e ViT são usados para compreender tarefas mais do que os modelos GPT.

Verificação Experimental e Resultados

O próximo passo é verificar experimentalmente as hipóteses propostas pelo framework MambaOut. Conforme demonstrado na imagem a seguir, o bloco Mamba é baseado no bloco Gated Convolutional Neural Community, e a metaarquitetura dos blocos Mamba e Gated CNN pode ser tratada como uma integração simplificada do token mixer da estrutura MetaFormer e um MLP .

3 2

O bloco Mamba estende a Rede Neural Convolucional Gated com um Modelo de Espaço de Estados adicional, e a presença de um SSm é o que distingue o Gated CNN e o bloco Mamba. Além disso, para melhorar a velocidade prática, a estrutura MambaOut conduz apenas convolução profunda em canais parciais e, conforme demonstrado no algoritmo a seguir, a implementação do bloco Gated CNN é simples, mas eficaz e elegante.

4 2

Tarefa de classificação de imagens

ImageNet serve como referência para tarefas de classificação de imagens, pois consiste em mais de mil courses comuns, mais de 1,3 milhão de imagens de treinamento e mais de 50.000 imagens de validação. O aumento de dados usado para o experimento consiste em corte redimensionado aleatoriamente, Mixup, jitter de cor, Random Erasing, CutMix e Rand Increase. A tabela a seguir resume o desempenho da família de modelos Mamba, do modelo MambaOut e de outros modelos baseados em atenção e convolução no conjunto de dados ImageNet. Como pode ser visto, a estrutura MambaOut sem o modelo de espaço de estados supera os modelos visuais Mamba com SSM de forma consistente em todos os tamanhos de modelo.

5 2

Por exemplo, o modelo MambaOut-Small retorna uma pontuação de precisão top-1 de mais de 84%, 0,4% maior que seu concorrente Mamba mais próximo. Este resultado apoia fortemente a primeira hipótese que afirma que não é necessária a introdução de um modelo de espaço de estados para tarefas de classificação de imagens.

Tarefas de detecção de objetos e segmentação de instâncias

COCO serve como referência para tarefas de detecção de objetos e segmentação de instâncias. Embora a estrutura MambaOut seja capaz de superar o desempenho de alguns modelos visuais do Mamba, ainda fica aquém dos modelos visuais do Mamba de última geração, incluindo LocalVMamba e VMamba. A disparidade no desempenho do MambaOut em relação aos modelos visuais de última geração enfatiza os benefícios da integração da família de modelos Mamba em tarefas visuais de longa sequência. No entanto, é importante notar que ainda existe uma lacuna significativa de desempenho entre os modelos híbridos de convolução-atenção de última geração e os modelos visuais Mamba.

6 1

Pensamentos finais

Neste artigo, discutimos os conceitos da família de modelos Mamba e concluímos que ela é adequada para tarefas que envolvem características autorregressivas e de sequência longa. MambaOut é um trabalho que tenta aprofundar a essência do framework Mamba e responder se o Mamba é ultimate para tarefas com características autorregressivas e de sequência longa. A estrutura MambaOut levanta a hipótese de que o Mamba não é necessário para tarefas de visão, uma vez que a classificação de imagens não se alinha com características de sequência longa ou autorregressivas. Embora as tarefas de segmentação e detecção também não sejam autoregressivas, elas apresentam características de sequência longa, levando a estrutura MambaOut a levantar a hipótese do potencial do Mamba para essas tarefas. A estrutura MambaOut é construída empilhando blocos Mamba uns sobre os outros enquanto take away o modelo de espaço de estado, seu misturador de token principal. Os resultados experimentais apoiam a hipótese apresentada pelo framework MambaOut, uma vez que é capaz de superar todos os modelos visuais do Mamba no framework de classificação de imagens ImageNet, indicando que o Mamba não é necessário para tarefas de visão. Por outro lado, para tarefas de detecção e segmentação, a estrutura MambaOut é incapaz de replicar o desempenho oferecido pelo modelo Mamba de última geração, demonstrando o potencial da família de modelos Mamba para tarefas visuais de sequência longa.

join the future newsletter Unite AI Mobile Newsletter 1