xLSTM: um guia abrangente para memória estendida de longo e curto prazo

Por mais de duas décadas, a arquitetura pioneira Lengthy Quick-Time period Reminiscence (LSTM) de Sepp Hochreiter tem sido elementary em vários avanços no aprendizado profundo e em aplicações do mundo actual. Desde a geração de linguagem pure até a alimentação de sistemas de reconhecimento de fala, os LSTMs têm sido uma força motriz por trás da revolução da IA.

No entanto, mesmo o criador dos LSTMs reconheceu as suas limitações inerentes que os impediram de realizar todo o seu potencial. Deficiências como a incapacidade de revisar as informações armazenadas, capacidades de memória restritas e falta de paralelização abriram caminho para o surgimento de transformadores e outros modelos para superar os LSTMs para tarefas de linguagem mais complexas.

Mas em um desenvolvimento recente, Hochreiter e sua equipe da NXAI introduziram uma nova variante chamada LSTM estendido (xLSTM) que aborda esses problemas de longa knowledge. Apresentado em um artigo de pesquisa recente, o xLSTM baseia-se nas ideias fundamentais que tornaram os LSTMs tão poderosos, ao mesmo tempo que supera seus principais pontos fracos por meio de inovações arquitetônicas.

No centro do xLSTM estão dois novos componentes: portas exponenciais e estruturas de memória aprimoradas. A porta exponencial permite um controle mais flexível sobre o fluxo de informações, permitindo que os xLSTMs revisem efetivamente as decisões à medida que um novo contexto é encontrado. Enquanto isso, a introdução da memória matricial aumenta enormemente a capacidade de armazenamento em comparação com os LSTMs escalares tradicionais.

Mas as melhorias não param por aí. Ao aproveitar técnicas emprestadas de grandes modelos de linguagem, como paralelização e empilhamento residual de blocos, os xLSTMs podem escalar com eficiência para bilhões de parâmetros. Isso libera seu potencial para modelar sequências extremamente longas e janelas de contexto – uma capacidade crítica para a compreensão de linguagens complexas.

As implicações da última criação de Hochreiter são monumentais. Think about assistentes virtuais que podem rastrear o contexto de maneira confiável durante conversas de horas de duração. Ou modelos de linguagem que generalizam de forma mais robusta para novos domínios após treinamento em dados amplos. As aplicações abrangem todos os lugares onde os LSTMs causaram impacto – chatbots, tradução, interfaces de fala, análise de programas e muito mais – mas agora turbinados com os recursos inovadores do xLSTM.

Neste guia técnico aprofundado, mergulharemos no arquiteturaDetailsOf xLSTM, avaliando seus novos componentes, como LSTMs escalares e matriciais, mecanismos de portas exponenciais, estruturas de memória e muito mais. Você obterá insights de resultados experimentais que mostram os impressionantes ganhos de desempenho do xLSTM em relação às arquiteturas de última geração, como transformadores e os modelos recorrentes mais recentes.

Compreendendo as origens: as limitações do LSTM

Antes de mergulharmos no mundo do xLSTM, é essencial compreender as limitações que as arquiteturas LSTM tradicionais enfrentam. Estas limitações têm sido a força motriz por trás do desenvolvimento do xLSTM e de outras abordagens alternativas.

Incapacidade de revisar decisões de armazenamento: Uma das principais limitações do LSTM é a dificuldade em revisar os valores armazenados quando um vetor mais semelhante é encontrado. Isso pode levar a um desempenho abaixo do very best em tarefas que exigem atualizações dinâmicas das informações armazenadas.
Capacidades de armazenamento limitadas: Os LSTMs compactam informações em estados de células escalares, o que pode limitar sua capacidade de armazenar e recuperar efetivamente padrões de dados complexos, especialmente ao lidar com tokens raros ou dependências de longo alcance.
Falta de Paralelização: O mecanismo de mistura de memória em LSTMs, que envolve conexões ocultas entre intervalos de tempo, impõe processamento sequencial, dificultando a paralelização de cálculos e limitando a escalabilidade.

Essas limitações abriram caminho para o surgimento de Transformers e outras arquiteturas que ultrapassaram os LSTMs em certos aspectos, principalmente na escala para modelos maiores.

A arquitetura xLSTM

Família LSTM estendida (xLSTM)

No centro do xLSTM estão duas modificações principais na estrutura LSTM tradicional: portas exponenciais e novas estruturas de memória. Essas melhorias introduzem duas novas variantes do LSTM, conhecidas como sLSTM (LSTM escalar) e mLSTM (matriz LSTM).

sLSTM: O LSTM escalar com porta exponencial e mixagem de memória
- Porta exponencial: o sLSTM incorpora funções de ativação exponencial para portas de entrada e esquecimento, permitindo um controle mais flexível sobre o fluxo de informações.
- Normalização e Estabilização: Para evitar instabilidades numéricas, o sLSTM introduz um estado normalizador que rastreia o produto das portas de entrada e futuras portas de esquecimento.
- Mistura de memória: o sLSTM oferece suporte a múltiplas células de memória e permite a mistura de memória por meio de conexões recorrentes, permitindo a extração de padrões complexos e recursos de rastreamento de estado.
mLSTM: Matrix LSTM com capacidades de armazenamento aprimoradas
- Memória Matriz: Em vez de uma célula de memória escalar, o mLSTM utiliza uma memória matricial, aumentando sua capacidade de armazenamento e permitindo uma recuperação mais eficiente de informações.
- Regra de atualização de covariância: mLSTM emprega uma regra de atualização de covariância, inspirada em Memórias Associativas Bidirecionais (BAMs), para armazenar e recuperar pares de valores-chave de forma eficiente.
- Paralelização: Ao abandonar a mistura de memória, o mLSTM alcança complete paralelização, permitindo cálculos eficientes em aceleradores de {hardware} modernos.

Estas duas variantes, sLSTM e mLSTM, podem ser integradas em arquiteturas de blocos residuais, formando blocos xLSTM. Ao empilhar residualmente esses blocos xLSTM, os pesquisadores podem construir poderosas arquiteturas xLSTM adaptadas para tarefas e domínios de aplicação específicos.

A matemática

LSTM tradicional:

A arquitetura LSTM authentic introduziu o carrossel de erros constantes e mecanismos de controle para superar o problema do gradiente evanescente em redes neurais recorrentes.

O módulo de repetição em um LSTM – Fonte

As atualizações das células de memória LSTM são regidas pelas seguintes equações:

Atualização do estado da célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização de estado oculto: ht = ot ⊙ tanh(ct)

Onde:

é o vetor de estado da célula no tempo $t$
é o vetor da porta do esquecimento
é o vetor da porta de entrada
é o vetor da porta de saída
é a entrada modulada pela porta de entrada
representa multiplicação elemento a elemento

Os portões controlam quais informações são armazenadas, esquecidas e emitidas do estado da célula, mitigando o problema do gradiente de desaparecimento.

xLSTM com controle exponencial:

1db6e3b2 3d1a 46ef 996c

A arquitetura xLSTM introduz portas exponenciais para permitir um controle mais flexível sobre o fluxo de informações. Para a variante escalar xLSTM (sLSTM):

Atualização do estado da célula: ct = ft ⊙ ct-1 + it ⊙ zt

Atualização do estado do normalizador: nt = ft ⊙ nt-1 + it

Atualização de estado oculto: ht = ot ⊙ (ct / nt)

Portas de entrada e esquecimento: it = exp (W_i xt + R_i ht-1 + b_i) ft = σ (W_f xt + R_f ht-1 + b_f) OU ft = exp (W_f xt + R_f ht-1 + b_f)

As funções de ativação exponencial para as portas de entrada (it) e esquecimento (ft), juntamente com o estado normalizador nt, permitem um controle mais eficaz sobre as atualizações de memória e a revisão das informações armazenadas.

xLSTM com memória matricial:

Para a variante Matrix xLSTM (mLSTM) com capacidade de armazenamento aprimorada:

Atualização do estado da célula: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Atualização do estado do normalizador: nt = ft ⊙ nt-1 + it ⊙ kt

Atualização de estado oculto: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Onde:

é o estado da célula da matriz
e são o valor e os vetores-chave
é o vetor de consulta usado para recuperação

Essas equações principais destacam como o xLSTM estende a formulação LSTM authentic com portas exponenciais para controle de memória mais flexível e memória matricial para recursos aprimorados de armazenamento. A combinação dessas inovações permite que o xLSTM supere as limitações dos LSTMs tradicionais.

Principais recursos e vantagens do xLSTM

Capacidade de revisar decisões de armazenamento: Graças ao gate exponencial, o xLSTM pode revisar efetivamente os valores armazenados ao encontrar informações mais relevantes, superando uma limitação significativa dos LSTMs tradicionais.
Capacidades de armazenamento aprimoradas: A memória matricial no mLSTM fornece maior capacidade de armazenamento, permitindo que o xLSTM lide com tokens raros, dependências de longo alcance e padrões de dados complexos de forma mais eficaz.
Paralelização: A variante mLSTM do xLSTM é totalmente paralelizável, permitindo cálculos eficientes em aceleradores de {hardware} modernos, como GPUs, e permitindo escalabilidade para modelos maiores.
Mistura de memória e rastreamento de estado: A variante sLSTM do xLSTM retém os recursos de mistura de memória dos LSTMs tradicionais, permitindo o rastreamento de estado e tornando o xLSTM mais expressivo do que transformadores e modelos de espaço de estado para determinadas tarefas.
Escalabilidade: Ao aproveitar as técnicas mais recentes dos modernos Giant Language Fashions (LLMs), o xLSTM pode ser dimensionado para bilhões de parâmetros, abrindo novas possibilidades em modelagem de linguagem e tarefas de processamento de sequência.

Avaliação Experimental: Apresentando as Capacidades do xLSTM

8b8ab7e4 d477 4a6e 940a

O artigo de pesquisa apresenta uma avaliação experimental abrangente do xLSTM, destacando seu desempenho em diversas tarefas e benchmarks. Aqui estão algumas descobertas importantes:

Tarefas Sintéticas e Area de Longo Alcance:
- O xLSTM é excelente na resolução de tarefas de linguagem formal que exigem rastreamento de estado, superando transformadores, modelos de espaço de estado e outras arquiteturas RNN.
- Na tarefa Multi-Question Associative Recall, o xLSTM demonstra capacidades de memória aprimoradas, superando os modelos não-Transformer e rivalizando com o desempenho dos Transformers.
- No benchmark Lengthy Vary Area, o xLSTM exibe um desempenho forte e consistente, demonstrando sua eficiência no tratamento de problemas de longo contexto.
Modelagem de linguagem e tarefas downstream:
- Quando treinado em tokens de 15 bilhões do conjunto de dados SlimPajama, o xLSTM supera os métodos existentes, incluindo transformadores, modelos de espaço de estado e outras variantes RNN, em termos de perplexidade de validação.
- À medida que os modelos são dimensionados para tamanhos maiores, o xLSTM continua a manter sua vantagem de desempenho, demonstrando um comportamento de dimensionamento favorável.
- Em tarefas posteriores, como raciocínio de bom senso e resposta a perguntas, o xLSTM surge como o melhor método em vários tamanhos de modelos, superando as abordagens de última geração.
Desempenho em tarefas de linguagem PALOMA:
- Avaliado em 571 domínios de texto do benchmark de linguagem PALOMA, xLSTM(1:0) (a variante sLSTM) atinge perplexidades mais baixas do que outros métodos em 99,5% dos domínios em comparação com Mamba, 85,1% em comparação com Llama e 99,8% em comparação com RWKV -4.
Leis de escala e extrapolação de comprimento:
- Quando treinado em tokens de 300 bilhões do SlimPajama, o xLSTM exibe leis de escalabilidade favoráveis, indicando seu potencial para melhorias adicionais de desempenho à medida que o tamanho do modelo aumenta.
- Em experimentos de extrapolação de comprimento de sequência, os modelos xLSTM mantêm baixas perplexidades mesmo para contextos significativamente mais longos do que aqueles observados durante o treinamento, superando outros métodos.

Esses resultados experimentais destacam as capacidades notáveis do xLSTM, posicionando-o como um candidato promissor para tarefas de modelagem de linguagem, processamento de sequências e uma ampla gama de outras aplicações.

Aplicações do mundo actual e direções futuras

As aplicações potenciais do xLSTM abrangem uma ampla gama de domínios, desde processamento e geração de linguagem pure até modelagem de sequência, análise de séries temporais e muito mais. Aqui estão algumas áreas interessantes onde o xLSTM pode causar um impacto significativo:

Modelagem de Linguagem e Geração de Texto: Com suas capacidades de armazenamento aprimoradas e capacidade de revisar informações armazenadas, o xLSTM pode revolucionar a modelagem de linguagem e as tarefas de geração de texto, permitindo uma geração de texto mais coerente, consciente do contexto e fluente.
Maquina de tradução: Os recursos de rastreamento de estado do xLSTM podem ser inestimáveis em tarefas de tradução automática, onde a manutenção de informações contextuais e a compreensão de dependências de longo alcance são cruciais para traduções precisas.
Reconhecimento e geração de fala: A paralelização e a escalabilidade do xLSTM o tornam adequado para aplicações de reconhecimento e geração de fala, onde o processamento eficiente de sequências longas é essencial.
Análise e previsão de séries temporais: a capacidade do xLSTM de lidar com dependências de longo alcance e armazenar e recuperar padrões complexos de maneira eficaz pode levar a melhorias significativas na análise de séries temporais e tarefas de previsão em vários domínios, como finanças, previsão do tempo e aplicações industriais.
Sistemas de Aprendizagem e Controle por Reforço: O potencial do xLSTM em sistemas de aprendizado e controle por reforço é promissor, pois seus recursos aprimorados de memória e habilidades de rastreamento de estado podem permitir tomada de decisões e controle mais inteligentes em ambientes complexos.

Otimizações de arquitetura e ajuste de hiperparâmetros

Embora os resultados atuais sejam promissores, ainda há espaço para otimizar a arquitetura xLSTM e ajustar seus hiperparâmetros. Os pesquisadores poderiam explorar diferentes combinações de blocos sLSTM e mLSTM, variando as proporções e posicionamentos dentro da arquitetura geral. Além disso, uma pesquisa sistemática de hiperparâmetros poderia levar a melhorias adicionais de desempenho, especialmente para modelos maiores.

966e75d0 3d84 4e77 b97e

Otimizações com reconhecimento de {hardware}: Para aproveitar totalmente a paralelização do xLSTM, especialmente a variante mLSTM, os pesquisadores poderiam investigar otimizações com reconhecimento de {hardware} adaptadas para arquiteturas de GPU específicas ou outros aceleradores. Isso poderia envolver a otimização dos kernels CUDA, estratégias de gerenciamento de memória e o aproveitamento de instruções ou bibliotecas especializadas para operações eficientes de matrizes.

Integração com outros componentes da rede neural: Explorar a integração do xLSTM com outros componentes da rede neural, como mecanismos de atenção, convoluções ou técnicas de aprendizagem autossupervisionadas, pode levar a arquiteturas híbridas que combinem os pontos fortes de diferentes abordagens. Estes modelos híbridos poderiam potencialmente desbloquear novas capacidades e melhorar o desempenho numa gama mais ampla de tarefas.

Aprendizagem por transferência e poucas tentativas: Explorar o uso de xLSTM em cenários de aprendizagem de transferência e de poucas tentativas pode ser um caminho interessante para pesquisas futuras. Ao aproveitar seus recursos aprimorados de memória e habilidades de rastreamento de estado, o xLSTM poderia potencialmente permitir uma transferência de conhecimento mais eficiente e uma rápida adaptação a novas tarefas ou domínios com dados de treinamento limitados.

Interpretabilidade e explicabilidade: Tal como acontece com muitos modelos de aprendizagem profunda, o funcionamento interno do xLSTM pode ser opaco e difícil de interpretar. O desenvolvimento de técnicas para interpretar e explicar as decisões tomadas pelo xLSTM poderia levar a modelos mais transparentes e confiáveis, facilitando a sua adoção em aplicações críticas e promovendo a responsabilização.

Estratégias de treinamento eficientes e escaláveis: À medida que os modelos continuam a crescer em tamanho e complexidade, estratégias de treinamento eficientes e escalonáveis tornam-se cada vez mais importantes. Os pesquisadores poderiam explorar técnicas como paralelismo de modelos, paralelismo de dados e abordagens de treinamento distribuído especificamente adaptadas para arquiteturas xLSTM, permitindo o treinamento de modelos ainda maiores e reduzindo potencialmente os custos computacionais.

Estas são algumas possíveis direções de pesquisa futura e áreas para exploração adicional com xLSTM.

Conclusão

A introdução do xLSTM marca um marco significativo na busca por modelagem de linguagem e arquiteturas de processamento de sequência mais poderosas e eficientes. Ao abordar as limitações dos LSTMs tradicionais e aproveitar novas técnicas, como portas exponenciais e estruturas de memória matricial, o xLSTM demonstrou um desempenho notável em uma ampla gama de tarefas e benchmarks.

No entanto, a jornada não termina aqui. Como acontece com qualquer tecnologia inovadora, o xLSTM apresenta oportunidades interessantes para maior exploração, refinamento e aplicação em cenários do mundo actual. À medida que os investigadores continuam a ultrapassar os limites do que é possível, podemos esperar testemunhar avanços ainda mais impressionantes no campo do processamento de linguagem pure e da inteligência synthetic.

join the future newsletter Unite AI Mobile Newsletter 1