Tech

MoRA: atualização de alto nível para ajuste fino com eficiência de parâmetros

LifeTechWebJune 15, 2024

0 9 minutes read

Devido ao seu desempenho robusto e ampla aplicabilidade quando comparado a outros métodos, LoRA ou Low-Rank Adaption é um dos métodos PEFT ou Parameter Environment friendly Wonderful-Tuning mais populares para o ajuste fino de um modelo de linguagem grande. A estrutura LoRA emprega duas matrizes de classificação baixa para decompor e aproximar os pesos atualizados na FFT ou Full Wonderful Tuning, e a estrutura LoRA modifica esses parâmetros treináveis de acordo, ajustando a classificação das matrizes. O principal benefício da implementação do processo é que ele facilita a estrutura LoRA para mesclar essas matrizes sem a latência de inferência após o ajuste fino. Além disso, embora os grandes modelos linguísticos recentes proporcionem um desempenho notável em tarefas de aprendizagem em contexto, certos cenários ainda requerem afinação e podem ser categorizados genericamente em três tipos. O primeiro tipo, ajuste de instruções, visa alinhar melhor os LLMs com as tarefas finais e as preferências do usuário sem aprimorar o conhecimento e as capacidades dos LLMs, uma abordagem que simplifica o processo de lidar com tarefas variadas e instruções complexas. O segundo tipo inclui tarefas complexas de raciocínio, como resolução de problemas matemáticos. Finalmente, o terceiro tipo é o pré-treinamento contínuo, uma abordagem que tenta aprimorar as capacidades gerais específicas do domínio de grandes modelos de linguagem.

Neste artigo, falaremos sobre se a atualização de baixa classificação impacta o desempenho da estrutura LoRA, pois foi observado que o mecanismo de atualização de baixa classificação pode prejudicar a capacidade do modelo de linguagem grande de aprender e memorizar novos conhecimentos. Com base no mesmo, neste artigo falaremos sobre o MoRA, um novo método que alcança atualização de alto nível enquanto mantém o mesmo número de parâmetros treináveis, empregando uma matriz quadrada. Para conseguir isso, a estrutura MoRA reduz a dimensão de entrada e aumenta a dimensão de saída para a matriz quadrada, introduzindo os operadores não-parâmetros correspondentes. Além disso, estes operadores garantem que o peso pode ser fundido novamente em LLMs, o que torna a estrutura MoRA implementável como LoRA.

Este artigo tem como objetivo cobrir a estrutura MoRA em profundidade e explorar o mecanismo, a metodologia, a arquitetura da estrutura juntamente com sua comparação com estruturas do estado da arte. Então vamos começar.

À medida que o tamanho e as capacidades dos modelos de linguagem estão aumentando, o PEFT ou Parameter Environment friendly Wonderful-Tuning está emergindo como um dos métodos mais populares e eficientes para adaptar LLMs a tarefas downstream específicas. Comparado ao FFT ou Full Wonderful Tuning, que atualiza todos os parâmetros, o PEFT modifica apenas uma fração do complete de parâmetros, pois em algumas tarefas pode atingir desempenho semelhante ao FFT atualizando menos de 1% do complete de parâmetros, reduzindo assim os requisitos de memória para o otimizador significativamente, ao mesmo tempo que facilita o armazenamento e a implantação de modelos. Além disso, entre todos os métodos PEFT existentes, o LoRA é o mais common atualmente, especialmente para LLMs. Uma das principais razões pelas quais os métodos LoRA oferecem melhor desempenho quando comparados aos métodos PEFT, como adaptadores ou ajuste de immediate, é que o LoRA usa matrizes de baixa classificação para atualizar parâmetros, com a estrutura tendo o controle para mesclar essas matrizes nos parâmetros do modelo authentic, sem aumentando os requisitos computacionais durante a inferência. Embora existam numerosos métodos que tentam melhorar o LoRA para modelos de linguagem grandes, a maioria desses modelos depende do GLUE para validar sua eficiência, seja por exigir poucos parâmetros treináveis, ou por alcançar melhor desempenho.

Além disso, experimentos conduzidos no LoRA em uma ampla gama de tarefas, incluindo pré-treinamento contínuo, raciocínio matemático e ajuste de instruções, indicam que, embora as estruturas baseadas em LoRA demonstrem desempenho semelhante nessas tarefas e forneçam desempenho em tarefas de ajuste de instruções comparáveis aos métodos baseados em FFT. No entanto, os modelos baseados em LoRA não conseguiram replicar o desempenho em tarefas de pré-treinamento contínuo e de raciocínio matemático. Uma possível explicação para essa falta de desempenho pode ser a dependência do LoRA em atualizações de matriz de classificação baixa, uma vez que a matriz de atualização de classificação baixa pode ter dificuldade para estimar as atualizações de classificação completa na FFT, especialmente em tarefas com uso intensivo de memória que exigem memorização de domínio. conhecimento específico, como pré-treinamento contínuo. Como a classificação da matriz de atualização de classificação inferior é menor que a classificação completa, ela limita a capacidade de armazenar novas informações usando o ajuste fino. Com base nessas observações, o MoRA tenta maximizar a classificação na matriz de atualização de classificação baixa, mantendo o mesmo número de parâmetros treináveis, empregando uma matriz quadrada em oposição ao uso de matrizes de classificação baixa em modelos tradicionais baseados em LoRA. A figura a seguir compara a estrutura MoRA com LoRA sob o mesmo número de parâmetros treináveis.

Na imagem acima, (a) representa LoRA e (b) representa MoRA. W é o peso congelado do modelo, M é a matriz treinável no MoRA, A e B são matrizes treináveis de classificação baixa no LoRA e r representa a classificação no LoRA e MoRA. Como pode ser observado, a estrutura MoRA demonstra uma capacidade maior do que os modelos baseados em LoRA com uma classificação elevada. Além disso, a estrutura MoRA desenvolve operadores não-parâmetros correspondentes para reduzir a dimensão de entrada e aumentar a dimensão de saída para a matriz treinável M. Além disso, a estrutura MoRA concede a flexibilidade para usar uma matriz de atualização de classificação baixa para substituir a matriz treinável M e os operadores, garantindo que o método MoRA possa ser fundido novamente no grande modelo de linguagem como LoRA. A tabela a seguir compara o desempenho das variantes FFT, LoRA, LoRA e nosso método de ajuste de instruções, raciocínio matemático e tarefas contínuas de pré-treinamento.

2 2

MoRA: Metodologia e Arquitetura

A influência da atualização de baixo escalão

O princípio elementary dos modelos baseados em LoRA é estimar atualizações de classificação completa na FFT, empregando atualizações de classificação baixa. Tradicionalmente, para uma determinada matriz de parâmetros pré-treinados, o LoRA emprega duas matrizes de classificação baixa para calcular a atualização de peso. Para garantir que as atualizações de peso sejam 0 quando o treinamento começar, a estrutura LoRA inicializa uma das matrizes de classificação baixa com uma distribuição gaussiana enquanto a outra com 0. A atualização de peso geral no LoRA exibe uma classificação baixa quando comparada ao ajuste fino na FFT, embora a atualização de classificação baixa no LoRA ofereça desempenho equivalente à atualização de classificação completa em tarefas específicas, incluindo ajuste de instruções e classificação de texto. No entanto, o desempenho da estrutura LoRA começa a deteriorar-se para tarefas como pré-formação contínua e raciocínio complexo. Com base nessas observações, o MoRA propõe que é mais fácil aproveitar as capacidades e o conhecimento authentic do LLM para resolver tarefas usando atualizações de baixa classificação, mas o modelo tem dificuldade para executar tarefas que exigem recursos aprimorados e conhecimento do modelo de linguagem grande. .

Metodologia

Embora os LLMs com aprendizagem contextual representem uma grande melhoria de desempenho em relação às abordagens anteriores, ainda existem contextos que dependem de um ajuste fino que se enquadra em três categorias. Existem LLMs que ajustam as instruções, alinhando-as com as tarefas e preferências do usuário, o que não aumenta consideravelmente o conhecimento e as capacidades dos LLMs. Isso torna mais fácil trabalhar com múltiplas tarefas e compreender instruções complicadas. Outro tipo envolve tarefas de raciocínio complexas que são como a resolução de problemas matemáticos, para as quais o ajuste geral de instruções é insuficiente quando se trata de lidar com tarefas complexas de raciocínio simbólico em várias etapas. A maior parte da investigação relacionada destina-se a melhorar as capacidades de raciocínio dos LLMs e requer a concepção de conjuntos de dados de formação correspondentes com base em modelos de professores maiores, como o GPT-4, ou a reformulação de questões correspondentes à lógica ao longo de um caminho de raciocínio. O terceiro tipo, pré-treinamento contínuo, é projetado para melhorar as habilidades específicas de domínio dos LLMs. Ao contrário do ajuste de instrução, o ajuste fino é necessário para enriquecer conhecimentos e habilidades específicas do domínio relacionado.

No entanto, a maioria das variantes do LoRA usa quase exclusivamente tarefas de ajuste de instruções GLUE ou de classificação de texto para avaliar sua eficácia no contexto de LLMs. Como o ajuste fino para ajuste de instruções requer menos recursos em comparação com outros tipos, pode não representar uma comparação adequada entre as variantes LoRA. Adicionar tarefas de raciocínio para avaliar melhor seus métodos tem sido uma prática comum em trabalhos mais recentes. No entanto, geralmente empregamos pequenos conjuntos de treinamento (mesmo em 1 milhão de exemplos, o que é bastante grande). O LLMS luta para aprender o raciocínio adequado a partir de exemplos desse tamanho. Por exemplo, algumas abordagens utilizam o GSM8K com apenas 7,5 mil episódios de treinamento. No entanto, esses números ficam aquém do método SOTA que foi treinado em 395 mil amostras e tornam difícil avaliar a capacidade desses métodos de aprender o poder de raciocínio da PNL.

Com base nas observações da influência da atualização de baixa classificação, a estrutura do MoRA propõe um novo método para mitigar os efeitos negativos da atualização de baixa classificação. O princípio básico da estrutura MoRA é empregar os mesmos parâmetros treináveis na máxima extensão possível para alcançar uma classificação mais elevada na matriz de atualização de classificação inferior. Depois de contabilizar os pesos pré-treinados, a estrutura LoRA usa duas matrizes de classificação baixa A e B com parâmetros treináveis totais para a classificação r. No entanto, para o mesmo número de parâmetros treináveis, uma matriz quadrada pode atingir a classificação mais elevada, e a estrutura MoRA consegue isso reduzindo a dimensão de entrada e aumentando a dimensão de saída para a matriz quadrada treinável. Além disso, estas duas funções devem ser operadores não parametrizados e devem ser executadas em tempo linear correspondente à dimensão.

MoRA: Experimentos e Resultados

Para avaliar seu desempenho, a estrutura MoRA é avaliada em uma ampla gama de tarefas para compreender a influência da atualização de alto nível em três tarefas: memorização de pares UUID, tarefas de ajuste fino e pré-treinamento.

Memorizando Pares UUID

Para demonstrar as melhorias no desempenho, a estrutura MoRA é comparada com as estruturas FFT e LoRA na memorização de pares UUID. A perda de treinamento do experimento é refletida na imagem a seguir.

3 2

É importante notar que, para o mesmo número de parâmetros treináveis, a estrutura MoRA é capaz de superar os modelos LoRA existentes, indicando que beneficiou da estratégia de atualização de alto nível. O relatório de precisão do treinamento em nível de personagem em diferentes etapas de treinamento está resumido na tabela a seguir. 4 2

Como pode ser observado, quando comparado ao LoRA, o framework MoRA realiza menos etapas de treinamento para memorizar os pares UUID.

Tarefas de ajuste fino

Para avaliar seu desempenho em tarefas de ajuste fino, a estrutura MoRA é avaliada em três tarefas de ajuste fino: ajuste de instruções, raciocínio matemático e pré-treinamento contínuo, projetado para modelos de linguagem grandes, juntamente com um conjunto de dados correspondente de alta qualidade para ambos. os modelos MoRA e LoRA. Os resultados das tarefas de ajuste fino são apresentados na tabela a seguir.

5 2

Como pode ser observado, em tarefas de raciocínio matemático e ajuste de instruções, tanto o modelo LoRA quanto o MoRA retornam desempenho semelhante. No entanto, o modelo MORA surge à frente do quadro LoRA em tarefas contínuas de pré-formação tanto para os domínios biomédicos como financeiros, beneficiando de uma abordagem de atualização de alto nível para memorizar novos conhecimentos. Além disso, é very important compreender que as três tarefas são diferentes umas das outras, com requisitos diferentes e capacidades de ajuste fino diferentes.

Pré treino

Para avaliar a influência da atualização de alto nível no desempenho geral, o transformador dentro da estrutura MoRA é treinado do zero nos conjuntos de dados C4 e o desempenho é comparado com os modelos LoRA e ReLoRA. A perda de pré-treinamento juntamente com a complexidade correspondente no conjunto de dados C4 são demonstradas nas figuras a seguir.

6 1

Como pode ser observado, o modelo MoRA apresenta melhor desempenho em tarefas de pré-treinamento quando comparado aos modelos LoRA e ReLoRA com a mesma quantidade de parâmetros treináveis.

Além disso, para demonstrar o impacto da atualização de classificação alta na classificação da matriz de atualização de classificação baixa, a estrutura MoRA analisa o espectro de valores singulares para a matriz de atualização de classificação baixa aprendida, pré-treinando o modelo 250M, e os resultados estão contidos na imagem a seguir.

Pensamentos finais

Neste artigo, falamos sobre se a atualização de baixa classificação impacta o desempenho da estrutura LoRA, pois foi observado que o mecanismo de atualização de baixa classificação pode prejudicar a capacidade do modelo de linguagem grande de aprender e memorizar novos conhecimentos. Com base no mesmo, neste artigo falaremos sobre o MoRA, um novo método que alcança atualização de alto nível enquanto mantém o mesmo número de parâmetros treináveis, empregando uma matriz quadrada. Para conseguir isso, a estrutura MoRA reduz a dimensão de entrada e aumenta a dimensão de saída para a matriz quadrada, introduzindo os operadores não-parâmetros correspondentes. Além disso, estes operadores garantem que o peso pode ser fundido novamente em LLMs, o que torna a estrutura MoRA implementável como LoRA.

join the future newsletter Unite AI Mobile Newsletter 1