Reflexão 70B: LLM com Cognição Autocorretiva e Desempenho de Liderança

Reflexão 70B é um modelo de linguagem grande (LLM) de código aberto desenvolvido pela HyperWrite. Este novo modelo introduz uma abordagem à cognição de IA que pode remodelar como interagimos e confiamos em sistemas de IA em vários campos, do processamento de linguagem à resolução avançada de problemas.

Alavancando Reflexão-Afinaçãouma técnica inovadora que permite ao modelo autoavaliar e corrigir seus próprios erros em tempo actual, o Reflection 70B rapidamente subiu ao topo, superando modelos proprietários como GPT-4 e Soneto Claude 3.5 em vários benchmarks, incluindo MLLU, MATEMÁTICAe Avaliação Humana.

O Reflection 70B é construído sobre o robusto Chama 3.1-70B arquitetura, mas seu mecanismo de auto-refinamento o diferencia. Por meio de ciclos iterativos de reflexão, detecção de erros e refinamento de saída, o modelo imita a cognição humana de uma forma sem precedentes, expandindo os limites do que a IA pode alcançar. Como resultado, o Reflection 70B oferece não apenas precisão incomparável, mas também insights mais profundos sobre seu processo de tomada de decisão, um recurso crítico para aplicativos em que transparência e precisão são primordiais.

O que é Reflexão 70B

Em sua essência, o Reflection 70B é construído sobre Modelo de instrução Llama 3.1-70B de código aberto da Meta. No entanto, o que realmente o diferencia é sua capacidade única de se envolver em um processo semelhante à reflexão humana — daí seu nome. Essa capacidade deriva de uma técnica chamada “Reflexão-Afinação”, que permite ao modelo identificar e corrigir seus próprios erros em tempo actual, melhorando assim sua precisão e confiabilidade.

Matt ShumerCEO da HyperWrite, apresentou o Reflection 70B com a afirmação ousada de que é “o melhor modelo de IA de código aberto do mundo.“Mas o que exatamente torna este modelo tão especial e como ele se compara a gigantes da indústria como GPT-4 e Soneto Claude 3.5? Vamos explorar.

Compreendendo o ajuste de reflexão seletiva: uma mudança de paradigma no treinamento de IA

O Selective Reflection-Tuning apresenta uma abordagem para instrução de ajusteonde o objetivo é melhorar tanto a qualidade dos dados de instrução e sua compatibilidade com o modelo de estudante sendo ajustado. Os métodos tradicionais geralmente se concentram em melhorar os dados em si, mas ignoram o quão bem os pares de dados aprimorados se alinham com os objetivos de aprendizagem do modelo. O Selective Reflection-Tuning preenche essa lacuna ao promover uma colaboração professor-alunoonde um modelo de professor introspecta os dados e fornece pares de instruções-respostas refinados, enquanto o modelo de estudante avalia e seleciona apenas as melhorias que melhor atendem às suas necessidades de treinamento.

O processo consiste em duas fases principais:

Reflexão sobre a Instrução Seletiva: O modelo do professor reflete sobre a instrução de uma amostra dada e gera um par instrução-resposta refinado. O modelo do aluno então avalia se essa nova instrução é benéfica com base em uma métrica chamada Instrução após dificuldade (IFD). A pontuação IFD avalia a dificuldade da amostra para o modelo do aluno, garantindo que apenas os dados que desafiam o modelo adequadamente sejam retidos.
Reflexão de Resposta Seletiva: Nesta fase, o modelo do professor reflete sobre as respostas geradas na primeira fase. O modelo do aluno avalia essas respostas usando Instrução reversa após dificuldade (r-IFD)uma métrica que mede o quão viável é para o aluno deduzir a instrução com base na resposta. Isso garante que a resposta não apenas melhore o raciocínio do modelo, mas também se alinhe bem com o conhecimento existente do aluno.

Ao aplicar ambos IFD e r-IFDO ajuste de reflexão seletiva produz pares de dados que são desafiadores, mas viávelmelhorando o processo de ajuste de instruções sem a necessidade de conjuntos de dados adicionais. O resultado é um amostra eficiente e de alto desempenho LLM que supera muitos modelos maiores.

A Arquitetura do Pensamento: Como a Reflexão 70B “Pensa”

A arquitetura subjacente do Reflection 70B leva o raciocínio de IA a um novo nível ao dividir o processo de pensamento em múltiplos estágios. Cada estágio permite que o modelo melhore iterativamente por meio da autorreflexão, muito parecido com a cognição humana:

Dados iniciais e resposta: O modelo começa gerando uma resposta à instrução dada. Esta saída inicial é comparable às saídas LLM padrão.
Reflexão sobre a Instrução Seletiva:Após gerar a resposta inicial, o modelo entra no fase de reflexão da instrução. O modelo do professor reflete sobre a instrução unique e sugere melhorias. Essas sugestões são então avaliadas pelo modelo do aluno usando o Pontuação IFD para determinar se o novo par instrução-resposta é mais adequado para ajustes posteriores.
Reflexão de Resposta Seletiva: Após a reflexão sobre a instrução, o modelo se transfer para refinar a resposta em si. Aqui, o modelo do professor gera uma nova resposta com base na instrução atualizada. O modelo do aluno, usando o Pontuação r-IFDavalia se a nova resposta ajuda a deduzir a instrução de forma mais eficiente.
Instrução Last de Afinação: Uma vez que o melhor par instrução-resposta é escolhido, ele é adicionado ao conjunto de dados last usado para ajustar o modelo. Este processo de vários estágios garante que apenas os pares instrução-resposta mais eficazes e coerentes sejam incluídos nos dados de ajuste fino.

Esse reflexão estruturada O processo permite que os usuários vejam como o modelo itera por meio de seu processo de pensamento, criando transparência e melhorando significativamente a precisão e a consistência em tarefas complexas.

Benchmarking de Brilliance: Reflexão 70B em Ação

O uso do Selective Reflection-Tuning pelo Reflection 70B não só oferece um processo de treinamento mais sofisticado, mas também alcança desempenho líder do setor em vários benchmarks. Por meio de seu mecanismo de autoavaliação iterativo, o modelo supera modelos proprietários que são significativamente maiores em tamanho.

MMLU (Entendimento Massivo de Linguagem Multitarefa): O Reflection 70B obteve uma pontuação impressionante 72,2%superando outros grandes modelos de código aberto como o LLaMA 2.
Referência de matemática:Em tarefas de raciocínio matemático, o modelo superou o GPT-4 e o Claude 3.5 por uma margem considerável, demonstrando sua força em lidar com cenários complexos de resolução de problemas.
IFEval e GSM8K: O Reflection 70B também se destacou em IFEvalonde é coerência instrução-resposta foi avaliado e em GSM8Kum benchmark de resolução de problemas matemáticos. O ajuste autorreflexivo permitiu que o modelo lidasse com problemas intrincados e matizados de forma mais eficaz do que seus concorrentes maiores.

Ao utilizar o Selective Reflection-Tuning, o Reflection 70B demonstrou que tamanho não é o único fator na obtenção de alto desempenho. A capacidade de autocorrigir e refletir em suas saídas levou a raciocínio mais forte e coerentepermitindo-lhe superar modelos com mais parâmetros.

gráfico comparando o desempenho do sRecycled WizardLM 7B com outros modelos como Zephyr 7B Beta, Vicuna 13B v1.3 e LLaMA2 Chat 7B. O gráfico destaca o forte desempenho do sRecycled WizardLM 7B, com uma análise detalhada de vitórias, empates e perdas em diferentes modelos

sRecycled WizardLM 7B vs. Comparação de desempenho de outros modelos

Aplicações no mundo actual: aproveitando o potencial do Reflection 70B

A correção de erros em tempo actual e a tomada de decisão transparente do Reflection 70B abrem novas portas em vários campos. Abaixo estão alguns casos de uso do mundo actual:

Resolução de problemas complexos

A força do Reflection 70B está em lidar com problemas complexos. Considere uma consulta matemática desafiadora:

Consumer: "Remedy the equation: 2x^2 + 5x - 3 = 0"
Reflection 70B:
<pondering> Making use of the quadratic formulation...</pondering>
<reflection> A correction in calculation...</reflection>
<output> The options are x = 1/2 and x = -3.</output>

Tradução de idiomas com sensibilidade cultural

Ao contrário dos modelos de tradução típicos, o Reflection 70B adapta as traduções de idiomas aos contextos culturais:

Consumer: "Translate 'It is raining cats and canines' to French, contemplating cultural context."
Reflection 70B:
pondering :The literal translation can be "Il pleut des chats et des chiens"...pondering;
reflection: A culturally acceptable translation can be "Il pleut des cordes."reflection;
output: Translation offered.

Melhorando a depuração e otimização do código

Os recursos de correção de erros do Reflection 70B o tornam supreme para depuração e otimização de código:

Consumer: "Debug this Python code..."
Reflection 70B: <pondering> Analyzing step-by-step...</pondering>
<reflection> Recognized infinite recursion.</reflection>
<output> Corrected code model with correct recursion.</output>

Expandindo o cenário competitivo dos modelos 70B

Embora o Reflection 70B esteja fazendo ondas, ele faz parte de um ecossistema mais amplo de 70 bilhões de modelos de parâmetros. Veja como ele se compara a outros:

Lhama de Meta 3.1-70B: Modelo de base sólida conhecido por aplicações de uso geral.
Claude 2 70B (Antrópico): Focado em IA ética, hábil em raciocínio e geração de conteúdo longo.
GPT-3.5 70B (OpenAI): Uma versão mais leve do GPT-4, com excelente equilíbrio entre desempenho e eficiência.
FLOR 70B: Potência multilíngue treinada em linguagens naturais e de programação.
Falcão 70B: Notável por sua eficiência de treinamento e inferência.

Executando modelos 70B com eficiência: técnicas mais recentes

Executar modelos desse tamanho com eficiência não é uma tarefa fácil. Para maximizar o desempenho, aqui estão as estratégias mais recentes:

1. Quantização

Reduzir a precisão do peso do modelo ajuda a diminuir o uso de memória e os tempos de inferência. Quantização de 4 bits técnicas usando Bits e bytes permitir que o Reflection 70B seja executado com eficiência em GPUs menores.

Exemplo:

from transformers import AutoModelForCausalLM
mannequin = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-70b-hf", load_in_4bit=True)

2. Fragmentação do modelo

Dividir o modelo em várias GPUs (por exemplo, usando Velocidade Profunda Zero) permite manipular modelos maiores sem exceder a memória da GPU.

from xformers.ops import memory_efficient_attention
mannequin.consideration = memory_efficient_attention

3. Precisão mista e atenção eficiente

FlashAtenção e ex-formadores reduz a sobrecarga de atenção, melhorando os tempos de processamento para grandes sequências de entrada.

from xformers.ops import memory_efficient_attention
mannequin.consideration = memory_efficient_attention

4. Descarregamento e poda da CPU

Descarregamento da CPU e a redução de pesos menos críticos ajuda a executar modelos em {hardware} mais modesto, mantendo o desempenho.

from speed up import cpu_offload
mannequin = cpu_offload(mannequin)

Olhando para o futuro: O futuro com reflexão 405B

A próxima fronteira do HyperWrite é o desenvolvimento de Reflexão 405Bum modelo que deve superar o Reflection 70B tanto em escala quanto em desempenho. Este modelo visa expandir os limites da IA de código aberto, posicionando-se para desafiar até mesmo os modelos proprietários mais avançados, como o GPT-5.

Conclusão

Através Reflexão-AfinaçãoO Reflection 70B alcançou desempenho líder do setor em benchmarks importantes, tudo isso mantendo um nível de transparência e precisão raramente visto em IA de código aberto. Sua capacidade de autocorreção lhe dá uma vantagem distinta, especialmente em campos que exigem altos níveis de precisão, como codificação, tradução de idiomas e resolução de problemas complexos.

join the future newsletter Unite AI Mobile Newsletter 1