Tech

Avaliando grandes modelos de linguagem: um guia técnico

Grandes modelos de linguagem (LLMs) porquê GPT-4, Claude e LLaMA explodiram em popularidade. Graças à sua capacidade de gerar textos impressionantemente semelhantes aos humanos, esses sistemas de IA estão agora sendo usados ​​para tudo, desde a geração de teor até chatbots de atendimento ao cliente.

Mas porquê sabemos se esses modelos são realmente bons? Com novos LLMs sendo anunciados sempre, todos afirmando serem maiores e melhores, porquê avaliamos e comparamos seu desempenho?

Neste guia abrangente, exploraremos as principais técnicas para julgar grandes modelos de linguagem. Veremos os prós e os contras de cada abordagem, quando elas são melhor aplicadas e porquê você pode aproveitá-las em seus próprios testes de LLM.

Métricas Específicas de Tarefas

Uma das maneiras mais diretas de julgar um LLM é testá-lo em tarefas estabelecidas de PNL usando métricas padronizadas. Por exemplo:

Resumo

Para tarefas de resumo, métricas porquê ROUGE (Recall-Oriented Understudy for Gisting Evaluation) são comumente usados. ROUGE compara o resumo gerado pelo padrão a um resumo de “referência” escrito por humanos, contando a sobreposição de palavras ou frases.

Existem vários sabores de ROUGE, cada um com seus prós e contras:

  • VERMELHO-N: Compara a sobreposição de n-gramas (sequências de N palavras). ROUGE-1 usa unigramas (palavras únicas), ROUGE-2 usa bigramas, etc. A vantagem é que tomada a ordem das palavras, mas pode ser muito estrito.
  • VERMELHO-L: Com base na subsequência geral mais longa (LCS). Mais maleável na ordem das palavras, mas concentra-se nos pontos principais.
  • ROUGE-W: Pondera as correspondências do LCS de entendimento com sua valimento. Tentativas de melhorar o ROUGE-L.

Em universal, as métricas ROUGE são rápidas, automáticas e funcionam muito para qualificar resumos de sistemas. No entanto, eles não medem conformidade ou significado. Um resumo pode obter uma pontuação subida no ROUGE e ainda assim ser sem razão.

A fórmula para ROUGE-N é:

ROUGE-N=∑∈{Resumos de Referência}∑∑�∈{Resumos de Referência}∑

Onde:

  • Count_{match}(gram_n) é a resenha de n-gramas no resumo gerado e no resumo de referência.
  • Count(gram_n) é a resenha de n-gramas no resumo de referência.

Por exemplo, para ROUGE-1 (unigramas):

  • Resumo gerado: “O gato sentou.”
  • Resumo de referência: “O gato sentou no tapete.”
  • Unigramas sobrepostos: “O”, “gato”, “sat”
  • Pontuação ROUGE-1 = 3/5 = 0,6

VERMELHO-L usa a subsequência geral mais longa (LCS). É mais maleável com a ordem das palavras. A fórmula é:

ROUGE-L=���(gerado,referência)max(comprimento(gerado), comprimento(referência))

Onde LCS é o comprimento da maior subsequência geral.

ROUGE-W pondera as correspondências do LCS. Considera a valimento de cada partida na LCS.

Tradução

Para tarefas de tradução automática, AZUL (Subestudo de Avaliação Bilíngue) é uma métrica popular. O BLEU mede a semelhança entre a tradução de saída do padrão e as traduções humanas profissionais, usando precisão de n gramas e uma penalidade de brevidade.

Aspectos principais de porquê o BLEU funciona:

  • Compara sobreposições de n gramas para n até 4 (unigramas, bigramas, trigramas, 4 gramas).
  • Calcula uma média geométrica das precisões de n-gramas.
  • Aplica uma penalidade de brevidade se a tradução for muito menor que a referência.
  • Geralmente varia de 0 a 1, sendo 1 a correspondência perfeita com a referência.

O BLEU correlaciona-se razoavelmente muito com os julgamentos humanos sobre a qualidade da tradução. Mas ainda tem limitações:

  • Mede exclusivamente a precisão em relação a referências, não em recall ou F1.
  • Luta com traduções criativas usando palavras diferentes.
  • Suscetível a “jogos” com truques de tradução.

Outras métricas de tradução, porquê METEOR e TER, tentam melhorar os pontos fracos do BLEU. Mas, em universal, as métricas automáticas não captam totalmente a qualidade da tradução.

Outras tarefas

Além de resumo e tradução, métricas porquê F1, precisão, MSE e muito mais podem ser usadas para julgar o desempenho do LLM em tarefas porquê:

  • Classificação de texto
  • Extração de informações
  • Resposta a perguntas
  • Estudo de sentimentos
  • Detecção de erros gramaticais

A vantagem das métricas específicas de tarefas é que a avaliação pode ser totalmente automatizada usando conjuntos de dados padronizados porquê Esquadrão para controle de qualidade e COLA referência para uma série de tarefas. Os resultados podem ser facilmente acompanhados ao longo do tempo à medida que os modelos melhoram.

No entanto, essas métricas têm um foco restrito e não podem medir a qualidade universal da linguagem. LLMs que apresentam bom desempenho em métricas para uma única tarefa podem falhar na geração de texto harmónico, lógico e útil em universal.

Referências de pesquisa

Uma forma popular de julgar LLMs é testá-los em relação a amplos benchmarks de pesquisa que cobrem diversos tópicos e habilidades. Esses benchmarks permitem que os modelos sejam testados rapidamente em graduação.

Alguns benchmarks muito conhecidos incluem:

  • SuperCOLA – Conjunto reptador de 11 tarefas linguísticas diversas.
  • COLA – Coleção de tarefas de compreensão de 9 frases. Mais simples que SuperGLUE.
  • MMLU – 57 tarefas diferentes em STEM, ciências sociais e humanidades. Testa conhecimento e capacidade de raciocínio.
  • Duelo do esquema Winograd – Problemas de solução de pronomes que requerem raciocínio de bom siso.
  • ARCO – Tarefas desafiadoras de raciocínio em linguagem procedente.
  • Hellaswag – Raciocínio de bom siso sobre situações.
  • PIQA – Questões de física que exigem diagramas.

Ao julgar benchmarks porquê esses, os pesquisadores podem testar rapidamente os modelos quanto à sua capacidade de realizar matemática, lógica, raciocínio, codificação, bom siso e muito mais. A porcentagem de questões respondidas corretamente torna-se uma métrica de referência para conferência de modelos.

No entanto, um grande problema com os benchmarks é contaminação de dados de treinamento. Muitos benchmarks contêm exemplos que já foram vistos pelos modelos durante o pré-treinamento. Isso permite que os modelos “memorizar”responde a perguntas específicas e tem um desempenho melhor do que suas verdadeiras capacidades.

São feitas tentativas de “descontaminar”Benchmarks removendo exemplos sobrepostos. Mas é difícil fazê-lo de forma abrangente, mormente quando os modelos podem ter visto versões parafraseadas ou traduzidas das perguntas.

Assim, embora os benchmarks possam testar um vasto conjunto de competências de forma eficiente, não podem medir de forma fiável as verdadeiras capacidades de raciocínio ou evitar a inflação das pontuações devido à contaminação. São necessários métodos de avaliação complementares.

Autoavaliação LLM

Uma abordagem intrigante é fazer com que um LLM avalie os resultados de outro LLM. A teoria é aproveitar o noção de tarefa “mais fácil”:

  • Produzir um resultado de subida qualidade pode ser difícil para um LLM.
  • Mas estabelecer se um determinado resultado é de subida qualidade pode ser uma tarefa mais fácil.

Por exemplo, embora um LLM possa ter dificuldades para gerar um parágrafo factual e harmónico a partir do zero, ele pode julgar mais facilmente se um determinado parágrafo faz sentido lógico e se ajusta ao contexto.

Portanto o processo é:

  1. Passe o prompt de ingresso para o primeiro LLM para gerar saída.
  2. Passe o prompt de ingresso + saída gerada para o segundo LLM “avaliador”.
  3. Faça uma pergunta ao avaliador LLM para julgar a qualidade do resultado. por exemplo, “A resposta supra faz sentido lógico?”

Essa abordagem é rápida de implementar e automatiza a avaliação do LLM. Mas existem alguns desafios:

  • O desempenho depende muito da escolha do avaliador LLM e da formulação imediata.
  • Restringido pela dificuldade da tarefa original. Determinar raciocínios complexos ainda é difícil para LLMs.
  • Pode ser computacionalmente dispendioso se usar LLMs baseados em API.

A autoavaliação é mormente promissora para julgar informações recuperadas em RAG (geração aumentada de recuperação) sistemas. Consultas adicionais do LLM podem validar se o contexto restaurado for usado adequadamente.

No universal, a autoavaliação mostra potencial, mas requer desvelo na implementação. Complementa, em vez de substituir, a avaliação humana.

Avaliação Humana

Dadas as limitações das métricas e benchmarks automatizados, a avaliação humana ainda é o padrão ouro para julgar rigorosamente a qualidade do LLM.

Os especialistas podem fornecer avaliações qualitativas detalhadas sobre:

  • Precisão e correção factual
  • Lógica, raciocínio e bom siso
  • Congruência, consistência e legibilidade
  • Adequação de tom, estilo e voz
  • Gramaticalidade e fluidez
  • Originalidade e nuances

Para julgar um padrão, os humanos recebem um conjunto de solicitações de ingresso e as respostas geradas pelo LLM. Avaliam a qualidade das respostas, muitas vezes utilizando escalas e rubricas de avaliação.

A desvantagem é que a avaliação humana manual é faceta, lenta e difícil de escalar. Também requer o desenvolvimento de critérios padronizados e o treinamento de avaliadores para aplicá-los de forma consistente.

Alguns pesquisadores exploraram maneiras criativas de financiar avaliações LLM humanas usando sistemas do tipo torneio, onde as pessoas apostam e julgam os confrontos entre modelos. Mas a cobertura ainda é limitada em conferência com avaliações manuais completas.

Para casos de uso de negócios em que a qualidade é mais importante do que a graduação bruta, os testes humanos especializados continuam sendo o padrão ouro, apesar dos seus custos. Isto é mormente verdadeiro para aplicações mais arriscadas de LLMs.

Desfecho

A avaliação completa de grandes modelos de linguagem requer o uso de um kit de ferramentas diversificado de métodos complementares, em vez de depender de uma única técnica.

Ao combinar abordagens automatizadas para velocidade com supervisão humana rigorosa para precisão, podemos desenvolver metodologias de teste confiáveis ​​para grandes modelos de linguagem. Com uma avaliação robusta, podemos desbloquear o enorme potencial dos LLMs, ao mesmo tempo que gerimos os seus riscos de forma responsável.

Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button