Tech

Benchmark Michelangelo da DeepMind: revelando os limites dos LLMs de longo contexto

À medida que a Inteligência Synthetic (IA) continua a avançar, a capacidade de processar e compreender longas sequências de informação torna-se mais very important. Os sistemas de IA agora são usados ​​para tarefas complexas, como analisar documentos longos, acompanhar conversas extensas e processar grandes quantidades de dados. No entanto, muitos modelos atuais lutam com o raciocínio de longo contexto. À medida que as entradas ficam mais longas, muitas vezes perdem o controle de detalhes importantes, levando a resultados menos precisos ou coerentes.

Esta questão é especialmente problemática nos setores de saúde, serviços jurídicos e finanças, onde as ferramentas de IA devem lidar com documentos detalhados ou longas discussões, ao mesmo tempo que fornecem respostas precisas e conscientes do contexto. Um desafio comum é a deriva do contexto, em que os modelos perdem de vista informações anteriores à medida que processam novos dados, resultando em resultados menos relevantes.

Para resolver essas limitações, a DeepMind desenvolveu o Michelangelo Benchmark. Esta ferramenta testa rigorosamente até que ponto os modelos de IA gerenciam o raciocínio de longo contexto. Inspirado no artista Michelangelo, conhecido por revelar esculturas complexas a partir de blocos de mármore, o benchmark ajuda a descobrir até que ponto os modelos de IA podem extrair padrões significativos de grandes conjuntos de dados. Ao identificar onde os modelos atuais ficam aquém, o Benchmark Michelangelo leva a melhorias futuras na capacidade da IA ​​de raciocinar em contextos longos.

Compreendendo o raciocínio de longo contexto em IA

O raciocínio de contexto longo trata da capacidade de um modelo de IA de permanecer coerente e preciso em textos longos, códigos ou sequências de conversação. Modelos como GPT-4 e PaLM-2 funcionam bem com entradas curtas ou moderadas. No entanto, eles precisam de ajuda com contextos mais longos. À medida que o comprimento da entrada aumenta, esses modelos muitas vezes perdem o controle de detalhes essenciais de partes anteriores. Isso leva a erros de compreensão, resumo ou tomada de decisões. Esse problema é conhecido como limitação da janela de contexto. A capacidade do modelo de reter e processar informações diminui à medida que o contexto aumenta.

Este problema é significativo em aplicações do mundo actual. Por exemplo, em serviços jurídicos, os modelos de IA analisam contratos, estudos de caso ou regulamentos que podem ter centenas de páginas. Se estes modelos não conseguirem reter e raciocinar eficazmente sobre documentos tão longos, poderão perder cláusulas essenciais ou interpretar mal termos jurídicos. Isso pode levar a conselhos ou análises imprecisas. Na área da saúde, os sistemas de IA precisam sintetizar registros de pacientes, históricos médicos e planos de tratamento que abrangem anos ou até décadas. Se um modelo não conseguir recuperar com precisão informações críticas de registros anteriores, poderá recomendar tratamentos inadequados ou diagnosticar incorretamente os pacientes.

Embora tenham sido feitos esforços para melhorar os limites de tokens dos modelos (como o GPT-4 que lida com até 32.000 tokens, cerca de 50 páginas de texto), o raciocínio de longo contexto ainda é um desafio. O problema da janela de contexto limita a quantidade de entrada que um modelo pode manipular e afeta sua capacidade de manter uma compreensão precisa ao longo de toda a sequência de entrada. Isso leva a um desvio de contexto, onde o modelo gradualmente forgets detalhes anteriores à medida que novas informações são introduzidas. Isto reduz a sua capacidade de gerar resultados coerentes e relevantes.

O benchmark Michelangelo: conceito e abordagem

O Benchmark Michelangelo aborda os desafios do raciocínio de longo contexto, testando LLMs em tarefas que exigem que eles retenham e processem informações em sequências estendidas. Ao contrário dos benchmarks anteriores, que se concentram em tarefas de contexto curto, como completar frases ou responder perguntas básicas, o Benchmark Michelangelo enfatiza tarefas que desafiam os modelos a raciocinar através de longas sequências de dados, muitas vezes incluindo distrações ou informações irrelevantes.

O Michelangelo Benchmark desafia modelos de IA usando a estrutura Latent Construction Queries (LSQ). Este método requer que os modelos encontrem padrões significativos em grandes conjuntos de dados enquanto filtram informações irrelevantes, semelhante à forma como os humanos examinam dados complexos para se concentrarem no que é importante. O benchmark concentra-se em duas áreas principais: linguagem pure e código, introduzindo tarefas que testam mais do que apenas a recuperação de dados.

Uma tarefa importante é a Tarefa de Lista Latente. Nesta tarefa, o modelo recebe uma sequência de operações de lista Python, como anexar, remover ou classificar elementos, e então precisa produzir a lista last correta. Para dificultar, a tarefa inclui operações irrelevantes, como reverter a lista ou cancelar etapas anteriores. Isto testa a capacidade do modelo de se concentrar em operações críticas, simulando como os sistemas de IA devem lidar com grandes conjuntos de dados com relevância mista.

Outra tarefa crítica é a Resolução de Correferência Multi-Rodada (MRCR). Esta tarefa mede quão bem o modelo pode rastrear referências em longas conversas com tópicos sobrepostos ou pouco claros. O desafio é que o modelo ligue as referências feitas no last da conversa a pontos anteriores, mesmo quando essas referências estão escondidas sob detalhes irrelevantes. Esta tarefa reflete discussões do mundo actual, onde os tópicos mudam frequentemente, e a IA deve rastrear e resolver referências com precisão para manter uma comunicação coerente.

Além disso, Michelangelo apresenta a tarefa IDK, que testa a capacidade de um modelo de reconhecer quando não possui informações suficientes para responder a uma pergunta. Nesta tarefa, o modelo é apresentado com um texto que pode não conter as informações relevantes para responder a uma consulta específica. O desafio é que o modelo identifique casos em que a resposta correta é “Não sei”Em vez de fornecer uma resposta plausível, mas incorreta. Esta tarefa reflete um aspecto crítico da confiabilidade da IA ​​– o reconhecimento da incerteza.

Através de tarefas como essas, Michelangelo vai além da simples recuperação para testar a capacidade de um modelo de raciocinar, sintetizar e gerenciar entradas de longo contexto. Ele introduz um benchmark escalável, sintético e não vazado para raciocínio de longo contexto, fornecendo uma medida mais precisa do estado atual e do potencial futuro dos LLMs.

Implicações para pesquisa e desenvolvimento de IA

Os resultados do Benchmark Michelangelo têm implicações significativas na forma como desenvolvemos a IA. O benchmark mostra que os atuais LLMs precisam de uma arquitetura melhor, especialmente em mecanismos de atenção e sistemas de memória. No momento, a maioria dos LLMs depende de mecanismos de autoatenção. Eles são eficazes para tarefas curtas, mas apresentam dificuldades quando o contexto se torna maior. É aqui que vemos o problema do desvio de contexto, onde os modelos esquecem ou misturam detalhes anteriores. Para resolver isso, os pesquisadores estão explorando modelos de memória aumentada. Esses modelos podem armazenar informações importantes de partes anteriores de uma conversa ou documento, permitindo que a IA as recupere e use quando necessário.

Outra abordagem promissora é o processamento hierárquico. Este método permite que a IA divida entradas longas em partes menores e gerenciáveis, o que a ajuda a focar nos detalhes mais relevantes em cada etapa. Dessa forma, o modelo pode lidar melhor com tarefas complexas sem ficar sobrecarregado com muitas informações de uma só vez.

Melhorar o raciocínio de longo contexto terá um impacto considerável. Na área da saúde, isso poderia significar uma melhor análise dos registros dos pacientes, onde a IA pode rastrear o histórico de um paciente ao longo do tempo e oferecer recomendações de tratamento mais precisas. Nos serviços jurídicos, estes avanços poderão levar a sistemas de IA capazes de analisar contratos longos ou jurisprudência com maior precisão, fornecendo informações mais fiáveis ​​para advogados e profissionais jurídicos.

No entanto, com esses avanços vêm preocupações éticas críticas. À medida que a IA melhora na retenção e no raciocínio em contextos longos, existe o risco de expor informações confidenciais ou privadas. Esta é uma preocupação genuína para indústrias como a saúde e o atendimento ao cliente, onde a confidencialidade é crítica.

Se os modelos de IA retiverem demasiada informação de interações anteriores, poderão revelar inadvertidamente detalhes pessoais em conversas futuras. Além disso, à medida que a IA se torna melhor na geração de conteúdos convincentes de formato longo, existe o perigo de que possa ser utilizada para criar desinformação ou desinformação mais avançada, complicando ainda mais os desafios em torno da regulamentação da IA.

O resultado last

O Michelangelo Benchmark descobriu insights sobre como os modelos de IA gerenciam tarefas complexas e de longo contexto, destacando seus pontos fortes e limitações. Este benchmark promove a inovação à medida que a IA se desenvolve, incentivando uma melhor arquitetura de modelos e sistemas de memória aprimorados. O potencial para transformar indústrias como a saúde e os serviços jurídicos é estimulante, mas acarreta responsabilidades éticas.

As preocupações com privacidade, desinformação e justiça devem ser abordadas à medida que a IA se torna mais hábil no tratamento de grandes quantidades de informação. O crescimento da IA ​​deve continuar focado em beneficiar a sociedade de forma ponderada e responsável.

Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button