Um estudo recente dos EUA descobriu que o desempenho no mundo actual dos populares sistemas de pesquisa Retrieval Augmented Era (RAG), como Perplexity e Bing Copilot, fica muito aquém do hype de advertising e da adoção well-liked que ganhou as manchetes nos últimos 12 meses. .
O projeto, que envolveu ampla participação em pesquisas com 21 vozes de especialistas, encontrou nada menos que 16 áreas nas quais os sistemas RAG estudados (You Chat, Bing Copilot e Perplexity) produziram motivos de preocupação:
1: Falta de detalhes objetivos nas respostas geradascom resumos genéricos e escassa profundidade ou nuance contextual.
2. Reforço do preconceito percebido do usuárioonde um mecanismo RAG frequentemente falha em apresentar uma série de pontos de vista, mas, em vez disso, infere e reforça o preconceito do usuário, com base na maneira como o usuário method uma pergunta.
3. Linguagem excessivamente confiante, particularmente em respostas subjetivas que não podem ser estabelecidas empiricamente, o que pode levar os usuários a confiar mais na resposta do que ela merece.
4: Linguagem simplista e falta de pensamento crítico e criatividade, onde as respostas efetivamente patrocinam o usuário com informações “emburrecedoras” e “agradáveis”, em vez de cogitação e análise ponderadas.
5: Atribuição incorreta e citação incorreta de fontes, onde o motor de resposta utiliza fontes citadas que não apoiam a(s) sua(s) resposta(s), fomentando a ilusão de credibilidade.
6: Selecionar informações do contexto inferido, onde o agente RAG parece estar buscando respostas que apoiem a contenção gerada e sua estimativa do que o usuário quer ouvirem vez de basear as suas respostas em análises objetivas de fontes confiáveis (possivelmente indicando um conflito entre os dados LLM “preparados” do sistema e os dados que ele obtém dinamicamente da Web em resposta a uma consulta).
7: Omitindo citações que apoiam declaraçõesonde o materials de origem para respostas está ausente.
8: Não fornecendo nenhum esquema lógico para suas respostas, onde os usuários não podem questionar por que o sistema priorizou certas fontes em detrimento de outras fontes.
9: Número limitado de fontes, onde a maioria dos sistemas RAG normalmente fornece cerca de três fontes de apoio para uma declaração, mesmo quando uma maior diversidade de fontes seria aplicável.
10: Fontes órfãs, onde os dados de todas ou algumas das citações de apoio do sistema não estão realmente incluídos na resposta.
11: Uso de fontes não confiáveis, onde o sistema parece ter preferido uma fonte well-liked (ou seja, em termos de website positioning) em vez de factualmente correta.
12: Fontes redundantes, onde o sistema apresenta citações múltiplas nas quais os artigos originais são essencialmente iguais em conteúdo.
13: Fontes não filtradas, onde o sistema não oferece ao usuário nenhuma maneira de avaliar ou filtrar as citações oferecidas, obrigando os usuários a seguirem os critérios de seleção com base na confiança.
14: Falta de interatividade ou explorabilidade, em que vários dos participantes do estudo de usuários ficaram frustrados porque os sistemas RAG não fizeram perguntas esclarecedoras, mas assumiram a intenção do usuário desde a primeira consulta.
15: A necessidade de verificação externa, onde os usuários se sentem compelidos a realizar verificação independente das respostas fornecidas, eliminando em grande parte a suposta conveniência do RAG como um 'substituto da pesquisa'.
16: Uso de métodos de citação acadêmica, como (1) ou (34); esta é uma prática padrão nos círculos acadêmicos, mas pode não ser intuitiva para muitos usuários.
Para o trabalho, os investigadores reuniram 21 especialistas em inteligência synthetic, saúde e medicina, ciências aplicadas e educação e ciências sociais, todos investigadores pós-doutorados ou doutorandos. Os participantes interagiram com os sistemas RAG testados enquanto falavam em voz alta os seus processos de pensamento, para esclarecer (para os investigadores) o seu próprio esquema racional.
O artigo cita extensivamente as dúvidas e preocupações dos participantes sobre o desempenho dos três sistemas estudados.
A metodologia do estudo do usuário foi então sistematizada em um estudo automatizado dos sistemas RAG, utilizando suítes de controle de navegador:
'Uma avaliação automatizada em larga escala de sistemas como You.com, Perplexity.ai e BingChat mostrou que nenhum atingiu um desempenho aceitável na maioria das métricas, incluindo aspectos críticos relacionados ao tratamento de alucinações, declarações sem suporte e precisão de citações.'
Os autores argumentam longamente (e assiduamente, no abrangente artigo de 27 páginas) que tanto os usuários novos quanto os experientes devem ter cautela ao usar a classe de sistemas RAG estudados. Propõem ainda um novo sistema de métricas, baseado nas deficiências encontradas no estudo, que poderá constituir a base de uma maior supervisão técnica no futuro.
No entanto, o crescente uso público de sistemas RAG leva os autores também a defender uma legislação apropriada e um maior nível de política governamental aplicável em relação às interfaces de pesquisa de IA auxiliadas por agentes.
O estudo vem de cinco pesquisadores da Universidade Estadual da Pensilvânia e da Salesforce e é intitulado Mecanismos de pesquisa na period da IA: a falsa promessa de respostas factuais e verificáveis citadas por fontes. O trabalho abrange sistemas RAG até o estado da arte em agosto de 2024
A compensação RAG
Os autores iniciam seu trabalho reiterando quatro deficiências conhecidas dos Grandes Modelos de Linguagem (LLMs), onde são usados em Mecanismos de Resposta.
Em primeiro lugar, são propensos a ter alucinações de informação e não têm a capacidade de detectar inconsistências factuais. Em segundo lugar, têm dificuldade em avaliar a precisão de uma citação no contexto de uma resposta gerada. Em terceiro lugar, tendem a favorecer os dados provenientes dos seus próprios pesos pré-treinados e podem resistir aos dados provenientes de documentação recuperada externamente, mesmo que esses dados possam ser mais recentes ou mais precisos.
Finalmente, os sistemas RAG tendem a um comportamento bajulador e agradável às pessoas, muitas vezes à custa da precisão das informações nas suas respostas.
Todas estas tendências foram confirmadas em ambos os aspectos do estudo, entre muitas novas observações sobre as armadilhas do RAG.
O artigo considera o produto SearchGPT RAG da OpenAI (lançado aos assinantes na semana passada, após o envio do novo artigo), como provável que incentive a adoção de sistemas de pesquisa baseados em RAG pelos usuários, apesar das deficiências fundamentais que os resultados da pesquisa sugerem. *:
'O lançamento do 'SearchGPT' da OpenAI, comercializado como um 'assassino de pesquisa do Google', agrava ainda mais (as preocupações). À medida que aumenta a confiança nestas ferramentas, aumenta também a urgência de compreender o seu impacto. Lindemann apresenta o conceito de Conhecimento Selado, que critica como esses sistemas limitam o acesso a diversas respostas, condensando consultas de pesquisa em respostas singulares e confiáveis, descontextualizando efetivamente as informações e estreitando as perspectivas do usuário.
'Esta “selagem” do conhecimento perpetua preconceitos de seleção e restringe pontos de vista marginalizados.'
O estudo
Os autores testaram primeiro o procedimento do estudo em três dos 24 participantes selecionados, todos convidados por meios como LinkedIn ou e-mail.
A primeira etapa, para os 21 restantes, envolveu Recuperação de informações especializadasonde os participantes tiveram uma média de seis consultas de pesquisa em uma sessão de 40 minutos. Esta seção concentrou-se na coleta e verificação de baseado em fatos perguntas e respostas, com possíveis soluções empíricas.
A segunda fase dizia respeito Recuperação de informações de debateque tratava de questões subjetivas, incluindo ecologia, vegetarianismo e política.
Como todos os sistemas permitiam pelo menos algum nível de interatividade com as citações fornecidas como suporte às respostas geradas, os sujeitos do estudo foram incentivados a interagir o máximo possível com a interface.
Em ambos os casos, os participantes foram convidados a formular as suas questões através de um sistema RAG e um mecanismo de busca convencional (neste caso, Google).
Os três mecanismos de resposta – You Chat, Bing Copilot e Perplexity – foram escolhidos porque são acessíveis ao público.
A maioria dos participantes já eram utilizadores de sistemas RAG, em frequências variadas.
Devido a restrições de espaço, não podemos analisar cada uma das dezesseis deficiências-chave exaustivamente documentadas encontradas no estudo, mas apresentamos aqui uma seleção de alguns dos exemplos mais interessantes e esclarecedores.
Falta de detalhes objetivos
O documento observa que os usuários descobriram que as respostas dos sistemas frequentemente careciam de detalhes objetivos, tanto nas respostas factuais quanto nas subjetivas. Um comentou:
'Estava apenas tentando responder sem realmente me dar uma resposta sólida ou mais ponderada, o que consigo obter com várias pesquisas no Google.'
Outro observou:
'É muito curto e resume muito tudo. (O modelo) precisa me dar mais dados para a afirmação, mas está muito resumido.'
Falta de ponto de vista holístico
Os autores expressam preocupação com esta falta de nuance e especificidade, e afirmam que os motores de resposta frequentemente falharam em apresentar múltiplas perspectivas sobre qualquer argumento, tendendo a ficar do lado de um viés percebido inferido a partir da formulação da pergunta pelo próprio usuário.
Um participante disse:
'Quero saber mais sobre o outro lado da discussão… tudo isso com uma pitada de sal porque não conhecemos o outro lado e as evidências e os fatos.'
Outro comentou:
'Não se trata de apresentar os dois lados do argumento; não é discutir com você. Em vez disso, (o modelo) está apenas dizendo: 'você está certo… e aqui estão as razões.'
Linguagem Confiante
Os autores observam que todos os três sistemas testados exibiram o uso de linguagem excessivamente confiante, mesmo para respostas que abrangem questões subjetivas. Eles afirmam que este tom tenderá a inspirar confiança injustificada na resposta.
Um participante observou:
'Ele escreve com tanta confiança que me sinto convencido, mesmo sem olhar a fonte. Mas quando você olha para a fonte, é ruim e isso me faz questionar novamente.'
Outro comentou:
'Se alguém não sabe exatamente a resposta certa, confiará nisso mesmo quando estiver errado.'
Citações incorretas
Outro problema frequente foi a atribuição incorreta de fontes citadas como autoridade para as respostas dos sistemas RAG, com um dos sujeitos do estudo afirmando:
'(Esta) declaração não parece estar na fonte. Quero dizer que a afirmação é verdadeira; é válido… mas não sei de onde está tirando essa informação.'
Os autores do novo artigo comentam †:
'Os participantes sentiram que os sistemas eram usando citações para legitimar sua respostacriando uma ilusão de credibilidade. Esta fachada só foi revelada a alguns usuários que procederam ao escrutínio das fontes.’
Selecionando informações adequadas à consulta
Voltando à noção de comportamento bajulador e agradável às pessoas nas respostas do RAG, o estudo descobriu que muitas respostas destacaram um ponto de vista específico em vez de resumir o tópico de forma abrangente, como observou um participante:
'Eu sinto que (o sistema) é manipulador. São necessárias apenas algumas informações e parece que estou sendo manipulado para ver apenas um lado das coisas.'
Outro opinou:
'(A fonte) na verdade tem prós e contras, e foi escolhida para escolher apenas o tipo de argumentos necessários deste hyperlink, sem o quadro completo.'
Para exemplos mais aprofundados (e múltiplas citações críticas dos participantes da pesquisa), encaminhamos o leitor ao artigo authentic.
RAG automatizado
Na segunda fase do estudo mais amplo, os pesquisadores usaram scripts baseados em navegador para solicitar sistematicamente consultas dos três mecanismos RAG estudados. Eles então usaram um sistema LLM (GPT-4o) para analisar as respostas dos sistemas.
As falas foram analisadas relevância da consulta e Declarações prós e contras (ou seja, se a resposta é a favor, contra ou neutra, em relação ao preconceito implícito da consulta.
Um Pontuação de confiança de resposta também foi avaliado nesta fase automatizada, com base no método de teste psicométrico em escala Likert. Aqui o juiz LLM foi aumentado por dois anotadores humanos.
Uma terceira operação envolveu a utilização de internet scraping para obtenção do conteúdo integral das páginas citadas, por meio da ferramenta Jina.ai Reader. No entanto, como observado em outras partes do artigo, a maioria das ferramentas de internet scraping não é mais capaz de acessar websites com acesso pago do que a maioria das pessoas (embora os autores observem que o Perplexity.ai é conhecido por contornar essa barreira).
Considerações adicionais foram se as respostas citavam ou não uma fonte (calculada como uma “matriz de citação”), bem como uma “matriz de suporte factual” – uma métrica verificada com a ajuda de quatro anotadores humanos.
Assim, foram obtidas 8 métricas abrangentes: resposta unilateral; resposta excessivamente confiante; declaração relevante; fontes não citadas; declarações não suportadas; necessidade de fonte; precisão de citação; e minuciosidade da citação.
O materials contra o qual essas métricas foram testadas consistia em 303 perguntas selecionadas da fase de estudo do usuário, resultando em 909 respostas nos três sistemas testados.
Em relação aos resultados, o artigo afirma:
'Olhando para as três métricas relacionadas ao texto da resposta, descobrimos que todos os mecanismos de resposta avaliados frequentemente (50-80%) geram respostas unilaterais, favorecendo a concordância com uma formulação carregada de uma questão de debate em vez de apresentar múltiplas perspectivas na resposta, com o Perplexity tendo um desempenho pior do que os outros dois motores.
'Esta descoberta está de acordo com (as conclusões) dos nossos resultados qualitativos. Surpreendentemente, embora seja mais provável que Perplexidade gere uma resposta unilateral, ela também gera as respostas mais longas (18,8 afirmações por resposta, em média), indicando que a falta de diversidade de respostas não se deve à brevidade das respostas.
'Em outras palavras, aumentar o comprimento das respostas não melhora necessariamente a diversidade das respostas.'
Os autores também observam que o Perplexity tem maior probabilidade de usar uma linguagem confiante (90% das respostas) e que, em contraste, os outros dois sistemas tendem a usar uma linguagem mais cautelosa e menos confiante quando o conteúdo subjetivo está em jogo.
You Chat foi a única estrutura RAG a obter zero fontes não citadas para uma resposta, com Perplexity em 8% e Bing Chat em 36%.
Todos os modelos evidenciaram uma “proporção significativa” de declarações não fundamentadas, e o artigo declara†:
'A estrutura RAG é anunciada para resolver o comportamento alucinatório dos LLMs, obrigando que um LLM gere uma resposta baseada em documentos de origem, no entanto, os resultados mostram que os motores de resposta baseados em RAG ainda geram respostas contendo uma grande proporção de declarações não apoiadas pelas fontes que fornecem.'
Além disso, todos os sistemas testados tiveram dificuldade em apoiar as suas afirmações com citações:
'You.Com e (Bing Chat) têm desempenho um pouco melhor do que Perplexity, com cerca de dois terços das citações apontando para uma fonte que apóia a declaração citada, e Perplexity tem desempenho pior, com mais da metade de suas citações sendo imprecisas.
'Este resultado é surpreendente: a citação não é apenas incorreta para declarações que não são apoiadas por nenhuma (fonte), mas descobrimos que mesmo quando existe uma fonte que apoia uma declaração, todos os motores ainda citam frequentemente uma fonte incorreta diferente, faltando o oportunidade de fornecer informações corretas ao usuário.
'Por outras palavras, o comportamento alucinatório não é apenas exibido em declarações que não são apoiadas pelas fontes, mas também em citações imprecisas que proíbem os utilizadores de verificar a validade da informação.'
Os autores concluem:
'Nenhum dos motores de resposta alcança um bom desempenho na maioria das métricas, destacando o grande espaço para melhorias nos motores de resposta.'
* Minha conversão das citações inline dos autores em hiperlinks. Quando necessário, escolhi a primeira das múltiplas citações para o hiperlink, devido a aspectos práticos de formatação.
† Ênfase dos autores, não minha.
Publicado pela primeira vez em segunda-feira, 4 de novembro de 2024