Pesquisadores do MIT desenvolvem modelo de IA baseado em curiosidade para melhorar os testes de segurança do chatbot

Nos últimos anos, grandes modelos de linguagem (LLMs) e chatbots de IA tornaram-se incrivelmente predominantes, mudando a forma como interagimos com a tecnologia. Esses sistemas sofisticados podem gerar respostas semelhantes às humanas, auxiliar em diversas tarefas e fornecer informações valiosas.

No entanto, à medida que estes modelos se tornam mais avançados, as preocupações relativas à sua segurança e ao potencial de geração de conteúdos nocivos passaram a ocupar o primeiro plano. Para garantir a implantação responsável de chatbots de IA, são essenciais testes completos e medidas de proteção.

Limitações dos métodos atuais de teste de segurança do Chatbot

Atualmente, o principal método para testar a segurança dos chatbots de IA é um processo chamado red-teaming. Isso envolve testadores humanos elaborando avisos projetados para obter respostas inseguras ou tóxicas do chatbot. Ao expor o modelo a uma ampla gama de entradas potencialmente problemáticas, os desenvolvedores pretendem identificar e resolver quaisquer vulnerabilidades ou comportamentos indesejáveis. No entanto, esta abordagem orientada para o ser humano tem as suas limitações.

Dadas as vastas possibilidades de contribuições do usuário, é quase impossível para os testadores humanos cobrir todos os cenários potenciais. Mesmo com testes extensivos, podem existir lacunas nas instruções utilizadas, deixando o chatbot vulnerável à geração de respostas inseguras quando confrontado com entradas novas ou inesperadas. Além disso, a natureza handbook do red-teaming torna-o um processo demorado e que consome muitos recursos, especialmente à medida que os modelos de linguagem continuam a crescer em tamanho e complexidade.

Para resolver essas limitações, os pesquisadores recorreram a técnicas de automação e aprendizado de máquina para aumentar a eficiência e eficácia dos testes de segurança do chatbot. Ao aproveitar o poder da própria IA, pretendem desenvolver métodos mais abrangentes e escaláveis para identificar e mitigar riscos potenciais associados a grandes modelos de linguagem.

Abordagem de aprendizado de máquina baseada na curiosidade para Pink-Teaming

Pesquisadores do Improvável AI Lab do MIT e do MIT-IBM Watson AI Lab desenvolveram uma abordagem inovadora para melhorar o processo de red-teaming usando aprendizado de máquina. Seu método envolve o treinamento de um grande modelo de linguagem de equipe vermelha separado para gerar automaticamente diversos prompts que podem desencadear uma gama mais ampla de respostas indesejáveis do chatbot que está sendo testado.

A chave para esta abordagem reside em incutir um sentido de curiosidade no modelo da equipa vermelha. Ao encorajar o modelo a explorar novas sugestões e concentrar-se na geração de informações que provoquem respostas tóxicas, os investigadores pretendem descobrir um espectro mais amplo de vulnerabilidades potenciais. Esta exploração motivada pela curiosidade é alcançada através de uma combinação de técnicas de aprendizagem por reforço e sinais de recompensa modificados.

O modelo movido pela curiosidade incorpora um bônus de entropia, que incentiva o modelo da equipe vermelha a gerar prompts mais aleatórios e diversos. Além disso, recompensas inovadoras são introduzidas para incentivar o modelo a criar prompts que sejam semanticamente e lexicamente distintos dos gerados anteriormente. Ao dar prioridade à novidade e à diversidade, o modelo é levado a explorar territórios desconhecidos e a descobrir riscos ocultos.

Para garantir que as instruções geradas permaneçam coerentes e naturalistas, os pesquisadores também incluem um bônus de idioma no objetivo do treinamento. Este bônus ajuda a evitar que o modelo da equipe vermelha gere textos sem sentido ou irrelevantes que possam induzir o classificador de toxicidade a atribuir pontuações altas.

A abordagem orientada pela curiosidade demonstrou um sucesso notável ao superar os testadores humanos e outros métodos automatizados. Ele gera uma variedade maior de prompts distintos e provoca respostas cada vez mais tóxicas dos chatbots que estão sendo testados. Notavelmente, este método foi capaz de expor vulnerabilidades em chatbots que foram submetidos a extensas salvaguardas concebidas por humanos, destacando a sua eficácia na descoberta de riscos potenciais.

Implicações para o futuro da segurança da IA

O desenvolvimento de equipes vermelhas movidas pela curiosidade marca um passo significativo na garantia da segurança e confiabilidade de grandes modelos de linguagem e chatbots de IA. À medida que estes modelos continuam a evoluir e a tornar-se mais integrados na nossa vida quotidiana, é essential ter métodos de teste robustos que possam acompanhar o seu rápido desenvolvimento.

A abordagem baseada na curiosidade oferece uma maneira mais rápida e eficaz de realizar garantia de qualidade em modelos de IA. Ao automatizar a geração de prompts diversos e novos, esse método pode reduzir significativamente o tempo e os recursos necessários para testes, ao mesmo tempo que melhora a cobertura de possíveis vulnerabilidades. Essa escalabilidade é particularmente valiosa em ambientes em rápida mudança, onde os modelos podem exigir atualizações e novos testes frequentes.

Além disso, a abordagem baseada na curiosidade abre novas possibilidades para personalizar o processo de testes de segurança. Por exemplo, ao usar um grande modelo de linguagem como classificador de toxicidade, os desenvolvedores poderiam treinar o classificador usando documentos de política específicos da empresa. Isto permitiria ao modelo red-team testar os chatbots quanto à conformidade com diretrizes organizacionais específicas, garantindo um nível mais elevado de personalização e relevância.

À medida que a IA continua a avançar, a importância das crimson teaming motivadas pela curiosidade para garantir sistemas de IA mais seguros não pode ser exagerada. Ao identificar e abordar proativamente riscos potenciais, esta abordagem contribui para o desenvolvimento de chatbots de IA mais confiáveis e confiáveis que podem ser implantados com segurança em vários domínios.

Unite AI Mobile Newsletter 1