Tech

Pesquisadores destacam a suscetibilidade da IA Gemini do Google às ameaças de LLM

LifeTechWebMarch 13, 2024

0 2 minutes read

O modelo de linguagem grande (LLM) Gemini do Google é suscetível a ameaças de segurança que podem fazer com que ele divulgue prompts do sistema, gere conteúdo prejudicial e notice ataques de injeção indireta.

As descobertas vêm da HiddenLayer, que afirma que os problemas afetam os consumidores que usam o Gemini Superior com o Google Workspace, bem como as empresas que usam a API LLM.

A primeira vulnerabilidade envolve contornar as barreiras de segurança para vazar os prompts do sistema (ou uma mensagem do sistema), que são projetados para definir instruções de conversação para o LLM para ajudá-lo a gerar respostas mais úteis, pedindo ao modelo para gerar suas “instruções fundamentais “em um bloco de remarcação.

“Uma mensagem do sistema pode ser usada para informar o LLM sobre o contexto”, observa a Microsoft em sua documentação sobre engenharia de immediate do LLM.

“O contexto pode ser o tipo de conversa em que está envolvido ou a função que deve desempenhar. Ajuda o LLM a gerar respostas mais apropriadas.”

Isto é possível devido ao fato de que os modelos são suscetíveis ao que é chamado de ataque de sinônimo para contornar as defesas de segurança e as restrições de conteúdo.

Uma segunda classe de vulnerabilidades está relacionada ao uso de técnicas de “jailbreaking astuto” para fazer com que os modelos Gemini gerem desinformação em torno de tópicos como eleições, bem como produzam informações potencialmente ilegais e perigosas (por exemplo, ligação direta de um carro) usando um immediate que solicita que ele entre em um estado fictício.

Também identificada pelo HiddenLayer está uma terceira falha que pode fazer com que o LLM vaze informações no immediate do sistema, passando repetidos tokens incomuns como entrada.

“A maioria dos LLMs são treinados para responder a perguntas com uma delimitação clara entre a entrada do usuário e o immediate do sistema”, disse o pesquisador de segurança Kenneth Yeung em um relatório de terça-feira.

“Ao criar uma linha de tokens sem sentido, podemos enganar o LLM fazendo-o acreditar que é hora de responder e fazer com que ele emita uma mensagem de confirmação, geralmente incluindo as informações do immediate.”

Outro teste envolve o uso do Gemini Superior e de um documento Google especialmente criado, sendo este último conectado ao LLM por meio da extensão Google Workspace.

As instruções do documento podem ser projetadas para substituir as instruções do modelo e executar um conjunto de ações maliciosas que permitem ao invasor ter controle complete das interações da vítima com o modelo.

A divulgação ocorre no momento em que um grupo de acadêmicos do Google DeepMind, ETH Zurich, Universidade de Washington, OpenAI e Universidade McGill revelou um novo ataque de roubo de modelo que torna possível extrair “informações precisas e não triviais de modelos de linguagem de produção de caixa preta”. como o ChatGPT da OpenAI ou o PaLM-2 do Google.”

Dito isto, é importante notar que essas vulnerabilidades não são novas e estão presentes em outros LLMs do setor. As descobertas, no mínimo, enfatizam a necessidade de testar modelos para ataques imediatos, treinamento de extração de dados, manipulação de modelos, exemplos adversários, envenenamento e exfiltração de dados.

“Para ajudar a proteger nossos usuários contra vulnerabilidades, realizamos consistentemente exercícios de red-team e treinamos nossos modelos para se defenderem contra comportamentos adversários, como injeção imediata, jailbreak e ataques mais complexos”, disse um porta-voz do Google ao The Hacker Information. “Também construímos salvaguardas para evitar respostas prejudiciais ou enganosas, que estamos melhorando continuamente”.

A empresa também disse que está restringindo as respostas a perguntas baseadas em eleições por precaução. Espera-se que a política seja aplicada contra avisos relativos a candidatos, partidos políticos, resultados eleitorais, informações de votação e titulares de cargos notáveis.