Pesquisadores revelam método de ‘Misleading Delight’ para modelos de IA de jailbreak

Pesquisadores de segurança cibernética lançaram luz sobre uma nova técnica adversária que poderia ser usada para desbloquear grandes modelos de linguagem (LLMs) durante uma conversa interativa, inserindo uma instrução indesejável entre instruções benignas.

A abordagem recebeu o codinome Misleading Delight da Palo Alto Networks Unit 42, que a descreveu como simples e eficaz, alcançando uma taxa média de sucesso de ataque (ASR) de 64,6% em três turnos de interação.

“Misleading Delight é uma técnica multi-turno que envolve grandes modelos de linguagem (LLM) em uma conversa interativa, contornando gradualmente suas barreiras de segurança e incitando-os a gerar conteúdo inseguro ou prejudicial”, disseram Jay Chen e Royce Lu da Unidade 42.

Também é um pouco diferente dos métodos de jailbreak multi-turn (também conhecido como jailbreak de vários tiros), como Crescendo, em que tópicos inseguros ou restritos são imprensados ​​entre instruções inócuas, em vez de levar gradualmente o modelo a produzir resultados prejudiciais.

Pesquisas recentes também se aprofundaram no que é chamado de Context Fusion Assault (CFA), um método de jailbreak de caixa preta que é capaz de contornar a rede de segurança de um LLM.

Cibersegurança

“Esta abordagem metodológica envolve filtrar e extrair termos-chave do alvo, construindo cenários contextuais em torno desses termos, integrando dinamicamente o alvo nos cenários, substituindo termos-chave maliciosos dentro do alvo e, assim, ocultando a intenção maliciosa direta”, disse um grupo de pesquisadores. da Xidian College e do 360 AI Safety Lab, disse em um artigo publicado em agosto de 2024.

Misleading Delight foi projetado para tirar vantagem das fraquezas inerentes de um LLM, manipulando o contexto em dois turnos de conversação, enganando-o para extrair inadvertidamente conteúdo inseguro. A adição de uma terceira curva tem o efeito de aumentar a gravidade e o detalhe do resultado prejudicial.

Isto envolve explorar a capacidade limitada de atenção do modelo, que se refere à sua capacidade de processar e reter a consciência contextual à medida que gera respostas.

“Quando os LLMs encontram avisos que misturam conteúdo inofensivo com materials potencialmente perigoso ou prejudicial, a sua capacidade de atenção limitada torna difícil avaliar consistentemente todo o contexto”, explicaram os investigadores.

“Em passagens complexas ou longas, o modelo pode priorizar os aspectos benignos enquanto encobre ou interpreta mal os inseguros. Isso reflete como uma pessoa pode ignorar avisos importantes, mas sutis, em um relatório detalhado se sua atenção estiver dividida.”

A Unidade 42 disse que testou oito modelos de IA usando 40 tópicos inseguros em seis categorias amplas, como ódio, assédio, automutilação, sexual, violência e perigoso, descobrindo que tópicos inseguros na categoria de violência tendem a ter a ASR mais alta na maioria modelos.

Além disso, descobriu-se que o Índice de Nocividade (HS) e o Índice de Qualidade (QS) médios aumentaram 21% e 33%, respectivamente, do turno dois para o turno três, com o terceiro turno também alcançando o ASR mais alto em todos modelos.

Para mitigar o risco representado pelo Misleading Delight, recomenda-se adotar uma estratégia robusta de filtragem de conteúdo, usar engenharia imediata para aumentar a resiliência dos LLMs e definir explicitamente a gama aceitável de entradas e saídas.

“Essas descobertas não devem ser vistas como evidência de que a IA é inerentemente insegura ou insegura”, disseram os pesquisadores. “Em vez disso, eles enfatizam a necessidade de estratégias de defesa em múltiplas camadas para mitigar os riscos de jailbreak, preservando ao mesmo tempo a utilidade e a flexibilidade desses modelos”.

É improvável que os LLMs sejam completamente imunes a jailbreaks e alucinações, já que novos estudos mostraram que os modelos generativos de IA são suscetíveis a uma forma de “confusão de pacotes”, onde poderiam recomendar pacotes inexistentes aos desenvolvedores.

Isso pode ter o infeliz efeito colateral de alimentar ataques à cadeia de suprimentos de software program, quando atores mal-intencionados geram pacotes alucinados, propagam-nos com malware e os enviam para repositórios de código aberto.

“A percentagem média de pacotes alucinados é de pelo menos 5,2% para modelos comerciais e 21,7% para modelos de código aberto, incluindo impressionantes 205.474 exemplos únicos de nomes de pacotes alucinados, sublinhando ainda mais a gravidade e a difusão desta ameaça”, disseram os investigadores.

Exit mobile version