Tech

Mais de 100 modelos maliciosos de IA/ML encontrados na plataforma Hugging Face

LifeTechWebMarch 4, 2024

0 3 minutes read

Muro de 100 modelos maliciosos de lucidez sintético (IA)/aprendizagem de máquina (ML) foram descobertos na plataforma Hugging Face.

Isso inclui casos em que o carregamento de um registo pickle leva à realização de código, disse a empresa de segurança da enxovia de suprimentos de software JFrog.

“A trouxa útil do padrão concede ao invasor um escudo na máquina comprometida, permitindo-lhes obter controle totalidade sobre as máquinas das vítimas através do que é comumente chamado de ‘backdoor’”, disse o pesquisador sênior de segurança David Cohen.

“Essa infiltração silenciosa poderia potencialmente conceder aproximação a sistemas internos críticos e penetrar caminho para violações de dados em grande graduação ou mesmo espionagem corporativa, impactando não somente usuários individuais, mas potencialmente organizações inteiras em todo o mundo, ao mesmo tempo em que deixa as vítimas totalmente inconscientes de seu estado comprometido. .”

Especificamente, o padrão não autorizado inicia uma conexão shell reversa para 210.117.212(.)93, um endereço IP que pertence à Rede Ocasião do Envolvente de Pesquisa da Coreia (KREONET). Outros repositórios com a mesma trouxa útil foram observados conectando-se a outros endereços IP.

Num caso, os autores do padrão instaram os utilizadores a não o descarregarem, levantando a possibilidade de a publicação ser obra de investigadores ou profissionais de IA.

“No entanto, um princípio fundamental na pesquisa de segurança é abster-se de publicar explorações reais ou códigos maliciosos”, disse JFrog. “Leste princípio foi violado quando o código malicioso tentou se conectar a um endereço IP genuíno.”

As descobertas sublinham mais uma vez a prenúncio que se esconde nos repositórios de código desimpedido, que podem ser envenenados por atividades nefastas.

Dos riscos da enxovia de suprimentos aos worms de clique zero

Eles também surgem no momento em que os pesquisadores desenvolveram maneiras eficientes de gerar prompts que podem ser usados para obter respostas prejudiciais de modelos de linguagem grande (LLMs) usando uma técnica chamada ataque competidor fundamentado em pesquisa de lio (BEAST).

Em um desenvolvimento relacionado, pesquisadores de segurança desenvolveram o que é publicado porquê worm generativo de IA chamado Morris II, que é capaz de roubar dados e espalhar malware por vários sistemas.

Morris II, uma variação de um dos worms de computador mais antigos, aproveita prompts auto-replicantes adversários codificados em entradas porquê imagens e texto que, quando processados por modelos GenAI, podem acioná-los para “replicar a ingressão porquê saída (replicação) e engajar em atividades maliciosas (trouxa útil)”, disseram os pesquisadores de segurança Stav Cohen, Ron Bitton e Ben Nassi.

Ainda mais preocupante, os modelos podem ser transformados em armas para fornecer informações maliciosas a novas aplicações, explorando a conectividade dentro do ecossistema generativo de IA.

A técnica de ataque, chamada ComPromptMized, compartilha semelhanças com abordagens tradicionais, porquê buffer overflows e injeções de SQL, devido ao traje de incorporar o código dentro de uma consulta e dados em regiões conhecidas por sustar código praticável.

O ComPromptMized afeta aplicativos dos quais fluxo de realização depende da saída de um serviço generativo de IA, muito porquê aqueles que usam geração aumentada de recuperação (RAG), que combina modelos de geração de texto com um componente de recuperação de informações para enriquecer as respostas de consulta.

O estudo não é o primeiro, nem será o último, a explorar a teoria da injeção imediata porquê uma forma de estrebuchar os LLMs e induzi-los a realizar ações não intencionais.

Anteriormente, acadêmicos demonstraram ataques que usam imagens e gravações de áudio para injetar “perturbações adversárias” invisíveis em LLMs multimodais que fazem com que o padrão produza textos ou instruções escolhidas pelo invasor.

“O invasor pode atrair a vítima para uma página da Web com uma imagem interessante ou enviar um e-mail com um clipe de áudio”, disseram Nassi, junto com Eugene Bagdasaryan, Tsung-Yin Hsieh e Vitaly Shmatikov, em item publicado no final do ano pretérito.

“Quando a vítima insere diretamente a imagem ou clipe em um LLM só e faz perguntas sobre isso, o padrão será orientado por prompts injetados pelo invasor.”

No início do ano pretérito, um grupo de pesquisadores do CISPA Helmholtz Center for Information Security da Saarland University e Sequire Technology da Alemanha também descobriu porquê um invasor poderia explorar modelos LLM injetando estrategicamente prompts ocultos nos dados (ou seja, injeção indireta de prompt) que o padrão provavelmente usaria. restaurar ao responder à ingressão do usuário.