Um ataque de envenenamento contra respingos gaussianos 3D

Uma nova colaboração de pesquisa entre Cingapura e China propôs um método para atacar o common método de síntese 3D Gaussian Splatting (3DGS).

O novo método de ataque usa dados de origem elaborados para sobrecarregar a memória GPU disponível do sistema alvo e para tornar o treinamento tão demorado que potencialmente incapacita o servidor alvo, equivalente a um ataque de negação de serviço (DOS). Fonte: https://arxiv.org/pdf/2410.08190

O ataque usa imagens de treinamento elaboradas de tal complexidade que provavelmente sobrecarregarão um serviço on-line que permite aos usuários criar representações 3DGS.

Esta abordagem é facilitada pela natureza adaptativa do 3DGS, que é projetado para adicionar tantos detalhes de representação quanto as imagens de origem exigem para uma renderização realista. O método explora a complexidade da imagem elaborada (texturas) e a forma (geometria).

O sistema de ataque 'poison-splat' é auxiliado por um modelo proxy que estima e itera o potencial das imagens de origem para adicionar complexidade e instâncias Gaussianas Splat a um modelo, até que o sistema host fique sobrecarregado.

O artigo afirma que plataformas on-line – como LumaAI, KIRI, Spline e Polycam – estão oferecendo cada vez mais 3DGS como serviço, e que o novo método de ataque – intitulado Veneno-Splat – é potencialmente capaz de empurrar o algoritmo 3DGS para 'sua pior complexidade computacional' nesses domínios e até mesmo facilitar um ataque de negação de serviço (DOS).

Segundo os pesquisadores, o 3DGS pode ser radicalmente mais vulnerável a outros serviços de treinamento neural on-line. Os procedimentos convencionais de treinamento de aprendizado de máquina definem parâmetros no início e, posteriormente, operam dentro de níveis constantes e relativamente consistentes de uso de recursos e consumo de energia. Sem a 'elasticidade' que o Gaussian Splat requer para atribuir instâncias splat, tais serviços são difíceis de atingir da mesma maneira.

Além disso, observam os autores, os prestadores de serviços não podem defender-se contra tal ataque limitando a complexidade ou densidade do modelo, uma vez que isso prejudicaria a eficácia do serviço sob utilização regular.

A partir do novo trabalho, vemos que um sistema host que limita o número de Gaussian Splats atribuídos não pode funcionar normalmente, uma vez que a elasticidade destes parâmetros é uma característica elementary do 3DGS.

O artigo afirma:

Os modelos (3DGS) treinados sob essas restrições defensivas têm um desempenho muito pior em comparação com aqueles com treinamento irrestrito, particularmente em termos de reconstrução detalhada. Esse declínio na qualidade ocorre porque o 3DGS não consegue distinguir automaticamente os detalhes finos necessários das texturas envenenadas.

'Limpar ingenuamente o número de Gaussianos levará diretamente à falha do modelo em reconstruir a cena 3D com precisão, o que viola o objetivo principal do provedor de serviços. Este estudo demonstra que estratégias defensivas mais sofisticadas são necessárias para proteger o sistema e manter a qualidade das reconstruções 3D sob nosso ataque.”

Nos testes, o ataque provou ser eficaz tanto num cenário de caixa branca (onde o atacante tem conhecimento dos recursos da vítima) como numa abordagem de caixa preta (onde o atacante não tem esse conhecimento).

Os autores acreditam que seu trabalho representa o primeiro método de ataque contra 3DGS e alertam que o setor de pesquisa em segurança de síntese neural não está preparado para esse tipo de abordagem.

O novo artigo é intitulado Poison-splat: Ataque de Custo de Computação em 3D Gaussian Splattinge vem de cinco autores da Universidade Nacional de Cingapura e da Skywork AI em Pequim.

Método

Os autores analisaram até que ponto o número de Splats gaussianos (essencialmente, 'pixels' elipsóides tridimensionais) atribuídos a um modelo sob um pipeline 3DGS afeta os custos computacionais de treinamento e renderização do modelo.

O estudo do autor revela uma correlação clara entre o número de gaussianas atribuídas e os custos de tempo de treinamento, bem como o uso de memória da GPU.

A figura mais à direita na imagem acima indica a relação clara entre a nitidez da imagem e o número de Gaussianos atribuídos. Quanto mais nítida a imagem, mais detalhes serão necessários para renderizar o modelo 3DGS.

O artigo afirma*:

'(Nós) descobrimos que o 3DGS tende a atribuir mais Gaussianos aos objetos com estruturas mais complexas e texturas não suaves, conforme quantificado pela pontuação de variação complete – uma métrica que avalia a nitidez da imagem. Intuitivamente, quanto menos lisa for a superfície dos objetos 3D, mais Gaussianos o modelo precisa para recuperar todos os detalhes de suas projeções de imagem 2D.

'Portanto, a não suavidade pode ser um bom descritor da complexidade de (Gaussianos)'

No entanto, o aumento ingênuo da nitidez das imagens tenderá a afetar tanto a integridade semântica do modelo 3DGS que um ataque seria óbvio nos estágios iniciais.

Envenenar os dados de forma eficaz requer uma abordagem mais sofisticada. Os autores adotaram uma modelo proxy método, onde as imagens de ataque são otimizadas em um modelo 3DGS off-line desenvolvido e controlado pelos atacantes.

À esquerda, vemos um gráfico que representa o custo geral do tempo de computação e a ocupação da memória da GPU no conjunto de dados de 'sala' MIP-NeRF360, demonstrando desempenho nativo, perturbação ingênua e dados orientados por proxy. À direita, vemos que a perturbação ingênua das imagens de origem (vermelho) leva a resultados rapidamente catastróficos, muito cedo no processo. Por outro lado, vemos que as imagens de origem guiadas por proxy mantêm um método de ataque mais furtivo e cumulativo.

Os autores afirmam:

'É evidente que o modelo proxy pode ser guiado a partir da falta de suavidade das imagens 2D para desenvolver formas 3D altamente complexas.

'Consequentemente, os dados envenenados produzidos a partir da projeção deste modelo proxy superdensificado podem produzir mais dados envenenados, induzindo mais Gaussianos a ajustarem-se a esses dados envenenados.'

O sistema de ataque é limitado por uma colaboração Google/Fb de 2013 com várias universidades, de modo que as perturbações permanecem dentro dos limites concebidos para permitir que o sistema inflija danos sem afectar a recriação de uma imagem 3DGS, o que seria um sinal precoce de uma incursão.

Dados e testes

Os pesquisadores testaram o veneno em três conjuntos de dados: NeRF-Artificial; Mip-NeRF360; e Tanques e Templos.

Eles usaram a implementação oficial do 3DGS como ambiente de vítima. Para uma abordagem de caixa preta, eles usaram a estrutura Scaffold-GS.

Os testes foram realizados em uma GPU NVIDIA A800-SXM4-80G.

Para métricas, o número de splats gaussianos produzidos foi o principal indicador, uma vez que a intenção é criar imagens de origem projetadas para maximizar e exceder a inferência racional dos dados de origem. A velocidade de renderização do sistema da vítima alvo também foi considerada.

Os resultados dos testes iniciais são mostrados abaixo:

Resultados completos dos ataques de teste nos três conjuntos de dados. Os autores observam que destacaram ataques que consumiram com sucesso mais de 24 GB de memória. Consulte o documento de origem para melhor resolução.

Desses resultados, os autores comentam:

'(Nosso) ataque Poison-splat demonstra a capacidade de criar uma enorme carga computacional further em vários conjuntos de dados. Mesmo com perturbações restritas dentro de um pequeno intervalo em um ataque (restrito), o pico de memória da GPU pode ser aumentado em mais de 2 vezes, tornando a ocupação máxima geral da GPU superior a 24 GB.

(No) mundo actual, isso pode significar que nosso ataque pode exigir mais recursos alocáveis do que estações GPU comuns podem fornecer, por exemplo, RTX 3090, RTX 4090 e A5000. Além disso, o ataque não apenas aumenta significativamente o uso da memória, mas também diminui bastante a velocidade do treinamento.

'Esta propriedade fortaleceria ainda mais o ataque, uma vez que a ocupação esmagadora da GPU durará mais tempo do que o treinamento regular pode levar, aumentando a perda geral de poder de computação.'

O progresso do modelo proxy em um cenário de ataque restrito e irrestrito.

Os testes contra o Scaffold-GS (o modelo caixa preta) são mostrados abaixo. Os autores afirmam que estes resultados indicam que o Poison-splat generaliza bem para uma arquitetura tão diferente (ou seja, para a implementação de referência).

Resultados de testes para ataques de caixa preta nos conjuntos de dados NeRF-Artificial e MIP-NeRF360.

Os autores observam que tem havido muito poucos estudos centrados neste tipo de ataques direcionados a recursos em processos de inferência. O jornal de 2020 Ataques de latência de energia em redes neurais foi capaz de identificar exemplos de dados que desencadeiam ativações excessivas de neurônios, levando ao consumo debilitante de energia e à baixa latência.

Os ataques em tempo de inferência foram estudados mais detalhadamente em trabalhos subsequentes, como Ataques de desaceleração na inferência adaptativa de redes neurais de múltiplas saídas, Rumo à injeção backdoor de eficiênciae, para modelos de linguagem e modelos de linguagem de visão (VLMs), em NICGSlowDowne Imagens detalhadas.

Conclusão

O ataque Poison-splat desenvolvido pelos pesquisadores explora uma vulnerabilidade elementary no Gaussian Splatting – o fato de atribuir complexidade e densidade de Gaussianos de acordo com o materials que é fornecido para treinar.

O artigo de 2024 F-3DGS: Coordenadas Fatoradas e Representações para Respingos Gaussianos 3D já observou que a atribuição arbitrária de splats do Gaussian Splatting é um método ineficiente, que frequentemente também produz instâncias redundantes:

'(Esta) ineficiência decorre da incapacidade inerente do 3DGS de utilizar padrões estruturais ou redundâncias. Observamos que o 3DGS produz um número desnecessariamente grande de Gaussianas mesmo para representar estruturas geométricas simples, como superfícies planas.

'Além disso, gaussianos próximos às vezes exibem atributos semelhantes, sugerindo o potencial para aumentar a eficiência ao remover as representações redundantes.'

Uma vez que restringir a geração gaussiana prejudica a qualidade da reprodução em cenários sem ataque, o número crescente de fornecedores on-line que oferecem 3DGS a partir de dados carregados pelos utilizadores pode precisar de estudar as características das imagens de origem, a fim de determinar assinaturas que indiquem uma intenção maliciosa.'

Em qualquer caso, os autores do novo trabalho concluem que serão necessários métodos de defesa mais sofisticados para os serviços on-line face ao tipo de ataque que formularam.

* Minha conversão das citações inline dos autores em hiperlinks

Publicado pela primeira vez na sexta-feira, 11 de outubro de 2024

Método

Dados e testes

Conclusão

Share this: