Extraindo dados de treinamento de modelos de difusão estável ajustados

Uma nova pesquisa dos EUA apresenta um método para extrair porções significativas de dados de treinamento de modelos ajustados.

Isto poderia potencialmente fornecer provas legais em casos em que o estilo de um artista tenha sido copiado ou em que imagens protegidas por direitos de autor tenham sido utilizadas para treinar modelos generativos de figuras públicas, personagens protegidas por propriedade intelectual ou outro conteúdo.

Do novo artigo: as imagens de treinamento originais são vistas na linha acima e as imagens extraídas são representadas na linha abaixo. Fonte: https://arxiv.org/pdf/2410.03039

Esses modelos estão ampla e gratuitamente disponíveis na Web, principalmente através dos enormes arquivos contribuídos pelos usuários do civit.ai e, em menor grau, na plataforma de repositório Hugging Face.

O novo modelo desenvolvido pelos pesquisadores é denominado FineXtracte os autores afirmam que alcança resultados de última geração nesta tarefa.

O artigo observa:

'(Nossa estrutura) aborda efetivamente o desafio de extrair dados de ajuste fino de pontos de verificação ajustados de DM disponíveis publicamente. Ao aproveitar a transição de distribuições DM pré-treinadas para distribuições de dados de ajuste fino, o FineXtract orienta com precisão o processo de geração em direção a regiões de alta probabilidade da distribuição de dados ajustada, permitindo uma extração de dados bem-sucedida.'

À direita, a imagem original usada no treinamento. Segunda a partir da direita, a imagem extraída via FineXtract. As outras colunas representam métodos anteriores alternativos.

À direita, a imagem authentic usada no treinamento. Segunda a partir da direita, a imagem extraída through FineXtract. As outras colunas representam métodos anteriores alternativos. Consulte o documento de origem para melhor resolução.

Por que é importante

O authentic modelos treinados para sistemas geradores de texto para imagem, como Secure Diffusion e Flux, podem ser baixados e ajustados pelos usuários finais, usando técnicas como a implementação 2022 DreamBooth.

Mais fácil ainda, o usuário pode criar um modelo LoRA muito menor que é quase tão eficaz quanto um modelo totalmente ajustado.

Um exemplo de LORA treinada, oferecida para obtain gratuito no imensamente widespread domínio civitai. Esse modelo pode ser criado em minutos a algumas horas, por entusiastas que usam software program de código aberto instalado localmente – e on-line, por meio de alguns dos sistemas de treinamento orientados por API mais permissivos. Fonte: civitai.com

Desde 2022, tem sido trivial criar pontos de verificação e LoRAs ajustados para identidades específicas, fornecendo apenas um pequeno número (em média de 5 a 50) de imagens legendadas e treinando o ponto de verificação (ou LoRA) localmente, em uma estrutura de código aberto como como Kohya ss, ou usando serviços on-line.

Este método fácil de deepfaking ganhou notoriedade na mídia nos últimos anos. Muitos artistas também tiveram seu trabalho incorporado em modelos generativos que reproduzem seu estilo. A controvérsia em torno destas questões ganhou força nos últimos 18 meses.

A facilidade com que os usuários podem criar sistemas de IA que replicam o trabalho de artistas reais causou furor e diversas campanhas nos últimos dois anos. Fonte: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-domination-ai-generated-art-and-hes-not-happy-about-it/

É difícil provar quais imagens foram usadas em um ponto de verificação ajustado ou em um LoRA, uma vez que o processo de generalização 'abstrai' a identidade dos pequenos conjuntos de dados de treinamento e provavelmente nunca reproduzirá exemplos dos dados de treinamento (exceto no caso de overfitting, onde se pode considerar que o treinamento falhou).

É aqui que o FineXtract entra em cena. Ao comparar o estado do modelo de difusão 'modelo' que o usuário baixou com o modelo que ele criou posteriormente por meio de ajuste fino ou por meio de LoRA, os pesquisadores conseguiram criar reconstruções altamente precisas de dados de treinamento.

Embora o FineXtract só tenha conseguido recriar 20% dos dados de um ajuste fino*, isso é mais do que normalmente seria necessário para fornecer evidências de que o usuário utilizou materials protegido por direitos autorais ou de outra forma protegido ou proibido na produção de um modelo generativo. . Na maioria dos exemplos fornecidos, a imagem extraída está extremamente próxima do materials de origem conhecido.

Embora sejam necessárias legendas para extrair as imagens de origem, isso não é uma barreira significativa por dois motivos: a) o uploader geralmente deseja facilitar o uso do modelo entre uma comunidade e geralmente fornecerá exemplos imediatos apropriados; eb) não é tão difícil, descobriram os pesquisadores, extrair cegamente os termos essenciais do modelo ajustado:

Palavras-chave essenciais geralmente podem ser extraídas cegamente do modelo ajustado usando um ataque L2-PGD em mais de 1.000 iterações, a partir de um immediate aleatório.

Os usuários frequentemente evitam disponibilizar seus conjuntos de dados de treinamento junto com o modelo treinado no estilo 'caixa preta'. Para a pesquisa, os autores colaboraram com entusiastas do aprendizado de máquina que realmente forneceram conjuntos de dados.

O novo artigo é intitulado Revelando o invisível: orientando modelos de difusão personalizados para expor dados de treinamentoe vem de três pesquisadores das universidades Carnegie Mellon e Purdue.

Método

O “atacante” (neste caso, o sistema FineXtract) compara as distribuições de dados estimadas entre o modelo authentic e o modelo ajustado, em um processo que os autores chamam de “orientação do modelo”.

Através da 'orientação do modelo', desenvolvida pelos pesquisadores do novo artigo, as características de ajuste fino podem ser mapeadas, permitindo a extração dos dados de treinamento.

Os autores explicam:

'Durante o processo de ajuste fino, os (modelos de difusão) mudam progressivamente sua distribuição aprendida dos DMs pré-treinados' (distribuição) em direção aos dados ajustados (distribuição).

'Assim, aproximamos parametricamente (a) distribuição aprendida dos (modelos de difusão) ajustados.'

Desta forma, a soma da diferença entre os modelos básicos e os modelos ajustados fornece o processo de orientação.

Os autores comentam ainda:

'Com a orientação do modelo, podemos simular efetivamente um “pseudo-”(denoiser), que pode ser usado para orientar o processo de amostragem em direção à região de alta probabilidade dentro de uma distribuição de dados ajustada.'

A orientação depende em parte de um processo de ruído variável no tempo, semelhante ao passeio de 2023 Apagando Conceitos de Modelos de Difusão.

A previsão de remoção de ruído obtida também fornece uma escala provável de Orientação Livre de Classificador (CFG). Isto é importante, pois o CFG afeta significativamente a qualidade da imagem e a fidelidade ao immediate de texto do usuário.

Para melhorar a precisão das imagens extraídas, o FineXtract baseia-se na aclamada colaboração 2023 Extraindo dados de treinamento de modelos de difusão. O método utilizado consiste em calcular a similaridade de cada par de imagens geradas, com base em um limite definido pela pontuação do Descritor Auto-Supervisionado (SSCD).

Desta forma, o algoritmo de agrupamento ajuda o FineXtract a identificar o subconjunto de imagens extraídas que estão de acordo com os dados de treinamento.

Nesse caso, os pesquisadores colaboraram com os usuários que disponibilizaram os dados. Alguém poderia razoavelmente dizer que, ausente tais dados, seria impossível provar que qualquer imagem gerada em explicit foi realmente usada no treinamento do authentic. No entanto, agora é relativamente trivial comparar imagens carregadas com imagens ao vivo na net ou imagens que também estão em conjuntos de dados conhecidos e publicados, com base apenas no conteúdo da imagem.

Dados e testes

Para testar o FineXtract, os autores conduziram experimentos em modelos ajustados de poucos disparos nos dois cenários de ajuste fino mais comuns, dentro do escopo do projeto: estilos artísticose orientado a objetos geração (esta última abrangendo efetivamente assuntos baseados em rosto).

Eles selecionaram aleatoriamente 20 artistas (cada um com 10 imagens) do conjunto de dados WikiArt e 30 sujeitos (cada um com 5 a 6 imagens) do conjunto de dados DreamBooth, para abordar esses respectivos cenários.

DreamBooth e LoRA foram os métodos de ajuste fino direcionados, e Secure Diffusion V1/.4 foi usado para os testes.

Se o algoritmo de agrupamento não retornasse nenhum resultado após trinta segundos, o limite period alterado até que as imagens fossem retornadas.

As duas métricas usadas para as imagens geradas foram Similaridade Média (AS) sob SSCD e Taxa Média de Sucesso de Extração (A-ESR) – uma medida amplamente alinhada com trabalhos anteriores, onde uma pontuação de 0,7 representa o mínimo para denotar um sucesso completo. extração de dados de treinamento.

Como as abordagens anteriores usaram geração direta de texto para imagem ou CFG, os pesquisadores compararam o FineXtract com esses dois métodos.

Resultados de comparações do FineXtract com os dois métodos anteriores mais populares.

Os autores comentam:

'Os (resultados) demonstram uma vantagem significativa do FineXtract em relação aos métodos anteriores, com uma melhoria de aproximadamente 0,02 a 0,05 na AS e uma duplicação da A-ESR na maioria dos casos.'

Para testar a capacidade do método de generalizar para novos dados, os pesquisadores realizaram um teste adicional, usando Secure Diffusion (V1.4), Secure Diffusion XL e AltDiffusion.

FineXtract aplicado em uma variedade de modelos de difusão. Para o componente WikiArt, o teste focou em quatro courses do WikiArt.

Como visto nos resultados mostrados acima, o FineXtract conseguiu obter uma melhoria em relação aos métodos anteriores também neste teste mais amplo.

Uma comparação qualitativa dos resultados extraídos do FineXtract e de abordagens anteriores. Consulte o documento de origem para melhor resolução.

Os autores observam que quando um número maior de imagens é usado no conjunto de dados para um modelo ajustado, o algoritmo de agrupamento precisa ser executado por um período de tempo mais longo para permanecer eficaz.

Observam ainda que nos últimos anos foram desenvolvidos diversos métodos destinados a impedir este tipo de extracção, sob a égide da protecção da privacidade. Portanto, eles testaram o FineXtract em relação aos dados aumentados pelos métodos Cutout e RandAugment.

Desempenho do FineXtract contra imagens protegidas; por Cutout e RandAugment.

Embora os autores reconheçam que os dois sistemas de proteção funcionam muito bem em ofuscar as fontes de dados de treinamento, eles observam que isso ocorre ao custo de um declínio na qualidade dos resultados tão grave que torna a proteção inútil:

Imagens produzidas em Secure Diffusion V1.4, ajustadas com medidas defensivas – que reduzem drasticamente a qualidade da imagem. Consulte o documento de origem para melhor resolução.

O artigo conclui:

'Nossos experimentos demonstram a robustez do método em vários conjuntos de dados e pontos de verificação do mundo actual, destacando os riscos potenciais de vazamento de dados e fornecendo fortes evidências de violações de direitos autorais.'

Conclusão

2024 provou ser o ano em que o interesse das empresas em dados de formação “limpos” aumentou significativamente, face à cobertura contínua dos meios de comunicação social sobre a propensão da IA ​​para substituir os humanos, e a perspectiva de proteger legalmente os modelos generativos que elas próprias estão tão interessadas em explorar .

É fácil afirmar que seus dados de treinamento estão limpos, mas também está ficando mais fácil para tecnologias semelhantes provarem que não estão – como Runway ML, Stability.ai e MidJourney (entre outros) descobriram nos últimos dias.

Projetos como o FineXtract são indiscutivelmente presságios do fim absoluto da period do “oeste selvagem” da IA, onde até mesmo a natureza aparentemente oculta de um espaço latente treinado poderia ser responsabilizada.

* Por uma questão de conveniência, assumiremos agora 'ajuste fino e LoRA', quando necessário.

Publicado pela primeira vez em segunda-feira, 7 de outubro de 2024

Exit mobile version