Tech

Identidades reais podem ser recuperadas de conjuntos de dados sintéticos

Se 2022 marcou o momento em que o potencial disruptivo da IA ​​generativa captou pela primeira vez a ampla atenção do público, 2024 foi o ano em que as questões sobre a legalidade dos seus dados subjacentes ocuparam o centro das atenções para as empresas ansiosas por aproveitar o seu poder.

A doutrina de utilização justa dos EUA, juntamente com a licença académica implícita que há muito permitia aos sectores de investigação académica e comercial explorar a IA generativa, tornou-se cada vez mais insustentável à medida que surgiam provas crescentes de plágio. Posteriormente, os EUA proibiram, por enquanto, que conteúdo gerado por IA fosse protegido por direitos autorais.

Estas questões estão longe de estar resolvidas e longe de serem resolvidas iminentemente; em 2023, em parte devido à crescente preocupação da mídia e do público sobre o standing authorized da produção gerada por IA, o Escritório de Direitos Autorais dos EUA lançou uma investigação de anos sobre este aspecto da IA ​​generativa, publicando o primeiro segmento (relativo às réplicas digitais) em julho de 2024.

Entretanto, os interesses empresariais continuam frustrados pela possibilidade de que os modelos dispendiosos que pretendem explorar possam expô-los a ramificações jurídicas quando eventualmente surgirem legislação e definições definitivas.

A solução dispendiosa a curto prazo tem sido legitimar modelos geradores, treinando-os em dados que as empresas têm o direito de explorar. A arquitetura Firefly de texto para imagem (e agora de texto para vídeo) da Adobe é alimentada principalmente pela compra do conjunto de dados de imagens de estoque Fotolia em 2014, complementado pelo uso de dados de domínio público com direitos autorais expirados*. Ao mesmo tempo, fornecedores históricos de banco de imagens, como Getty e Shutterstock, capitalizaram o novo valor de seus dados licenciados, com um número crescente de acordos para licenciar conteúdo ou então desenvolver seus próprios sistemas GenAI compatíveis com IP.

Soluções Sintéticas

Uma vez que a remoção de dados protegidos por direitos de autor do espaço latente treinado de um modelo de IA está repleta de problemas, os erros nesta área podem ser potencialmente muito dispendiosos para as empresas que experimentam soluções de consumo e empresariais que utilizam aprendizagem automática.

Uma solução alternativa e muito mais barata para sistemas de visão computacional (e também para Massive Language Fashions, ou LLMs), é o uso de dados sintéticos, onde o conjunto de dados é composto por exemplos gerados aleatoriamente do domínio alvo (como rostos, gatos, igrejas, ou mesmo um conjunto de dados mais generalizado).

Websites como thispersondoesnotexist.com popularizaram há muito tempo a ideia de que fotos de aparência autêntica de pessoas “não reais” poderiam ser sintetizadas (nesse caso específico, por meio de Redes Adversariais Generativas, ou GANs) sem ter qualquer relação com pessoas que realmente existem em o mundo actual.

Portanto, se você treinar um sistema de reconhecimento facial ou um sistema generativo em tais exemplos abstratos e não reais, poderá, em teoria, obter um padrão fotorrealista de produtividade para um modelo de IA sem precisar considerar se os dados são legalmente utilizáveis.

Ato de equilíbrio

O problema é que os próprios sistemas que produzem dados sintéticos são treinados em dados reais. Se vestígios desses dados se infiltrarem nos dados sintéticos, isso poderá fornecer provas de que materials restrito ou não autorizado foi explorado para ganho monetário.

Para evitar isso, e para produzir imagens verdadeiramente “aleatórias”, tais modelos precisam garantir que sejam bem-sucedidos.generalizado. Generalização é a medida da capacidade de um modelo de IA treinado para compreender intrinsecamente conceitos de alto nível (como 'face', 'homem'ou 'mulher') sem recorrer à replicação dos dados de treinamento reais.

Infelizmente, pode ser difícil para sistemas treinados produzir (ou reconhecer) detalhe granular a menos que treine extensivamente em um conjunto de dados. Isto expõe o sistema ao risco de memorização: uma tendência de reproduzir, até certo ponto, exemplos dos dados reais de treinamento.

Isso pode ser mitigado estabelecendo um ambiente mais relaxado taxa de aprendizagemou encerrando o treinamento em um estágio em que os conceitos centrais ainda são dúcteis e não estão associados a nenhum ponto de dados específico (como uma imagem específica de uma pessoa, no caso de um conjunto de dados faciais).

No entanto, ambas as soluções provavelmente levarão a modelos com detalhes menos refinados, uma vez que o sistema não teve a oportunidade de progredir além dos “básicos” do domínio-alvo e chegar aos detalhes.

Portanto, na literatura científica, geralmente são aplicadas taxas de aprendizagem muito altas e cronogramas de treinamento abrangentes. Embora os investigadores geralmente tentem chegar a um compromisso entre a ampla aplicabilidade e a granularidade no modelo remaining, mesmo os sistemas ligeiramente “memorizados” podem muitas vezes apresentar-se erroneamente como bem generalizados – mesmo em testes iniciais.

Revelação de rosto

Isto nos leva a um novo artigo interessante da Suíça, que afirma ser o primeiro a demonstrar que as imagens originais e reais que alimentam os dados sintéticos podem ser recuperadas a partir de imagens geradas que deveriam, em teoria, ser inteiramente aleatórias:

Exemplos de imagens de rosto vazaram de dados de treinamento. Na linha acima, vemos as imagens originais (reais); na linha abaixo, vemos imagens geradas aleatoriamente, que estão significativamente de acordo com as imagens reais. Fonte: https://arxiv.org/pdf/2410.24015

Os resultados, argumentam os autores, indicam que os geradores 'sintéticos' realmente memorizaram muitos dos pontos de dados de treinamento, em sua busca por maior granularidade. Indicam também que os sistemas que dependem de dados sintéticos para proteger os produtores de IA de consequências jurídicas podem ser muito pouco fiáveis ​​a este respeito.

Os investigadores realizaram um extenso estudo em seis conjuntos de dados sintéticos de última geração, demonstrando que, em todos os casos, os dados originais (potencialmente protegidos por direitos de autor ou protegidos) podem ser recuperados. Eles comentam:

'Nossos experimentos demonstram que conjuntos de dados de reconhecimento facial sintético de última geração contêm amostras que estão muito próximas das amostras nos dados de treinamento de seus modelos geradores. Em alguns casos as amostras sintéticas contêm pequenas alterações na imagem unique, porém, também podemos observar em alguns casos a amostra gerada contém mais variações (por exemplo, pose diferente, condição de luz, and many others.) enquanto a identidade é preservada.

'Isso sugere que os modelos geradores estão aprendendo e memorizando as informações relacionadas à identidade dos dados de treinamento e podem gerar identidades semelhantes. Isto cria preocupações críticas relativamente à aplicação de dados sintéticos em tarefas sensíveis à privacidade, tais como biometria e reconhecimento facial.'

O artigo é intitulado Revelando rostos sintéticos: como conjuntos de dados sintéticos podem expor identidades reaise vem de dois pesquisadores do Instituto de Pesquisa Idiap em Martigny, da École Polytechnique Fédérale de Lausanne (EPFL) e da Universidade de Lausanne (UNIL) em Lausanne.

Método, Dados e Resultados

Os rostos memorizados no estudo foram revelados pelo Membership Inference Assault. Embora o conceito pareça complicado, é bastante autoexplicativo: inferir a adesão, neste caso, refere-se ao processo de questionar um sistema até que ele revele dados que correspondam aos dados que você está procurando ou que se assemelhem significativamente a eles.

Outros exemplos de fontes de dados inferidas, do estudo. Neste caso, as imagens sintéticas de origem são do conjunto de dados DCFace.

Outros exemplos de fontes de dados inferidas, do estudo. Neste caso, as imagens sintéticas de origem são do conjunto de dados DCFace.

Os pesquisadores estudaram seis conjuntos de dados sintéticos cuja fonte (actual) do conjunto de dados period conhecida. Uma vez que tanto os conjuntos de dados reais como os falsos em questão contêm um quantity muito elevado de imagens, isto é efetivamente como procurar uma agulha num palheiro.

Portanto, os autores usaram um modelo de reconhecimento facial pronto para uso com um spine ResNet100 treinado na função de perda AdaFace (no conjunto de dados WebFace12M).

Os seis conjuntos de dados sintéticos utilizados foram: DCFace (um modelo de difusão latente); IDiff-Face (Uniform – um modelo de difusão baseado em FFHQ); IDiff-Face (dois estágios – uma variante que utiliza um método de amostragem diferente); GANDiffFace (baseado em Redes Adversariais Generativas e modelos de Difusão, usando StyleGAN3 para gerar identidades iniciais e depois DreamBooth para criar exemplos variados); IDNet (um método GAN, baseado em StyleGAN-ADA); e Sface (uma estrutura de proteção de identidade).

Como o GANDiffFace usa métodos GAN e de difusão, ele foi comparado ao conjunto de dados de treinamento do StyleGAN – o mais próximo de uma origem “actual” que esta rede fornece.

Os autores excluíram conjuntos de dados sintéticos que usam CGI em vez de métodos de IA e, na avaliação dos resultados, descontaram correspondências para crianças, devido a anomalias de distribuição a este respeito, bem como imagens não faciais (que podem ocorrer frequentemente em conjuntos de dados faciais, onde internet scraping sistemas produzem falsos positivos para objetos ou artefatos que possuem qualidades semelhantes a faces).

A similaridade de cossenos foi calculada para todos os pares recuperados e concatenada em histogramas, ilustrados abaixo:

Uma representação de histograma para pontuações de similaridade de cosseno calculadas em diversos conjuntos de dados, juntamente com seus valores de similaridade relacionados para os k pares principais (linhas verticais tracejadas).

Uma representação de histograma para pontuações de similaridade de cosseno calculadas em diversos conjuntos de dados, juntamente com seus valores de similaridade relacionados para os okay pares principais (linhas verticais tracejadas).

O número de semelhanças está representado nos picos do gráfico acima. O artigo também apresenta comparações de amostras dos seis conjuntos de dados e suas imagens estimadas correspondentes nos conjuntos de dados originais (reais), dos quais algumas seleções são apresentadas abaixo:

Amostras dos diversos exemplares reproduzidos no artigo original, aos quais o leitor é encaminhado para uma seleção mais abrangente.

Amostras dos diversos exemplares reproduzidos no artigo unique, aos quais o leitor é encaminhado para uma seleção mais abrangente.

O artigo comenta:

'(Os) conjuntos de dados sintéticos gerados contêm imagens muito semelhantes do conjunto de treinamento de seu modelo gerador, o que levanta preocupações em relação à geração de tais identidades.'

Os autores observam que, para esta abordagem específica, a expansão para conjuntos de dados de maior quantity será provavelmente ineficiente, uma vez que a computação necessária seria extremamente onerosa. Eles observam ainda que a comparação visible period necessária para inferir correspondências e que o reconhecimento facial automatizado por si só provavelmente não seria suficiente para uma tarefa maior.

Quanto às implicações da pesquisa, e com vistas aos caminhos a seguir, o trabalho afirma:

'(Nós) gostaríamos de destacar que a principal motivação para a geração de conjuntos de dados sintéticos é abordar questões de privacidade no uso de conjuntos de dados faciais rastreados na internet em larga escala.

'Portanto, o vazamento de qualquer informação sensível (como identidades de imagens reais nos dados de treinamento) no conjunto de dados sintéticos levanta preocupações críticas em relação à aplicação de dados sintéticos para tarefas sensíveis à privacidade, como a biometria. Nosso estudo lança luz sobre as armadilhas da privacidade na geração de conjuntos de dados sintéticos de reconhecimento facial e abre caminho para estudos futuros para a geração de conjuntos de dados faciais sintéticos responsáveis.

Embora os autores prometam o lançamento do código para este trabalho na página do projeto, não há hyperlink de repositório atual.

Conclusão

Ultimamente, a atenção da mídia tem enfatizado os retornos decrescentes obtidos pelo treinamento de modelos de IA em dados gerados por IA.

A nova investigação suíça, no entanto, traz à tona uma consideração que pode ser mais premente para o número crescente de empresas que desejam aproveitar e lucrar com a IA generativa – a persistência de padrões de dados protegidos por IP ou não autorizados, mesmo em conjuntos de dados que são concebido para combater esta prática. Se tivéssemos que dar uma definição, neste caso poderia ser chamado de “lavagem do rosto”.

* No entanto, a decisão da Adobe de permitir imagens geradas por IA enviadas por usuários para o Adobe Inventory minou efetivamente a “pureza” authorized desses dados. Bloomberg contestou em abril de 2024, as imagens fornecidas pelo usuário do sistema generativo de IA MidJourney foram incorporadas aos recursos do Firefly.

Este modelo não é identificado no artigo.

Publicado pela primeira vez na quarta-feira, 6 de novembro de 2024

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button