Aproveitar a atenção humana pode melhorar as imagens geradas por IA

Uma nova pesquisa da China propôs um método para melhorar a qualidade das imagens geradas por modelos de Modelos de Difusão Latente (LDMs), como a Difusão Estável.

O método se concentra na otimização do regiões salientes de uma imagem – áreas com maior probabilidade de atrair a atenção humana.

A nova investigação descobriu que os mapas de saliência (quarta coluna a partir da esquerda) podem ser usados ​​como um filtro, ou “máscara”, para orientar o locus de atenção nos processos de eliminação de ruído para áreas da imagem às quais os humanos têm maior probabilidade de prestar atenção. Fonte: https://arxiv.org/pdf/2410.10257

Métodos tradicionais, otimizam o imagem inteira uniformemente, enquanto a nova abordagem aproveita um detector de saliência para identificar e priorizar regiões mais “importantes”, como fazem os humanos.

Em testes quantitativos e qualitativos, o método dos pesquisadores foi capaz de superar os modelos anteriores baseados em difusão, tanto em termos de qualidade de imagem quanto de fidelidade às instruções de texto.

A nova abordagem também obteve a melhor pontuação em um ensaio de percepção humana com 100 participantes.

Seleção Pure

Saliência, a capacidade de priorizar informações no mundo actual e em imagens, é uma parte essencial da visão humana.

Um exemplo simples disso é a maior atenção ao detalhe que a arte clássica atribui a áreas importantes de uma pintura, como o rosto, num retrato, ou os mastros de um navio, num tema marítimo; nesses exemplos, a atenção do artista converge para o tema central, o que significa que detalhes amplos, como o fundo de um retrato ou as ondas distantes de uma tempestade, são mais esboçados e mais amplamente representativos do que detalhados.

Baseados em estudos humanos, surgiram métodos de aprendizado de máquina na última década que podem replicar ou pelo menos aproximar esse locus de interesse humano em qualquer imagem.

A segmentação de objetos (segmentação semântica) pode ajudar na individualização de facetas de uma imagem e no desenvolvimento de mapas de saliência correspondentes. Fonte: https://arxiv.org/pdf/1312.6034

A segmentação de objetos (segmentação semântica) pode ajudar na individualização de facetas de uma imagem e no desenvolvimento de mapas de saliência correspondentes. Fonte: https://arxiv.org/pdf/1312.6034

Na literatura de pesquisa, o detector de mapa de saliência mais common nos últimos cinco anos foi a iniciativa Gradient-weighted Class Activation Mapping (Grad-CAM) de 2016, que mais tarde evoluiu para o sistema Grad-CAM++ aprimorado, entre outras variantes e refinamentos.

Grad-CAM usa a ativação gradiente de um token semântico (como 'cachorro' ou 'gato') para produzir um mapa visible de onde o conceito ou anotação parece provável ser representado na imagem.

Exemplos do artigo authentic do Grad-CAM. Na segunda coluna, a retropropagação guiada individualiza todos os recursos contribuintes. Na terceira coluna são desenhados os mapas semânticos para os dois conceitos ‘cachorro’ e ‘gato’. A quarta coluna representa a concatenação das duas inferências anteriores. O quinto, o mapa de oclusão (mascaramento) que corresponde à inferência; e finalmente, na sexta coluna, o Grad-CAM visualiza uma camada ResNet-18. Fonte: https://arxiv.org/pdf/1610.02391

Pesquisas humanas sobre os resultados obtidos por esses métodos revelaram uma correspondência entre essas individuações matemáticas de pontos-chave de interesse em uma imagem e a atenção humana (ao digitalizar a imagem).

ESCOLA

O novo artigo considera o que a saliência pode trazer para sistemas de texto para imagem (e, potencialmente, texto para vídeo), como Difusão Estável e Fluxo.

Ao interpretar o immediate de texto de um usuário, os Modelos de Difusão Latente exploram seu espaço latente treinado para conceitos visuais aprendidos que correspondem às palavras ou frases usadas. Eles então analisam esses pontos de dados encontrados por meio de um processo de remoção de ruído, onde o ruído aleatório evolui gradualmente para uma interpretação criativa do immediate de texto do usuário.

Neste ponto, no entanto, o modelo dá atenção igual a cada parte da imagem. Desde a popularização dos modelos de difusão em 2022, com o lançamento dos geradores de imagem Dall-E disponíveis da OpenAI e o subsequente código-fonte aberto da estrutura Steady Diffusion do Stability.ai, os usuários descobriram que seções 'essenciais' de uma imagem são frequentemente subestimadas. servido.

Considerando que numa representação típica de um ser humano, o rosto da pessoa (que é de máxima importância para o espectador) provavelmente não ocupará mais do que 10-35% da imagem whole, este método democrático de dispersão da atenção funciona tanto contra a natureza da percepção humana e da história da arte e da fotografia.

Quando os botões da calça denims de uma pessoa recebem o mesmo peso computacional que seus olhos, a alocação de recursos pode ser considerada não very best.

Portanto, o novo método proposto pelos autores, intitulado Otimização guiada por saliência de latentes de difusão (SGOOL), utiliza um mapeador de saliência para aumentar a atenção em áreas negligenciadas de uma imagem, dedicando menos recursos a seções que provavelmente permanecerão na periferia da atenção do espectador.

Método

O pipeline SGOOL inclui geração de imagens, mapeamento de saliência e otimização, com a imagem geral e a imagem refinada por saliência processadas em conjunto.

Esquema conceitual para SGOOL.

Os embeddings latentes do modelo de difusão são otimizados diretamente com ajuste fino, eliminando a necessidade de treinar um modelo específico. O método de amostragem Denoising Diffusion Implicit Mannequin (DDIM) da Universidade de Stanford, acquainted aos usuários de Difusão Estável, é adaptado para incorporar as informações secundárias fornecidas pelos mapas de saliência.

O artigo afirma:

'Primeiro empregamos um detector de saliência para imitar o sistema de atenção visible humano e marcar as regiões salientes. Para evitar o retreinamento de um modelo adicional, nosso método otimiza diretamente as latentes de difusão.

'Além disso, o SGOOL utiliza um processo de difusão invertível e dota-o dos méritos da implementação de memória constante. Conseqüentemente, nosso método se torna um método de ajuste fino plug-and-play com eficiência de parâmetros. Extensos experimentos foram feitos com diversas métricas e avaliação humana.'

Como este método requer múltiplas iterações do processo de remoção de ruído, os autores adotaram a estrutura Direct Optimization Of Diffusion Latents (DOODL), que fornece um processo de difusão invertível – embora ainda aplique atenção à totalidade da imagem.

Para definir áreas de interesse humano, os pesquisadores empregaram a estrutura TransalNet 2022 da Universidade de Dundee.

Exemplos de detecção de saliência do projeto TransalNet 2022. Fonte: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

As regiões salientes processadas pela TransalNet foram então cortadas para gerar seções conclusivas de saliência que provavelmente seriam de maior interesse para as pessoas reais.

A diferença entre o texto do usuário e a imagem deve ser considerada, no sentido de definir uma função de perda que possa determinar se o processo está funcionando. Para isso, foi utilizada uma versão do Pré-treinamento Contrastive Language-Picture Pre-training (CLIP) da OpenAI – até agora um pilar do setor de pesquisa de síntese de imagens -, juntamente com a consideração da distância semântica estimada entre o immediate de texto e o world (não- saliência) saída de imagem.

Os autores afirmam:

'(A) perda (função) remaining diz respeito às relações entre as partes salientes e a imagem world simultaneamente, o que ajuda a equilibrar os detalhes locais e a consistência world no processo de geração.

'Essa perda consciente da saliência é aproveitada para otimizar a imagem latente. Os gradientes são calculados no ruído (latente) e aproveitados para aumentar o efeito de condicionamento do immediate de entrada nos aspectos salientes e globais da imagem authentic gerada.

Dados e testes

Para testar o SGOOL, os autores usaram uma distribuição 'vanilla' de Difusão Estável V1.4 (denotada como 'SD' nos resultados do teste) e Difusão Estável com orientação CLIP (denotada como 'linha de base' nos resultados).

O sistema foi avaliado em relação a três conjuntos de dados públicos: CommonSyntacticProcesses (CSP), DrawBench e DailyDallE*.

Este último contém 99 prompts elaborados de um artista apresentado em uma das postagens do weblog da OpenAI, enquanto o DrawBench oferece 200 prompts em 11 categorias. O CSP é composto por 52 prompts baseados em oito casos gramaticais diversos.

Para SD, linha de base e SGOOL, nos testes, foi utilizado o modelo CLIP sobre ViT/B-32 para gerar os embeddings de imagem e texto. A mesma semente imediata e aleatória foi usada. O tamanho de saída foi 256×256 e os pesos e configurações padrão do TransalNet foram empregados.

Além da métrica de pontuação CLIP, foi utilizado um Escore de Preferência Humana (HPS) estimado, além de um estudo actual com 100 participantes.

Resultados quantitativos comparando o SGOOL com configurações anteriores.

Em relação aos resultados quantitativos apresentados na tabela acima, o artigo afirma:

'(Nosso) modelo supera significativamente o SD e a linha de base em todos os conjuntos de dados tanto na pontuação CLIP quanto nas métricas HPS. Os resultados médios do nosso modelo na pontuação CLIP e HPS são 3,05 e 0,0029 superiores ao segundo colocado, respectivamente.'

Os autores estimaram ainda os field plots das pontuações HPS e CLIP em relação às abordagens anteriores:

Field plots para as pontuações HPS e CLIP obtidas nos testes.

Eles comentam:

'Percebe-se que nosso modelo supera os demais modelos, indicando que nosso modelo é mais capaz de gerar imagens consistentes com os prompts.

'No entanto, no field plot, não é fácil visualizar a comparação do field plot devido ao tamanho desta métrica de avaliação em (0, 1). Portanto, procedemos à plotagem dos gráficos de barras correspondentes.

'Pode-se observar que o SGOOL supera o SD e o Baseline em todos os conjuntos de dados, tanto na pontuação CLIP quanto nas métricas HPS. Os resultados quantitativos demonstram que nosso modelo pode gerar imagens mais semanticamente consistentes e preferidas pelos humanos.

Os pesquisadores observam que, embora o modelo básico seja capaz de melhorar a qualidade da saída da imagem, ele não considera as áreas salientes da imagem. Eles afirmam que o SGOOL, ao chegar a um compromisso entre avaliação de imagens globais e salientes, obtém imagens melhores.

Nas comparações qualitativas (automatizadas), o número de otimizações foi definido como 50 para SGOOL e DOODL.

Resultados qualitativos para os testes. Consulte o artigo de origem para melhor definição.

Aqui os autores observam:

'Na (primeira fila), os temas do immediate são “um gato cantando” e “um quarteto de barbearia”. Existem quatro gatos na imagem gerada pelo SD e o conteúdo da imagem está mal alinhado com o immediate.

'O gato é ignorado na imagem gerada pelo Baseline e faltam detalhes na representação do rosto e nos detalhes da imagem. DOODL tenta gerar uma imagem que seja consistente com o immediate.

'No entanto, como o DOODL otimiza diretamente a imagem world, as pessoas na imagem são otimizadas em direção ao gato.'

Eles observam ainda que o SGOOL, por outro lado, gera imagens mais consistentes com o immediate authentic.

No teste de percepção humana, 100 voluntários avaliaram as imagens de teste quanto à qualidade e consistência semântica (ou seja, até que ponto eles aderiram às instruções do texto de origem). Os participantes tiveram tempo ilimitado para fazer suas escolhas.

Resultados do teste de percepção humana.

Como o artigo aponta, o método dos autores é notavelmente preferido em relação às abordagens anteriores.

Conclusão

Não muito depois das deficiências abordadas neste artigo se tornarem evidentes nas instalações locais de Difusão Estável, vários métodos personalizados (como o After Detailer) surgiram para forçar o sistema a aplicar atenção further a áreas que eram de maior interesse humano.

No entanto, este tipo de abordagem requer que o sistema de difusão passe inicialmente pelo seu processo regular de aplicação de igual atenção a todas as partes da imagem, com o aumento do trabalho sendo feito como uma etapa further.

As evidências do SGOOL sugerem que a aplicação da psicologia humana básica à priorização de seções de imagens poderia melhorar muito a inferência inicial, sem etapas de pós-processamento.

* O artigo fornece o mesmo hyperlink para isso e para CommonSyntacticProcesses.

Publicado pela primeira vez na quarta-feira, 16 de outubro de 2024

Exit mobile version