A pesquisa da Disney oferece compactação de imagem aprimorada baseada em IA – mas pode alucinar detalhes

O braço de pesquisa da Disney está oferecendo um novo método de compactação de imagens, aproveitando o modelo de código aberto Secure Diffusion V1.2 para produzir imagens mais realistas com taxas de bits mais baixas do que os métodos concorrentes.

O método de compressão Disney em comparação com abordagens anteriores. Os autores afirmam melhorar a recuperação de detalhes, ao mesmo tempo que oferecem um modelo que não requer centenas de milhares de dólares em treinamento e que opera mais rápido do que o método concorrente equivalente mais próximo. Fonte: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Picture-Compression-with-Basis-Diffusion-Fashions-Paper.pdf

A nova abordagem (definida como um 'codec' apesar da sua maior complexidade em comparação com codecs tradicionais como JPEG e AV1) pode operar sobre qualquer Modelo de Difusão Latente (LDM). Em testes quantitativos, ele supera os métodos anteriores em termos de precisão e detalhes e requer significativamente menos treinamento e custos de computação.

O principal perception do novo trabalho é que erro de quantização (um processo central em toda compressão de imagem) é semelhante a barulho (um processo central em modelos de difusão).

Portanto, uma imagem quantizada 'tradicionalmente' pode ser tratada como uma versão ruidosa da imagem unique e usada em um processo de eliminação de ruído de um LDM em vez de ruído aleatório, a fim de reconstruir a imagem em uma taxa de bits alvo.

Outras comparações do novo método Disney (destacado em verde), em contraste com abordagens rivais.

Os autores afirmam:

'(Nós) formulamos a remoção do erro de quantização como uma tarefa de remoção de ruído, usando difusão para recuperar informações perdidas na imagem latente transmitida. Nossa abordagem nos permite realizar menos de 10% do processo gerador de difusão completo e não requer alterações arquitetônicas no modelo de difusão, permitindo o uso de modelos de base como um forte anterior, sem ajuste adicional do spine.

'Nosso codec proposto supera os métodos anteriores em métricas de realismo quantitativo, e verificamos que nossas reconstruções são qualitativamente preferidas pelos usuários finais, mesmo quando outros métodos usam o dobro da taxa de bits.'

No entanto, em comum com outros projetos que procuram explorar as capacidades de compressão dos modelos de difusão, o resultado pode alucinar detalhes. Por outro lado, métodos com perdas, como JPEG, produzirão áreas de detalhes claramente distorcidas ou suavizadas, que podem ser reconhecidas como limitações de compressão pelo visualizador informal.

Em vez disso, o codec da Disney pode alterar detalhes do contexto que não estavam presentes na imagem de origem, devido à natureza grosseira do Autoencoder Variacional (VAE) usado em modelos típicos treinados em dados de hiperescala.

'Semelhante a outras abordagens generativas, nosso método pode descartar certas características da imagem enquanto sintetiza informações semelhantes no lado do receptor. Em casos específicos, no entanto, isto pode resultar numa reconstrução imprecisa, como dobrar linhas retas ou deformar os limites de pequenos objetos.

'Essas são questões bem conhecidas do modelo básico sobre o qual construímos, que podem ser atribuídas à dimensão relativamente baixa de seu VAE.'

Embora isto tenha algumas implicações para as representações artísticas e a verossimilhança de fotografias casuais, poderá ter um impacto mais crítico nos casos em que pequenos detalhes constituem informações essenciais, tais como provas para processos judiciais, dados para reconhecimento facial, digitalizações para reconhecimento óptico de caracteres (OCR ) e uma ampla variedade de outros casos de uso possíveis, na eventualidade da popularização de um codec com esse recurso.

Neste estágio inicial do progresso da compactação de imagens aprimorada por IA, todos esses cenários possíveis estão num futuro distante. No entanto, o armazenamento de imagens é um desafio world em hiperescala, abordando questões relacionadas ao armazenamento de dados, streaming e consumo de eletricidade, além de outras preocupações. Portanto, a compressão baseada em IA poderia oferecer um compromisso tentador entre precisão e logística. A história mostra que os melhores codecs nem sempre conquistam a maior base de usuários, quando questões como licenciamento e captura de mercado por formatos proprietários são fatores de adoção.

A Disney vem experimentando o aprendizado de máquina como método de compressão há muito tempo. Em 2020, um dos pesquisadores do novo artigo esteve envolvido em um projeto baseado em VAE para melhorar a compressão de vídeo.

O novo jornal da Disney foi atualizado no início de outubro. Hoje a empresa lançou um vídeo no YouTube. O projeto é intitulado Compressão de imagem com perdas com modelos de difusão de basee vem de quatro pesquisadores da ETH Zürich (afiliada aos projetos baseados em IA da Disney) e da Disney Analysis. Os pesquisadores também oferecem um artigo complementar.

Método

O novo método usa um VAE para codificar uma imagem em sua representação latente compactada. Nesta fase, a imagem de entrada consiste em características derivadas – representações baseadas em vetores de baixo nível. A incorporação latente é então quantizada de volta em um fluxo de bits e de volta no espaço de pixels.

Esta imagem quantizada é então usada como um modelo para o ruído que geralmente semeia uma imagem baseada em difusão, com um número variável de etapas de remoção de ruído (em que muitas vezes há uma compensação entre etapas de remoção de ruído aumentadas e maior precisão, versus menor latência e maior eficiência).

Esquema para o novo método de compressão Disney.

Tanto os parâmetros de quantização quanto o número whole de etapas de remoção de ruído podem ser controlados no novo sistema, através do treinamento de uma rede neural que prevê as variáveis relevantes relacionadas a esses aspectos da codificação. Este processo é chamado quantização adaptativae o sistema Disney usa a estrutura Entroformer como modelo de entropia que alimenta o procedimento.

Os autores afirmam:

'Intuitivamente, nosso método aprende a descartar informações (por meio da transformação de quantização) que podem ser sintetizadas durante o processo de difusão. Como os erros introduzidos durante a quantização são semelhantes à adição (ruído) e os modelos de difusão são modelos funcionalmente de eliminação de ruído, eles podem ser usados para remover o ruído de quantização introduzido durante a codificação.

Secure Diffusion V2.1 é a espinha dorsal de difusão do sistema, escolhido porque todo o código e os pesos base estão disponíveis publicamente. No entanto, os autores enfatizam que o seu esquema é aplicável a um número maior de modelos.

Basic para a economia do processo é previsão de intervalo de tempoque avalia o número excellent de etapas de remoção de ruído – um ato de equilíbrio entre eficiência e desempenho.

Previsões de intervalos de tempo, com o número excellent de etapas de remoção de ruído indicadas com borda vermelha. Consulte o PDF de origem para obter uma resolução precisa.

A quantidade de ruído na incorporação latente precisa ser considerada ao fazer uma previsão para o melhor número de etapas de remoção de ruído.

Dados e testes

O modelo foi treinado no conjunto de dados Vimeo-90k. As imagens foram cortadas aleatoriamente para 256x256px para cada época (ou seja, cada ingestão completa do conjunto de dados refinado pela arquitetura de treinamento do modelo).

O modelo foi otimizado para 300.000 passos a uma taxa de aprendizado de 1e-4. Este é o mais comum entre os projetos de visão computacional, e também o valor mais baixo e mais refinado geralmente praticável, como um compromisso entre a ampla generalização dos conceitos e características do conjunto de dados e a capacidade de reprodução de detalhes finos.

Os autores comentam algumas das considerações logísticas para um sistema económico mas eficaz*:

'Durante o treinamento, é proibitivamente caro propagar o gradiente através de múltiplas passagens do modelo de difusão enquanto ele é executado durante a amostragem DDIM. Portanto, realizamos apenas uma iteração de amostragem DDIM e usamos diretamente (isto) como os (dados) totalmente eliminados de ruído.

Os conjuntos de dados usados para testar o sistema foram Kodak; CLIC2022; e COCO 30k. O conjunto de dados foi pré-processado de acordo com a metodologia descrita na oferta do Google de 2023 Compressão de imagem multi-realismo com um gerador condicional.

As métricas utilizadas foram Relação Sinal-Ruído de Pico (PSNR); Métricas de similaridade perceptual aprendida (LPIPS); Índice de Similaridade Estrutural Multiescala (MS-SSIM); e Distância de Iniciação Fréchet (FID).

Estruturas rivais anteriores testadas foram divididas entre sistemas mais antigos que usavam Redes Adversariais Generativas (GANs) e ofertas mais recentes baseadas em modelos de difusão. Os sistemas GAN testados foram Compressão de imagem generativa de alta fidelidade (HiFiC); e ILLM (que oferece algumas melhorias no HiFiC).

Os sistemas baseados em difusão foram Compressão de imagem com perdas com modelos de difusão condicional (CDC) e Compressão de imagens de alta fidelidade com modelos generativos baseados em pontuação (DHF).

Resultados quantitativos em relação a estruturas anteriores em vários conjuntos de dados.

Para os resultados quantitativos (visualizados acima), os pesquisadores afirmam:

'Nosso método estabelece um novo estado da arte em realismo de imagens reconstruídas, superando todas as linhas de base nas curvas de taxa de bits FID. Em algumas métricas de distorção (ou seja, LPIPS e MS-SSIM), superamos todos os codecs baseados em difusão, permanecendo competitivos com os codecs generativos de maior desempenho.

'Como esperado, nosso método e outros métodos generativos sofrem quando medidos em PSNR, pois favorecemos reconstruções perceptualmente agradáveis em vez da replicação exata de detalhes.'

Para o estudo do usuário, foi utilizado um método de escolha forçada de duas alternativas (2AFC), em um contexto de torneio onde as imagens favoritas passariam para rodadas posteriores. O estudo utilizou o sistema de classificação Elo originalmente desenvolvido para torneios de xadrez.

Portanto, os participantes visualizariam e selecionariam a melhor de duas imagens apresentadas de 512x512px através dos vários métodos geradores. Um experimento adicional foi realizado no qual todos comparações de imagens do mesmo usuário foram avaliadas, por meio de uma simulação de Monte Carlo em 10.0000 iterações, com a pontuação mediana apresentada nos resultados.

Classificações Elo estimadas para o estudo do usuário, apresentando torneios Elo para cada comparação (à esquerda) e também para cada participante, com valores mais altos, melhor.

Aqui os autores comentam:

'Como pode ser visto nas pontuações do Elo, nosso método supera significativamente todos os outros, mesmo comparado ao CDC, que utiliza em média o dobro dos bits do nosso método. Isto permanece verdadeiro independentemente da estratégia de torneio Elo utilizada.'

No artigo unique, bem como no PDF suplementar, os autores fornecem comparações visuais adicionais, uma das quais é mostrada anteriormente neste artigo. Porém, devido à granularidade da diferença entre as amostras, encaminhamos o leitor ao PDF de origem, para que esses resultados possam ser julgados de forma justa.

O artigo conclui observando que o método proposto opera duas vezes mais rápido que o rival CDC (3,49 vs 6,87 segundos, respectivamente). Observa também que o ILLM pode processar uma imagem em 0,27 segundos, mas que este sistema requer um treinamento pesado.

Conclusão

Os pesquisadores da ETH/Disney são claros, na conclusão do artigo, sobre o potencial de seu sistema para gerar detalhes falsos. No entanto, nenhum dos exemplos oferecidos no materials se debruça sobre esse assunto.

Com toda a justiça, este problema não se limita à nova abordagem da Disney, mas é um efeito colateral inevitável da utilização de modelos de difusão – uma arquitectura inventiva e interpretativa – para comprimir imagens.

Curiosamente, há apenas cinco dias, dois outros pesquisadores da ETH Zurich produziram um artigo intitulado Alucinações condicionais para compressão de imagensque examina a possibilidade de um “nível excellent de alucinação” em sistemas de compressão baseados em IA.

Os autores defendem a conveniência de alucinações onde o domínio é genérico (e, possivelmente, “inofensivo”) o suficiente:

'Para conteúdo semelhante a textura, como grama, sardas e paredes de pedra, gerar pixels que correspondam realisticamente a uma determinada textura é mais importante do que reconstruir valores precisos de pixel; gerar qualquer amostra a partir da distribuição de uma textura é geralmente suficiente.'

Assim, este segundo artigo defende que a compressão seja idealmente “criativa” e representativa, em vez de recriar com a maior precisão possível as características e lineamentos centrais da imagem unique não comprimida.

É de se perguntar o que a comunidade fotográfica e criativa pensaria dessa redefinição bastante radical de “compressão”.

*Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez na quarta-feira, 30 de outubro de 2024

Método

Dados e testes

Conclusão

Share this: