Usando compactação JPEG para melhorar o treinamento de redes neurais

Um novo artigo de pesquisa do Canadá propôs uma estrutura que introduz deliberadamente a compressão JPEG no esquema de treinamento de uma rede neural e consegue obter melhores resultados – e melhor resistência a ataques adversários.

Esta é uma ideia bastante radical, uma vez que o conhecimento geral precise é que os artefactos JPEG, que são optimizados para visualização humana, e não para aprendizagem automática, geralmente têm um efeito deletério nas redes neurais treinadas em dados JPEG.

Um exemplo da diferença de clareza entre imagens JPEG compactadas com diferentes valores de perda (perdas mais altas permitem um tamanho de arquivo menor, às custas do delineamento e faixas em gradientes de cores, entre outros tipos de artefatos). Fonte: https://boards.jetphotos.com/discussion board/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Um relatório de 2022 da Universidade de Maryland e do Fb AI afirmou que a compressão JPEG “incorre em uma penalidade significativa de desempenho” no treinamento de redes neurais, apesar de trabalhos anteriores que afirmavam que as redes neurais são relativamente resilientes a artefatos de compressão de imagem.

Um ano antes disso, uma nova linha de pensamento surgiu na literatura: a de que a compressão JPEG poderia realmente ser aproveitada para melhorar os resultados no treinamento de modelos.

No entanto, embora os autores desse artigo tenham conseguido obter melhores resultados no treinamento de imagens JPEG de diversos níveis de qualidade, o modelo que propuseram period tão complexo e oneroso que não period praticável. Além disso, o uso de configurações padrão de otimização JPEG (quantização) pelo sistema provou ser uma barreira para a eficácia do treinamento.

Um projeto posterior (2023 Compressão compatível com JPEG para DNN Imaginative and prescient) experimentaram um sistema que obteve resultados ligeiramente melhores a partir de imagens de treinamento compactadas em JPEG com o uso de um modelo de rede neural profunda (DNN) congelado. No entanto, congelar partes de um modelo durante o treino tende a reduzir a versatilidade do modelo, bem como a sua maior resiliência a novos dados.

JPEG-DL

Em vez disso, o novo trabalho, intitulado Aprendizado profundo inspirado em JPEGoferece uma arquitetura muito mais simples, que pode até ser imposta a modelos existentes.

Os pesquisadores, da Universidade de Waterloo, afirmam:

'Os resultados mostram que o JPEG-DL supera significativa e consistentemente o DL padrão em várias arquiteturas DNN, com um aumento insignificante na complexidade do modelo.

Especificamente, o JPEG-DL melhora a precisão da classificação em até 20,9% em alguns conjuntos de dados de classificação refinados, ao mesmo tempo que adiciona apenas 128 parâmetros treináveis ao pipeline DL. Além disso, a superioridade do JPEG-DL sobre o DL padrão é ainda demonstrada pela maior robustez adversária dos modelos aprendidos e pelos tamanhos reduzidos de arquivo das imagens de entrada.

Os autores afirmam que um nível supreme de qualidade de compressão JPEG pode ajudar uma rede neural a distinguir o(s) assunto(s) central(ais) de uma imagem. No exemplo abaixo, vemos os resultados da linha de base (à esquerda) combinando o pássaro com o fundo quando as características são obtidas pela rede neural. Por outro lado, JPEG-DL (à direita) consegue distinguir e delinear o assunto da foto.

Testes em relação aos métodos de linha de base para JPEG-DL. Fonte: https://arxiv.org/pdf/2410.07081

'Este fenômeno,' eles explicam, 'denominada “compressão ajuda” no artigo (2021), é justificada pelo fato de que a compressão pode remover ruído e características perturbadoras de fundo, destacando assim o objeto principal em uma imagem, o que ajuda DNNs a fazer melhores previsões.'

Método

JPEG-DL introduz um quantizador suave diferenciável, que substitui a operação de quantização não diferenciável em uma rotina de otimização JPEG padrão.

Isso permite a otimização das imagens com base em gradiente. Isto não é possível na codificação JPEG convencional, que utiliza um quantizador uniforme com uma operação de arredondamento que aproxima o coeficiente mais próximo.

A diferenciabilidade do esquema JPEG-DL permite a otimização conjunta dos parâmetros do modelo de treinamento e da quantização JPEG (nível de compressão). A otimização conjunta significa que tanto o modelo quanto os dados de treinamento são acomodados entre si no processo ponta a ponta, e nenhum congelamento de camadas é necessário.

Essencialmente, o sistema personaliza a compactação JPEG de um conjunto de dados (bruto) para se adequar à lógica do processo de generalização.

Esquema conceitual para JPEG-DL.

Pode-se supor que os dados brutos seriam o materials supreme para o treinamento; afinal, as imagens são completamente descompactadas em um espaço de cores completo apropriado quando executadas em lotes; então que diferença faz o formato unique?

Bem, como a compactação JPEG é otimizada para visualização humana, ela descarta áreas de detalhes ou cores de maneira concordante com esse objetivo. Dada a imagem de um lago sob um céu azul, níveis aumentados de compressão serão aplicados ao céu, porque não contém nenhum detalhe “essencial”.

Por outro lado, uma rede neural carece de filtros excêntricos que nos permitem focar nos assuntos centrais. Em vez disso, é provável que considere quaisquer artefactos de bandas no céu como dados válidos a serem assimilados no seu espaço latente.

Embora um ser humano ignore as faixas no céu, em uma imagem fortemente comprimida (esquerda), uma rede neural não tem ideia de que esse conteúdo deve ser descartado e precisará de uma imagem de qualidade superior (direita). Fonte: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Portanto, é improvável que um nível de compressão JPEG seja adequado para todo o conteúdo de um conjunto de dados de treinamento, a menos que represente um domínio muito específico. Imagens de multidões exigirão muito menos compressão do que uma imagem de um pássaro com foco estreito, por exemplo.

Os autores observam que aqueles que não estão familiarizados com os desafios da quantização, mas que estão familiarizados com os fundamentos da arquitetura dos transformadores, podem considerar estes processos como uma 'operação de atenção', de forma ampla.

Dados e testes

JPEG-DL foi avaliado em relação a arquiteturas baseadas em transformadores e redes neurais convolucionais (CNNs). As arquiteturas utilizadas foram EfficientFormer-L1; ResNet; VGG; Rede Móvel; e ShuffleNet.

As versões ResNet utilizadas foram específicas para o conjunto de dados CIFAR: ResNet32, ResNet56 e ResNet110. VGG8 e VGG13 foram escolhidos para os testes baseados em VGG.

Para a CNN, a metodologia de treinamento foi derivada do trabalho de 2020 Destilação de Representação Contrastiva (CRD). Para EfficientFormer-L1 (baseado em transformador), o método de treinamento do lançamento de 2023 Inicializando modelos com modelos maiores foi usado.

Para tarefas refinadas apresentadas nos testes, foram utilizados quatro conjuntos de dados: Stanford Canines; as Flores da Universidade de Oxford; CUB-200-2011 (Pássaros CalTech); e animais de estimação ('Gatos e Cães'uma colaboração entre a Universidade de Oxford e Hyderabad na Índia).

Para tarefas refinadas em CNNs, os autores usaram PreAct ResNet-18 e DenseNet-BC. Para EfficientFormer-L1, a metodologia descrita no mencionado Inicializando modelos com modelos maiores foi usado.

Em todas as tarefas CIFAR-100 e refinadas, as magnitudes variadas das frequências da Transformada Discreta de Cosseno (DCT) na abordagem de compressão JPEG foram tratadas com o otimizador Adam, a fim de adaptar a taxa de aprendizado para a camada JPEG entre os modelos que foram testado.

Nos testes no ImageNet-1K, em todos os experimentos, os autores usaram PyTorch, com SqueezeNet, ResNet-18 e ResNet-34 como modelos principais.

Para a avaliação de otimização da camada JPEG, os pesquisadores usaram Stochastic Gradient Descent (SGD) em vez de Adam, para um desempenho mais estável. No entanto, para os testes ImageNet-1K, o método do artigo de 2019 Quantização do tamanho do passo aprendido foi empregado.

Acima da precisão de validação superior 1 para a linha de base versus JPEG-DL no CIFAR-100, com desvios padrão e médio calculados em três execuções. Abaixo, a precisão de validação principal em diversas tarefas de classificação de imagens refinadas, em várias arquiteturas de modelo, novamente, calculada em média a partir de três passagens.

Comentando a rodada inicial de resultados ilustrada acima, os autores afirmam:

'Em todos os sete modelos testados para CIFAR-100, o JPEG-DL fornece melhorias consistentemente, com ganhos de até 1,53% na precisão top-1. Nas tarefas mais detalhadas, o JPEG-DL oferece um aumento substancial de desempenho, com melhorias de até 20,90% em todos os conjuntos de dados usando dois modelos diferentes.'

Os resultados dos testes ImageNet-1K são mostrados abaixo:

Resultados de precisão de validação de primeira linha no ImageNet em diversas estruturas.

Aqui o artigo afirma:

'Com um aumento trivial na complexidade (adicionando 128 parâmetros), o JPEG-DL atinge um ganho de 0,31% na precisão top-1 para SqueezeNetV1.1 em comparação com a linha de base usando uma única rodada de operação (quantização).

'Ao aumentar o número de rodadas de quantização para cinco, observamos uma melhoria adicional de 0,20%, levando a um ganho complete de 0,51% em relação à linha de base.'

Os pesquisadores também testaram o sistema usando dados comprometidos pelas abordagens de ataque adversário Quick Gradient Signed Technique (FGSM) e Projected Gradient Descent (PGD).

Os ataques foram conduzidos no CIFAR-100 em dois dos modelos:

Resultados de testes para JPEG-DL, em relação a duas estruturas de ataque adversárias padrão.

Os autores afirmam:

'(Os) modelos JPEG-DL melhoram significativamente a robustez do adversário em comparação com os modelos DNN padrão, com melhorias de até 15% para FGSM e 6% para PGD.'

Além disso, conforme ilustrado anteriormente no artigo, os autores conduziram uma comparação de mapas de recursos extraídos usando GradCAM++ – uma estrutura que pode destacar recursos extraídos de maneira visible.

Uma ilustração GradCAM++ para classificação de imagem de linha de base e JPEG-DL, com recursos extraídos em destaque.

O artigo observa que o JPEG-DL produz um resultado melhorado e que, em um caso, foi até capaz de classificar uma imagem que a linha de base não conseguiu identificar. Em relação à imagem ilustrada anteriormente com pássaros, os autores afirmam:

'(É) evidente que os mapas de características do modelo JPEG-DL mostram um contraste significativamente melhor entre as informações de primeiro plano (o pássaro) e o fundo em comparação com os mapas de características gerados pelo modelo de linha de base.

'Especificamente, o objeto de primeiro plano nos mapas de recursos JPEG-DL é delimitado por um contorno bem definido, tornando-o visualmente distinguível do fundo.

'Em contraste, os mapas de características do modelo de base mostram uma estrutura mais combinada, onde o primeiro plano contém energia mais alta em baixas frequências, fazendo com que se misture mais suavemente com o fundo.'

Conclusão

JPEG-DL destina-se ao uso em situações onde dados brutos estão disponíveis – mas seria mais interessante ver se alguns dos princípios apresentados neste projeto poderiam ser aplicados ao treinamento convencional de conjuntos de dados, em que o conteúdo pode ser de qualidade inferior (como ocorre frequentemente com conjuntos de dados de hiperescala extraídos da Web).

Da forma como está, isso continua sendo em grande parte um problema de anotação, embora tenha sido abordado no reconhecimento de imagens baseado em tráfego e em outros lugares.

Publicado pela primeira vez em quinta-feira, 10 de outubro de 2024

JPEG-DL

Método

Dados e testes

Conclusão

Share this: