Tech

Edição de imagens com respingos gaussianos

Uma nova colaboração entre investigadores na Polónia e no Reino Unido propõe a perspectiva de usar Gaussian Splatting para editar imagens, interpretando temporariamente uma parte seleccionada da imagem no espaço 3D, permitindo ao utilizador modificar e manipular a representação 3D da imagem, e depois aplicando a transformação.

Para alterar a orientação da cabeça do gato, a seção relevante é movida para o espaço 3D through Gaussian Splatting e depois manipulada pelo usuário. A modificação é então aplicada. O processo é análogo a várias técnicas modais do software program Adobe, que bloqueiam a interface até que um processo complexo atual seja concluído. Fonte: https://github.com/waczjoan/MiraGe/

Como o elemento Gaussian Splat é temporariamente representado por uma malha de triângulos e entra momentaneamente em um 'estado CGI', um mecanismo de física integrado ao processo pode interpretar o movimento pure, seja para alterar o estado estático de um objeto, ou para produzir uma animação .

Um mecanismo de física incorporado ao novo sistema MiraGe pode realizar interpretações naturais do movimento físico, seja para animações ou alterações estáticas em uma imagem.

Um mecanismo de física incorporado ao novo sistema MiraGe pode realizar interpretações naturais do movimento físico, seja para animações ou alterações estáticas em uma imagem.

Não há IA generativa envolvida no processo, o que significa que nenhum Modelo de Difusão Latente (LDMs) está envolvido, ao contrário do sistema Firefly da Adobe, que é treinado no Adobe Inventory (antigo Fotolia).

O sistema – chamado Miragem – interpreta seleções no espaço 3D e infere geometria criando um imagem espelhada da seleção e aproximação de coordenadas 3D que podem ser incorporadas em um Splat, que então interpreta a imagem em uma malha.

Clique para jogar. Outros exemplos de elementos que foram alterados manualmente por um usuário do sistema MiraGe ou sujeitos a deformação baseada na física.

Os autores compararam o sistema MiraGe com abordagens anteriores e descobriram que ele alcança desempenho de última geração na tarefa alvo.

Os usuários do sistema de modelagem zBrush estarão familiarizados com este processo, uma vez que o zBrush permite ao usuário essencialmente 'achatar' um modelo 3D e adicionar detalhes 2D, preservando a malha subjacente e interpretando os novos detalhes nela – um 'congelamento' que é o oposto do método MiraGe, que opera mais como Firefly ou outras manipulações modais no estilo Photoshop, como distorções ou interpretações 3D grosseiras.

Splats gaussianos parametrizados permitem que o MiraGe crie reconstruções de alta qualidade de áreas selecionadas de uma imagem 2D e aplique física de corpo mole à seleção temporariamente 3D.

Splats gaussianos parametrizados permitem que o MiraGe crie reconstruções de alta qualidade de áreas selecionadas de uma imagem 2D e aplique física de corpo mole à seleção temporariamente 3D.

O artigo afirma:

'(Nós) introduzimos um modelo que codifica imagens 2D simulando a interpretação humana. Especificamente, nosso modelo percebe uma imagem 2D como um ser humano veria uma fotografia ou uma folha de papel, tratando-a como um objeto plano dentro de um espaço 3D.

'Esta abordagem permite a edição de imagens intuitiva e flexível, capturando as nuances da percepção humana e ao mesmo tempo permitindo transformações complexas.'

O novo artigo é intitulado MiraGe: imagens 2D editáveis ​​usando placas gaussianase vem de quatro autores da Universidade Jaguelônica de Cracóvia e da Universidade de Cambridge. O código completo do sistema foi lançado no GitHub.

Vamos dar uma olhada em como os pesquisadores enfrentaram o desafio.

Método

A abordagem MiraGe utiliza parametrização Gaussian Mesh Splatting (GaMeS), uma técnica desenvolvida por um grupo que inclui dois dos autores do novo artigo. O GaMeS permite que os Gaussian Splats sejam interpretados como malhas CGI tradicionais e se tornem sujeitos à gama padrão de técnicas de distorção e modificação que a comunidade CGI desenvolveu nas últimas décadas.

MiraGe interpreta Gaussianos 'planos', em um espaço 2D, e usa GaMeS para 'puxar' conteúdo para o espaço 3D habilitado para GSplat, temporariamente.

Cada gaussiana plana é representada como três pontos em uma nuvem de triângulos, chamada de “sopa de triângulos”, abrindo a imagem inferida à manipulação. Fonte: https://arxiv.org/pdf/2410.01521

Cada gaussiana plana é representada como três pontos em uma nuvem de triângulos, chamada de “sopa de triângulos”, abrindo a imagem inferida à manipulação. Fonte: https://arxiv.org/pdf/2410.01521

Podemos ver no canto inferior esquerdo da imagem acima que o MiraGe cria uma imagem 'espelho' da seção de uma imagem a ser interpretada.

Os autores afirmam:

'(Nós) empregamos uma nova abordagem utilizando duas câmeras opostas posicionadas ao longo do eixo Y, simetricamente alinhadas em torno da origem e direcionadas uma para a outra. A primeira câmera tem a tarefa de reconstruir a imagem authentic, enquanto a segunda modela o reflexo do espelho.

'A fotografia é assim conceituada como uma folha de papel vegetal translúcida, inserida no contexto espacial 3D. O reflexo pode ser representado de forma eficaz invertendo horizontalmente a (imagem). Esta configuração de câmera espelhada aumenta a fidelidade dos reflexos gerados, fornecendo uma solução robusta para capturar elementos visuais com precisão”.

O artigo observa que, uma vez alcançada essa extração, os ajustes de perspectiva que normalmente seriam desafiadores tornam-se acessíveis por meio da edição direta em 3D. No exemplo abaixo, vemos uma seleção de uma imagem de uma mulher que abrange apenas o braço. Neste caso, o usuário inclinou a mão para baixo de uma maneira plausível, o que seria uma tarefa desafiadora apenas empurrando os pixels.

Um exemplo da técnica de edição MiraGe

Um exemplo da técnica de edição MiraGe.

Tentar fazer isso usando as ferramentas generativas Firefly no Photoshop normalmente significaria que a mão seria substituída por uma mão sintetizada e imaginada por difusão, quebrando a autenticidade da edição. Mesmo os sistemas mais capazes, como o sistema auxiliar ControlNet para difusão estável e outros modelos de difusão latente, como o Flux, lutam para conseguir esse tipo de edição em um pipeline imagem a imagem.

Esta busca específica tem sido dominada por métodos que utilizam Representações Neurais Implícitas (INRs), como SIREN e WIRE. A diferença entre um método de representação implícito e explícito é que as coordenadas do modelo não são diretamente endereçáveis ​​em INRs, que utilizam uma função contínua.

Por outro lado, Gaussian Splatting oferece coordenadas cartesianas X/Y/Z explícitas e endereçáveis, embora use elipses gaussianas em vez de voxels ou outros métodos de representação de conteúdo em um espaço 3D.

A ideia de usar GSplat em um espaço 2D foi apresentada com mais destaque, observam os autores, na colaboração acadêmica chinesa GaussianImage de 2024, que ofereceu uma versão 2D do Gaussian Splatting, permitindo taxas de quadros de inferência de 1000fps. Porém, este modelo não possui implementação relacionada à edição de imagens.

Depois que a parametrização do GaMeS extrai a área selecionada em uma representação gaussiana/malha, a imagem é reconstruída usando a técnica Materials Factors Technique (MPM) descrita pela primeira vez em um artigo CSAIL de 2018.

No MiraGe, durante o processo de alteração, o Gaussian Splat existe como um proxy orientador para uma versão de malha equivalente, assim como os modelos 3DMM CGI são frequentemente usados ​​como métodos de orquestração para técnicas de renderização neural implícita, como Neural Radiance Fields (NeRF).

No processo, objetos bidimensionais são modelados no espaço 3D, e as partes da imagem que não estão sendo influenciadas não ficam visíveis para o usuário ultimate, de forma que o efeito contextual das manipulações não fica aparente até que o processo seja concluído.

O MiraGe pode ser integrado ao in style programa 3D de código aberto Blender, que agora é frequentemente usado em fluxos de trabalho com IA, principalmente para fins de imagem a imagem.

Um fluxo de trabalho para MiraGe no Blender, envolvendo o movimento do braço de uma figura representada em uma imagem 2D.

Um fluxo de trabalho para MiraGe no Blender, envolvendo o movimento do braço de uma figura representada em uma imagem 2D.

Os autores oferecem duas versões de uma abordagem de deformação baseada em Gaussian Splatting – Amorfo e Grafite.

A abordagem amorfa utiliza diretamente o método GaMeS e permite que a seleção 2D extraída se mova livremente no espaço 3D, enquanto a abordagem grafite restringe os gaussianos ao espaço 2D durante a inicialização e o treinamento.

Os investigadores descobriram que, embora a abordagem amorfa possa lidar melhor com formas complexas do que a grafite, os “rasgos” ou artefactos de fenda eram mais evidentes, onde a borda da deformação se alinha com a parte não afetada da imagem*.

Portanto, eles desenvolveram o referido sistema de 'imagem espelhada':

'(Nós) empregamos uma nova abordagem utilizando duas câmeras opostas posicionadas ao longo do eixo Y, simetricamente alinhadas em torno da origem e direcionadas uma para a outra.

'A primeira câmera tem a tarefa de reconstruir a imagem authentic, enquanto a segunda modela o reflexo do espelho. A fotografia é assim conceituada como uma folha de papel vegetal translúcida, inserida no contexto espacial 3D. O reflexo pode ser efetivamente representado invertendo horizontalmente a (imagem).

'Esta configuração de câmera espelhada aumenta a fidelidade dos reflexos gerados, fornecendo uma solução robusta para capturar elementos visuais com precisão.'

O artigo observa que o MiraGe pode usar mecanismos físicos externos, como os disponíveis no Blender ou no Taichi_Elements.

Dados e testes

Para avaliações de qualidade de imagem em testes realizados para MiraGe, foram utilizadas as métricas Sign-to-Noise Ratio (SNR) e MS-SIM.

Os conjuntos de dados usados ​​foram o Kodak Lossless True Colour Picture Suite e o conjunto de validação DIV2K. As resoluções desses conjuntos de dados foram adequadas para uma comparação com o trabalho anterior mais próximo, Gaussian Picture. As outras estruturas rivais testadas foram SIREN, WIRE, On the spot Neural Graphics Primitives (I-NGP) da NVIDIA e NeuRBF.

Os experimentos foram realizados em um laptop computer NVIDIA GEFORCE RTX 4070 e em um NVIDIA RTX 2080.

MiraGe oferece resultados de última geração em relação às estruturas anteriores escolhidas, de acordo com os resultados apresentados no novo artigo.

MiraGe oferece resultados de última geração em relação às estruturas anteriores escolhidas, de acordo com os resultados apresentados no novo artigo.

Desses resultados, os autores afirmam:

'Vemos que nossa proposta supera as soluções anteriores em ambos os conjuntos de dados. A qualidade medida por ambas as métricas mostra uma melhoria significativa em comparação com todas as abordagens anteriores.'

Conclusão

A adaptação do MiraGe do 2D Gaussian Splatting é claramente uma incursão incipiente e provisória no que pode ser uma alternativa muito interessante aos caprichos e caprichos do uso de modelos de difusão para efetuar modificações em uma imagem (ou seja, through Firefly e outros métodos de difusão baseados em API , e por meio de arquiteturas de código aberto, como Secure Diffusion e Flux).

Embora existam muitos modelos de difusão que podem efetuar pequenas alterações nas imagens, os LDMs são limitados por sua abordagem semântica e muitas vezes “excessivamente imaginativa” a uma solicitação de modificação do usuário baseada em texto.

Portanto, a capacidade de puxar temporariamente parte de uma imagem para o espaço 3D, manipulá-la e substituí-la de volta na imagem, usando apenas a imagem de origem como referência, parece uma tarefa para a qual o Gaussian Splatting pode ser adequado no futuro.

* Há alguma confusão no artigo, na medida em que cita 'Amorphous-Mirage' como o método mais eficaz e capaz, apesar de sua tendência a produzir Gaussianos (artefatos) indesejados, enquanto argumenta que 'Graphite-Mirage' é mais flexível. Parece que Amorphous-Mirage obtém os melhores detalhes e Graphite-Mirage a melhor flexibilidade. Dado que ambos os métodos são apresentados no artigo, com os seus diversos pontos fortes e fracos, a preferência dos autores, se houver, não parece estar clara neste momento.

Publicado pela primeira vez em quinta-feira, 3 de outubro de 2024

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button