Tech

Por que os sistemas de vídeo generativos não conseguem produzir filmes completos?

O advento e o progresso do vídeo de IA generativa levaram muitos observadores casuais a prever que o aprendizado de máquina provará a morte da indústria cinematográfica como a conhecemos – em vez disso, criadores individuais poderão criar sucessos de bilheteria no estilo de Hollywood em casa, em sistemas de GPU locais ou baseados em nuvem.

Isso é possível? Mesmo que seja possível, é iminentecomo muitos acreditam?

Que indivíduos eventualmente serão capazes de criar filmes, na forma como os conhecemos, com personagens consistentes, continuidade narrativa e fotorrealismo complete, é bem possível – e talvez até inevitável.

No entanto, há várias razões verdadeiramente fundamentais pelas quais isso provavelmente não ocorrerá com sistemas de vídeo baseados em Modelos de Difusão Latente.

Este último facto é importante porque, neste momento, essa categoria inclui todo sistemas populares de texto para vídeo (T2) e imagem para vídeo (I2V) disponíveis, incluindo Minimax, Kling, Sora, Imagen, Luma, Amazon Video Generator, Runway ML, Kaiber (e, até onde podemos discernir, a funcionalidade de vídeo pendente do Adobe Firefly); entre muitos outros.

Aqui, estamos considerando a perspectiva de uma verdadeira autor produções completas de IA gerada por geração, criadas por indivíduos, com personagens, cinematografia e efeitos visuais consistentes, pelo menos no mesmo nível do atual estado da arte em Hollywood.

Vamos dar uma olhada em alguns dos maiores obstáculos práticos para os desafios envolvidos.

1: Você não consegue fazer um tiro de acompanhamento preciso

A inconsistência narrativa é o maior desses obstáculos. O fato é que nenhum sistema de geração de vídeo disponível atualmente pode fazer uma tomada 'observe on' realmente precisa*.

Isso ocorre porque o modelo de difusão de redução de ruído no centro desses sistemas depende de ruído aleatório, e esse princípio básico não é adequado para reinterpretar exatamente o mesmo conteúdo duas vezes (ou seja, de ângulos diferentes ou desenvolvendo a cena anterior em uma cena subsequente que mantenha a consistência com a cena anterior).

Quando prompts de texto são usados, sozinhos ou em conjunto com imagens 'semente' carregadas (entrada multimodal), os tokens derivados do immediate extrairão conteúdo semanticamente apropriado do espaço latente treinado do modelo.

No entanto, ainda mais prejudicado pelo fator “ruído aleatório”, ele irá nunca faça da mesma maneira duas vezes.

Isso significa que as identidades das pessoas no vídeo tenderão a mudar, e os objetos e ambientes não corresponderão à cena inicial.

É por isso que clipes virais retratando visuais extraordinários e produções de nível Hollywoodiano tendem a ser tomadas únicas ou uma “montagem de demonstração” das capacidades do sistema, onde cada tomada apresenta personagens e ambientes diferentes.

Trechos de uma montagem de IA generativa de Marco van Hylckama Vlieg – fonte: https://www.linkedin.com/posts/marcovhv_thanks-to-generative-ai-we-are-all-filmmakers-activity-7240024800906076160-nEXZ/

A implicação nessas coleções de por esta gerações de vídeo (o que pode ser hipócrita no caso de sistemas comerciais) é que o sistema subjacente pode criar narrativas contíguas e consistentes.

A analogia explorada aqui é a de um trailer de filme, que apresenta apenas um ou dois minutos de filmagem, mas dá ao público motivos para acreditar que o filme inteiro existe.

Os únicos sistemas que atualmente oferecem consistência narrativa em um modelo de difusão são aqueles que produzem imagens estáticas. Isso inclui o ConsiStory da NVIDIA e diversos projetos na literatura científica, como TheaterGen, DreamStory e StoryDiffusion.

Dois exemplos de continuidade narrativa 'estática', de modelos recentes:: Fontes: https://analysis.nvidia.com/labs/par/consistory/ e https://arxiv.org/pdf/2405.01434

Em teoria, seria possível usar uma versão melhor desses sistemas (nenhum dos acima é realmente consistente) para criar uma série de tomadas de imagem para vídeo, que poderiam ser encadeadas em uma sequência.

No estado atual da arte, esta abordagem não produz tomadas de acompanhamento plausíveis; e, em qualquer caso, já nos afastamos do autor sonho adicionando uma camada de complexidade.

Podemos, adicionalmente, usar modelos de Adaptação de Baixo Nível (LoRA), treinados especificamente em personagens, coisas ou ambientes, para manter melhor consistência entre as cenas.

No entanto, se um personagem deseja aparecer com um novo traje, geralmente será necessário treinar um LoRA totalmente novo que incorpore o personagem vestido daquela forma (embora subconceitos como “vestido vermelho” possam ser treinados em LoRAs individuais, juntamente com imagens apropriadas, nem sempre é fácil trabalhar com eles).

Isso acrescenta uma complexidade considerável, até mesmo a uma cena de abertura de um filme, onde uma pessoa sai da cama, veste um roupão, boceja, olha pela janela do quarto e vai ao banheiro escovar os dentes.

Uma cena como essa, contendo aproximadamente 4 a 8 tomadas, pode ser filmada em uma manhã por procedimentos convencionais de produção cinematográfica; no atual estado da arte em IA generativa, ela representa potencialmente semanas de trabalho, múltiplos LoRAs treinados (ou outros sistemas auxiliares) e uma quantidade considerável de pós-processamento.

Alternativamente, vídeo para vídeo pode ser usado, onde filmagens comuns ou CGI são transformadas por meio de prompts de texto em interpretações alternativas. A Runway oferece um sistema assim, por exemplo.

CGI (esquerda) do Blender, interpretado em um experimento de vídeo para vídeo auxiliado por texto da Runway por Mathieu Visnjevec – Fonte: https://www.linkedin.com/feed/replace/urn:li:exercise:7240525965309726721/

Existem dois problemas aqui: você já está tendo que criar a filmagem principal, então você já está fazendo o filme duas vezesmesmo se você estiver usando um sistema sintético como o MetaHuman da UnReal.

Se você criar modelos CGI (como no clipe acima) e usá-los em uma transformação de vídeo em imagem, não será possível confiar na consistência deles entre as tomadas.

Isso ocorre porque os modelos de difusão de vídeo não veem o “quadro geral”; em vez disso, eles criam um novo quadro com base em quadros anteriores e, em alguns casos, consideram um quadro futuro próximo; mas, para comparar o processo a um jogo de xadrez, eles não conseguem pensar “dez movimentos à frente” e não conseguem se lembrar de dez movimentos atrás.

Em segundo lugar, um modelo de difusão ainda terá dificuldade em manter uma aparência consistente em todas as cenas, mesmo se você incluir vários LoRAs para personagem, ambiente e estilo de iluminação, pelos motivos mencionados no início desta seção.

2: Você não consegue editar uma cena facilmente

Se você retratar um personagem caminhando por uma rua usando métodos CGI antigos e decidir que quer mudar algum aspecto da cena, você pode ajustar o modelo e renderizá-lo novamente.

Se for uma filmagem actual, basta reiniciar e filmar novamente, com as alterações apropriadas.

No entanto, se você produzir uma cena de vídeo gen-AI que você adora, mas quer mudar um aspecto disso, você só pode conseguir isso por meio de métodos meticulosos de pós-produção desenvolvidos nos últimos 30-40 anos: CGI, rotoscopia, modelagem e matting – todos procedimentos trabalhosos, caros e demorados.

A maneira como os modelos de difusão funcionam, simplesmente alterando um aspecto de um immediate de texto (mesmo em um immediate multimodal, onde você fornece uma imagem de semente de origem completa) mudará múltiplos aspectos da saída gerada, levando a um jogo de estímulo 'whack-a-mole'.

3: Você não pode confiar nas leis da física

Os métodos tradicionais de CGI oferecem uma variedade de modelos baseados em física algorítmica que podem simular coisas como dinâmica de fluidos, movimento gasoso, cinemática inversa (a modelagem precisa do movimento humano), dinâmica de tecidos, explosões e diversos outros fenômenos do mundo actual.

No entanto, métodos baseados em difusão, como vimos, têm memórias curtas e também uma amplitude limitada de movimentos anteriores (exemplos de tais ações, incluídos no conjunto de dados de treinamento) para utilizar.

Em uma versão anterior da página inicial da OpenAI para o aclamado sistema generativo Sora, a empresa admitiu que o Sora tem limitações a esse respeito (embora este texto tenha sido removido):

(Sora) pode ter dificuldade para simular a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito (por exemplo: um biscoito pode não mostrar uma marca depois que um personagem o morde).

'O modelo também pode confundir detalhes espaciais incluídos em um immediate, como discernir esquerda de direita, ou ter dificuldades com descrições precisas de eventos que se desenrolam ao longo do tempo, como trajetórias específicas de câmera.'

O uso prático de vários sistemas de vídeo generativos baseados em API revela limitações semelhantes na representação de física precisa. No entanto, certos fenômenos físicos comuns, como explosões, parecem ser melhor representados em seus conjuntos de dados de treinamento.

Alguns embeddings de movimento anteriores, treinados no modelo generativo ou alimentados de um vídeo de origem, demoram um pouco para serem concluídos (como uma pessoa realizando uma sequência de dança complexa e não repetitiva em um traje elaborado) e, mais uma vez, a janela de atenção míope do modelo de difusão provavelmente transformará o conteúdo (ID facial, detalhes do traje, and many others.) no momento em que o movimento for reproduzido. No entanto, LoRAs podem mitigar isso, até certo ponto.

Corrigindo na postagem

Existem outras deficiências na geração de vídeo de IA pura de 'usuário único', como a dificuldade em representar movimentos rápidos e o problema geral e muito mais urgente de obter consistência temporal no vídeo de saída.

Além disso, criar performances faciais específicas é uma questão de sorte em vídeos generativos, assim como a sincronização labial para diálogos.

Em ambos os casos, o uso de sistemas auxiliares como LivePortrait e AnimateDiff está se tornando muito well-liked na comunidade de efeitos visuais, pois permite a transposição de pelo menos uma ampla expressão facial e sincronização labial para a saída gerada existente.

Um exemplo de transferência de expressão (vídeo de condução no canto inferior esquerdo) sendo imposta a um vídeo alvo com LivePortrait. O vídeo é do Generative Z TunisiaGenerative. Veja a versão completa em melhor qualidade em https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/?

Além disso, uma infinidade de soluções complexas, incorporando ferramentas como a interface gráfica de usuário (GUI) Secure Diffusion ComfyUI e o aplicativo profissional de composição e manipulação Nuke, bem como manipulação de espaço latente, permitem que os profissionais de efeitos visuais de IA obtenham maior controle sobre a expressão facial e a disposição.

Embora ele descreva o processo de animação facial no ComfyUI como “tortura”, o profissional de efeitos visuais Francisco Contreras desenvolveu tal procedimento, que permite a imposição de fonemas labiais e outros aspectos da representação facial/da cabeça”

Secure Diffusion, auxiliado por um fluxo de trabalho ComfyUI alimentado por Nuke, permitiu que o profissional de efeitos visuais Francisco Contreras ganhasse controle incomum sobre os aspectos faciais. Para o vídeo completo, em melhor resolução, acesse https://www.linkedin.com/feed/replace/urn:li:exercise:7243056650012495872/

Conclusão

Nada disso é promissor para a perspectiva de um único usuário gerar filmes completos coerentes e fotorrealistas no estilo blockbuster, com diálogos realistas, dublagem, performances, ambientes e continuidade.

Além disso, os obstáculos descritos aqui, pelo menos em relação aos modelos de vídeo generativos baseados em difusão, não são necessariamente solucionáveis ​​'a qualquer momento' agora, apesar dos comentários do fórum e da atenção da mídia que comprovam esse caso. As restrições descritas parecem ser intrínsecas à arquitetura.

Na pesquisa de síntese de IA, como em toda pesquisa científica, ideias brilhantes periodicamente nos deslumbram com seu potencial, apenas para que pesquisas futuras descubram suas limitações fundamentais.

No espaço generativo/síntese, isso já aconteceu com Generative Adversarial Networks (GANs) e Neural Radiance Fields (NeRF), ambos os quais acabaram se mostrando muito difíceis de instrumentalizar em sistemas comerciais performáticos, apesar de anos de pesquisa acadêmica em direção a esse objetivo. Essas tecnologias agora aparecem com mais frequência como componentes adjuntos em arquiteturas alternativas.

Por muito que os estúdios de cinema possam esperar que o treinamento em catálogos de filmes legitimamente licenciados possa eliminar os artistas de efeitos visuais, a IA é, na verdade, adicionando papéis para a força de trabalho no momento atual.

Nos próximos 12 meses, deverá ficar claro se os sistemas de vídeo baseados em difusão podem realmente ser transformados em geradores de filmes fotorrealistas e narrativamente consistentes ou se todo esse negócio é apenas mais uma busca alquímica.

Pode ser que precisemos de uma abordagem totalmente nova; ou pode ser que o Gaussian Splatting (GSplat), que foi desenvolvido no início da década de 1990 e recentemente decolou no espaço de síntese de imagens, represente uma alternativa potencial à geração de vídeo baseada em difusão.

Como o GSplat levou 34 anos para surgir, também é possível que concorrentes mais antigos, como NeRF e GANs – e até mesmo modelos de difusão latente – ainda não tenham tido seu momento.

* Embora o recurso AI Storyboard do Kaiber ofereça esse tipo de funcionalidade, os resultados que vi não são de qualidade de produção.

Martin Anderson é o ex-chefe de conteúdo de pesquisa científica da metaphysic.ai
Primeira publicação segunda-feira, 23 de setembro de 2024

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button