Tech

AI de geração de vídeo: explorando o modelo Sora inovador da OpenAI

LifeTechWebMarch 1, 2024

0 5 minutes read

DALL·E 2024 02 26 14.06.55 A minimalist digital illustration for a banner of a technical article titled Video Generation and AI. The concept features a simple stylized repre

OpenAI revelou sua mais recente geração de IA – Sora, um revolucionário gerador de texto para vídeo capaz de produzir vídeos coerentes e de subida fidelidade de até 1 minuto de duração a partir de simples prompts de texto. Sora representa um grande salto em IA de vídeo generativo, com capacidades que superam em muito os modelos de última geração anteriores.

Neste post, forneceremos um mergulho técnico abrangente no Sora – porquê ele funciona nos bastidores, as novas técnicas que a OpenAI aproveitou para inferir as incríveis habilidades de geração de vídeo do Sora, seus principais pontos fortes e limitações atuais, e o imenso potencial que Sora representa para o horizonte da originalidade da IA.

Visão universal de Sora

Em um nível superior, Sora recebe um prompt de texto porquê ingressão (por exemplo, “dois cachorros brincando em um campo”) e gera um vídeo de saída correspondente completo com imagens, movimentos e áudio realistas.

Alguns recursos principais do Sora incluem:

Gerando vídeos de até 60 segundos em subida solução (1080p ou superior)
Produzindo vídeos coerentes e de subida fidelidade com objetos, texturas e movimentos consistentes
Suporta diversos estilos de vídeo, proporções e resoluções
Condicionamento em imagens e vídeos para ampliar, editar ou fazer transição entre eles
Exibindo habilidades de simulação emergentes, porquê consistência 3D e permanência de objetos a longo prazo

Nos bastidores, Sora combina e amplia duas inovações importantes de IA – modelos de disseminação e transformadores – para inferir capacidades de geração de vídeo sem precedentes.

Fundamentos Técnicos de Sora

Sora baseia-se em duas técnicas inovadoras de IA que demonstraram imenso sucesso nos últimos anos – modelos de disseminação profunda e transformadores:

Modelos de Espalhamento

Os modelos de disseminação são uma classe de modelos generativos profundos que podem produzir imagens e vídeos sintéticos altamente realistas. Eles trabalham pegando dados de treinamento reais, adicionando soído para corrompê-los e, em seguida, treinando uma rede neural para remover esse soído passo a passo para restabelecer os dados originais. Isso treina o protótipo para gerar amostras diversas e de subida fidelidade que capturam os padrões e detalhes dos dados visuais do mundo real.

Sora utiliza um tipo de protótipo de disseminação denominado protótipo probabilístico de disseminação com eliminação de soído (DDPM). Os DDPMs dividem o processo de geração de imagem/vídeo em várias etapas menores de remoção de soído, facilitando o treinamento do protótipo para volver o processo de disseminação e gerar amostras claras.

Especificamente, Sora usa uma versão de vídeo do DDPM chamada DVD-DDPM que é projetada para modelar vídeos diretamente no domínio do tempo, ao mesmo tempo em que alcança possante consistência temporal entre quadros. Esta é uma das chaves para a capacidade de Sora de produzir vídeos coerentes e de subida fidelidade.

Transformadores

Os transformadores são um tipo revolucionário de arquitetura de rede neural que passou a dominar o processamento de linguagem proveniente nos últimos anos. Os transformadores processam dados em paralelo em blocos baseados em atenção, permitindo-lhes modelar dependências complexas de longo alcance em sequências.

Sora adapta transformadores para operar em dados visuais, passando patches de vídeo tokenizados em vez de tokens textuais. Isso permite que o protótipo entenda as relações espaciais e temporais em toda a sequência de vídeo. A arquitetura do transformador de Sora também permite conformidade de longo alcance, permanência de objetos e outras habilidades de simulação emergentes.

Ao combinar essas duas técnicas – aproveitando o DDPM para síntese de vídeo de subida fidelidade e transformadores para compreensão e conformidade global – Sora expande os limites do que é provável em IA de vídeo generativo.

Limitações e desafios atuais

Embora altamente capaz, Sora ainda tem algumas limitações importantes:

Falta de compreensão física – Sora não tem uma compreensão inata robusta de física e desculpa e efeito. Por exemplo, objetos quebrados podem “sanar” ao longo de um vídeo.
Incoerência por longos períodos – Artefatos visuais e inconsistências podem se amontoar em amostras com mais de 1 minuto. Manter a conformidade perfeita para vídeos muito longos continua sendo um repto em acessível.
Defeitos esporádicos de objetos – Sora às vezes gera vídeos onde os objetos mudam de localização de forma não proveniente ou aparecem/desaparecem espontaneamente de quadro a quadro.
Dificuldade com avisos fora de distribuição – Prompts altamente novos, muito fora da distribuição de treinamento do Sora, podem resultar em amostras de baixa qualidade. As capacidades do Sora são mais fortes perto dos seus dados de treinamento.

Será necessária uma maior ampliação de modelos, dados de treinamento e novas técnicas para resolver essas limitações. A IA de geração de vídeo ainda tem um longo caminho pela frente.

Desenvolvimento Responsável de IA de Geração de Vídeo

Tal porquê acontece com qualquer tecnologia que avança rapidamente, existem riscos potenciais a considerar juntamente com os benefícios:

Desinformação sintética – Sora torna a geração de vídeos manipulados e falsos mais fácil do que nunca. Serão necessárias salvaguardas para detectar vídeos gerados e limitar o uso indevido prejudicial.
Vieses de dados – Modelos porquê Sora refletem preconceitos e limitações de seus dados de treinamento, que precisam ser diversos e representativos.
Teor prejudicial – Sem controles apropriados, a IA de texto para vídeo pode produzir teor violento, perigoso ou antiético. São necessárias políticas de moderação de teor muito pensadas.
Preocupações com a propriedade intelectual – O treinamento sobre dados protegidos por direitos autorais sem permissão levanta questões legais em torno de trabalhos derivados. O licenciamento de dados precisa ser considerado cuidadosamente.

A OpenAI precisará tomar muito desvelo ao mourejar com esses problemas ao eventualmente implantar o Sora publicamente. No universal, porém, usado com responsabilidade, Sora representa uma instrumento incrivelmente poderosa para originalidade, visualização, entretenimento e muito mais.

O horizonte da IA de geração de vídeo

Sora demonstra que avanços incríveis em IA de vídeo generativo estão no horizonte. Cá estão algumas direções interessantes que esta tecnologia pode seguir à medida que continua a progredir rapidamente:

Amostras de maior duração – Os modelos poderão em breve ser capazes de gerar horas de vídeo em vez de minutos, mantendo a conformidade. Isso expande tremendamente as possíveis aplicações.
Controle totalidade do espaço-tempo – Além de texto e imagens, os usuários podem manipular diretamente os espaços latentes de vídeo, permitindo poderosas habilidades de edição de vídeo.
Simulação controlável – Modelos porquê o Sora poderiam permitir a manipulação de mundos simulados por meio de instruções e interações textuais.
Vídeo personalizado – A IA pode gerar teor de vídeo personalizado exclusivamente para espectadores ou contextos individuais.
Fusão multimodal – Uma maior integração de modalidades porquê linguagem, áudio e vídeo poderia permitir experiências de mídia mista altamente interativas.
Domínios especializados – Modelos de vídeo específicos de domínio podem se primar em aplicações personalizadas, porquê imagens médicas, monitoramento industrial, mecanismos de jogos e muito mais.

Desenlace

Com Sora, a OpenAI deu um salto explosivo em IA de vídeo generativo, demonstrando capacidades que pareciam estar a décadas de intervalo no ano pretérito. Embora ainda haja trabalho para enfrentar os desafios em acessível, os pontos fortes de Sora mostram o imenso potencial desta tecnologia para um dia imitar e expandir a imaginação visual humana em grande graduação.

Outros modelos da DeepMind, Google, Meta e outros também continuarão ampliando os limites neste espaço. O horizonte do vídeo gerado por IA parece incrivelmente pomposo. Podemos esperar que esta tecnologia expanda as possibilidades criativas e encontre aplicações incrivelmente úteis nos próximos anos, ao mesmo tempo que necessita de uma governação cuidadosa para mitigar os riscos.

É um momento emocionante para desenvolvedores e profissionais de IA, pois modelos de geração de vídeo porquê Sora desbloqueiam novos horizontes para o que é provável. Os impactos que estes avanços podem ter nos meios de notícia, no entretenimento, na simulação, na visualização e muito mais estão unicamente começando a se revelar.

Unite AI Mobile Newsletter 1