Trabalhando com vídeo? Veja por que o novo Sora AI deveria assustar você

Os leitores ajudam a oferecer suporte ao Windows Report. Quando você faz uma compra usando links em nosso site, podemos lucrar uma percentagem de afiliado.

O inevitável aconteceu! A Open AI revelou o Sora AI, um novo protótipo que cria vídeo a partir de texto, e os resultados são impressionantes.

Não entre em pânico ainda porque o novo LLM está fazendo clipes de somente um minuto, mas o desenvolvedor está testando-o agora.

Especificamente, treinamos modelos de disseminação condicional de texto em conjunto em vídeos e imagens de durações, resoluções e proporções variáveis. Aproveitamos uma arquitetura de transformador que opera em fragmentos de códigos latentes de vídeo e imagem no espaço-tempo. Nosso maior protótipo, Sora, é capaz de gerar um minuto de vídeo de subida fidelidade. Nossos resultados sugerem que dimensionar modelos de geração de vídeo é um caminho promissor para a construção de simuladores de uso universal do mundo físico.

IA ocasião

Uma vez que funciona o Sora AI?

O relatório técnico da Open AI é uma leitura especializada, mas basicamente, Sora AI é transformando dados visuais de todos os tipos em uma representação unificada que permite o treinamento em larga graduação de modelos generativos.

Se você ver ao vídeo supra, definitivamente não poderá expor que ele foi gerado por IA. Todas as texturas, pele e rosto parecem naturais, embora o clipe esteja repleto de detalhes e objetos.

Open AI usa patches de vídeo em vez de tokens de texto para treinar seu LLM:

Em um nível superior, transformamos vídeos em fragmentos, primeiro comprimindo os vídeos em um espaço latente de dimensão subordinado e, posteriormente, decompondo a representação em fragmentos de espaço-tempo.

IA ocasião

Treinar um LLM com vídeo requer grandes quantidades de dados para processar. Eles estão tentando reduzir a dimensionalidade dos dados visuais enquanto a rede obtém a ingressão de vídeo bruto e produz um vídeo compactado tanto temporal quanto espacialmente.

A partir dos resultados, entendemos que Sora AI é mais do que capaz de fornecer vídeo de subida qualidade. Uma vez que mencionamos no início, embora agora esteja restringido a clipes de um minuto, com o tempo será claramente capaz de fabricar comerciais e, por que não? episódios inteiros do seu programa predilecto.

Uma vez que a Sora AI mudará a indústria?

É fácil ver por que Sora AI é recebida com exaltação e expectativa, mas muitos profissionais que trabalham na indústria de vídeo estão carrancudos agora, e por um bom motivo.

Uma vez que técnico em marketing, por que você gastaria um orçamento considerável para filmar um mercantil em um lugar exótico quando pode criá-lo no computador em algumas horas?

A indústria da publicidade é um monstro que vale bilhões de dólares anualmente. Ainda assim, alimenta todos na indústria do vídeo, incluindo os redatores, a equipe de filmagem, o diretor, o set e muitas, muitas outras equipes especializadas que nem sabemos que estão envolvidas no processo.

A indústria mercantil/anúncios provavelmente mudará com o tempo, mas num porvir próximo, os primeiros a serem afetados serão os provedores de teor de vídeo isentos de royalties.

Quem vai querer comprar um clipe pequeno quando pode criá-lo em poucos minutos com Sora AI?

Relaxe, o porvir não é tão sombrio

Agora, todos disseram que a IA substituirá os jornalistas e redatores de teor, mas isso acabou sendo uma bagunça. A Microsoft está criando seu próprio noticiário, mas usará IA para treinar os jornalistas e fornecer-lhes mais informações, e não para redigir as notícias diretamente.

Neste momento, os motores de procura estão a tentar identificar e excluir teor gerado por IA porque muitas vezes se revelou indefinível e alucinante. Você ainda precisa de jornalistas humanos para discernir o notório do inverídico, para fazer as conexões corretas e redigir um item porquê nascente.

É a mesma coisa com imagens. Meta está expondo as imagens geradas por IA, e os motores de procura provavelmente seguirão o exemplo e sinalizarão as fotos falsas.

Provavelmente isso também acontecerá com os vídeos. Mas agora, o texto para vídeo e o Sora AI estão em sua puerícia e enfrentando alguns problemas conceituais reais.

Por exemplo, se um personagem gerado morder um biscoito, há uma chance de o biscoito permanecer inviolado. Isso não é porque Sora AI não sabe porquê deve ser a figura de um biscoito mordido, mas porque não entende corretamente a subtração da material.

Sora AI ainda tem um longo caminho a percorrer até entregar os resultados certos, e a Open AI ainda não o divulgou para todos. Está em uma prévia testada limitada para especialistas da indústria e o desenvolvedor não anunciou nenhuma data para seu lançamento público.

O que você acha do Sora AI e do texto para vídeo? Vamos discutir isso na seção de comentários aquém.