Tech

Runway vs. Sora: uma introdução à geração de IA de texto para vídeo

Pela primeira vez em muito tempo, um protótipo de IA que não é texto para texto ou texto para imagem está tomando conta da Internet. Em fevereiro pretérito, a OpenAI finalmente revelou um projeto que manteve em sigilo durante anos: Soraum gerador de IA de texto para vídeo.

Embora seja provavelmente o primeiro desse tipo a entender o sucesso mainstream, está longe de ser o primeiro gerador de texto para vídeo. Antes mesmo do ChatGPT, RunwayML é uma empresa de quem foco principal é fabricar um gerador de vídeo de IA que possa ser usado para fabricar filmes usando unicamente descrições textuais.

Porquê consumidores, uma das perguntas mais importantes que devemos saber fazer é “O que é melhor?” E isso foi o que perguntamos hoje com Sora e Runway. Neste cláusula, examinarei o que são exatamente, recursos, qualidade de saída e porvir potencial.

O que são Runway e Sora?

Conforme mencionado anteriormente, Sora é a mais recente soma da OpenAI ao seu conjunto de ferramentas de IA. É um poderoso protótipo de IA que pode gerar vídeos realistas ou criativos com base em descrições textuais. Em palavras mais simples, permite transformar suas ideias escritas em histórias visuais. Em março de 2024, Sora ainda não estava disponível publicamente. Tudo o que temos agora são os vídeos da página de mostra e alguns resultados de pessoas que tiveram chegada antecipado.

Screenshot 2024 03 05 214247Screenshot 2024 03 05 214247

Alguns podem pensar que se trata de uma novidade tecnologia, mas estou cá para dissipar esse boato. A conversão de texto em vídeo já existe há qualquer tempo, embora subexposta graças a geradores de texto para imagem uma vez que Midjourney e DALL-E. Um dos primeiros geradores de texto para vídeo do mercado é chamado Pistaque existe desde meados de 2019.

Screenshot 2024 03 05 214333Screenshot 2024 03 05 214333

Características

Vamos principiar com a Runway, pois temos uma teoria melhor do que ela oferece. Além de gerar vídeos a partir de texto, Runway oferece recursos uma vez que “ferramentas”, que incluem o seguinte e muito mais:

  • Removedor de fundo
  • Imagem para vídeo
  • Expansor de imagem
  • Backdrop Remix: altera o projecto de fundo de um vídeo.
  • Extinguir e Substituir: Cria variações de uma região selecionada de um vídeo.
  • Vídeo para vídeo: altere os estilos de vídeo usando descritores escritos ou visuais.
  • Text-to-Speech: Gera áudio usando vídeo.
  • Conquista 3D: Cria modelos 3D.

Ainda não conhecemos a maior segmento dos recursos do Sora, mas o que sabemos é que (uma vez que o DALL-E 3) ele gera uma versão melhor do seu prompt original usando GPT-4. Assim uma vez que o RunwayML, ele também pode fabricar versões de vídeo de uma imagem de ingresso ou estender vídeos usando IA.

Pista vs. Sora: verificação de saída

Além da geração de texto para vídeo, o maior motivo pelo qual tantas pessoas estão interessadas no Sora são as promessas de seu showcase. Cada um deles poderia ter sido criado por uma pessoa real e ninguém notaria a diferença. Mas uma vez que exatamente isso se compara a um gerador uma vez que a Runway, que trabalha em seu protótipo há pelo menos cinco anos?

Cá está uma verificação direta de seus resultados usando prompts do showcase Sora da OpenAI:

A lontra

Uma adorável lontra feliz está optimista em uma prancha de surf usando um colete salva-vidas amarelo, cavalgando ao longo de águas tropicais turquesa perto de ilhas tropicais exuberantes, estilo de arte de renderização do dedo 3D.

Saída de Sora

Saída do RunwayML

Os penhascos

Vista de drone das ondas quebrando contra os penhascos escarpados ao longo da praia garay point de Big Sur. As águas azuis agitadas criam ondas com pontas brancas, enquanto a luz dourada do sol poente ilumina a costa rochosa. Uma pequena ilhéu com um farol fica ao longe, e arbustos verdes cobrem a margem do penhasco. A queda acentuada da estrada até à praia é um feito dramático, com as bordas da falésia a projetarem-se sobre o mar. Esta é uma vista que conquista a formosura crua da costa e a paisagem acidentada da Pacific Coast Highway.

Saída de Sora

Saída do RunwayML

O monstro

A cena animada apresenta um close-up de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha derretida. O estilo artístico é 3D e realista, com foco na iluminação e textura. O clima da pintura é de espanto e curiosidade, enquanto o monstro olha para a labareda com olhos arregalados e boca oportunidade. A sua pose e frase transmitem uma sensação de inocência e diversão, uma vez que se estivesse a explorar o mundo à sua volta pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera aconchegante da imagem.

Saída de Sora

Saída do RunwayML

O varão das nuvens

Um jovem de 20 anos está sentado em uma nuvem no firmamento, lendo um livro.

Saída de Sora

Saída do RunwayML

As televisões

A câmera gira em torno de uma grande rima de televisores antigos, todos exibindo programas diferentes – filmes de ficção científica dos anos 1950, filmes de terror, notícias, estática, uma comédia dos anos 1970, etc., ambientados dentro de uma grande galeria de um museu de Novidade York.

Saída de Sora

Saída do RunwayML

Reflexos na janela de um trem viajando pelos subúrbios de Tóquio.

Saída de Sora

Saída do RunwayML

O Velho Sábio

Um close extremo de um varão de cabelos grisalhos e barba na morada dos 60 anos, ele está imerso em pensamentos, ponderando sobre a história do universo enquanto está sentado em um moca em Paris, seus olhos focam nas pessoas fora da tela enquanto elas andam enquanto ele está sentado quase imóvel, veste um paletó de velo com camisa de botão, usa chapéu marrom e óculos e tem uma fisionomia muito professoral, e no final oferece um sutil sorriso de boca fechada uma vez que se tivesse encontrado a resposta ao mistério da vida, a iluminação é muito cinematográfica com a luz dourada e as ruas e cidade parisienses ao fundo, profundidade de campo, filme cinematográfico 35mm.

Saída de Sora

Saída do RunwayML

Pensamentos gerais

Deixe-me principiar esta seção dizendo que realmente acredito que a Runway se sai incrivelmente muito, principalmente sabendo que texto para vídeo é um segmento relativamente novo e que tem muito potencial. No entanto, com base unicamente nesses resultados, isso não se compara a Sora.

O que mais me incomoda na Runway se resume a três coisas: fotorrealismo, movimento e física. Quando o objecto do vídeo é humano, ele tende a fabricar um rosto ceroso que é, ironicamente, minha maior reclamação sobre o DALL-E 3 da OpenAI. O vídeo do varão nas nuvens da Runway é o pior ofensor, principalmente quando você aumenta o zoom e descobre que nem é renderizado corretamente.

Quanto ao movimento, é muito suave a ponto de não ser oriundo. É uma vez que se alguém aplicasse motion blur no vídeo e o colocasse em 1000%. No entanto, a razão pela qual parecem tão falsos é que a física não faz sentido. Para ser mais específico:

  • A barba do velho não balança numa direção uniforme.
  • O efeito de paralaxe no vídeo do varão nas nuvens não está integrado corretamente.
  • As ondas estão fluindo em diferentes direções tanto nas falésias quanto nos vídeos das lontras.
  • As janelas do trem se prendem umas às outras.

Ah, e há alguma coisa tão perturbador no vídeo teratológico da Runway também. Começa tão inocentemente, mas de repente revira os olhos de uma forma tão pouco oriundo.

Por outro lado, Sora não tem nenhum desses problemas. Se eu fosse minucioso, você poderia esgrimir que o movimento da câmera parece um pouco errático em alguns casos e muito suave em outros. No entanto, isso é muito mais fácil de emendar do que todos os problemas da Runway.

Dito isto, aceite isso com cautela. Finalmente, esses prompts e resultados são retirados diretamente do showcase do Sora. Não podemos expressar o quão bom é realmente sem tentar. Mas, por enquanto, Sora é o vencedor simples desta verificação imediata.

Tudo dito e feito

Apesar de chegar a esta verificação uma vez que novato e desafiante, Sora da OpenAI vence com folga o confronto direto. Isso unicamente mostra que, nesta era acelerada, não importa o que vem primeiro. O que importa é quão eficazes eles podem ser quando estiverem lá.

A Runway existe há anos e ainda parece amadora em verificação com os resultados polidos de Sora. Mas, novamente, uma vez que mencionei anteriormente, não podemos considerar seus vídeos de mostra pelo valor nominal, porque a OpenAI provavelmente está compartilhando seus melhores resultados, em vez de um representante de quão bom seu resultado realmente é.

Mas cá está a verdade: se Sora é capaz de gerar vídeos tão bons quanto levante, portanto outros geradores de vídeo de IA não se comparam à sua originalidade. É o que acontece quando a melhor empresa de IA do mundo decide unir seus recursos em um projeto. OpenAI vence, mais uma vez.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button