Tech

Comparação imediata de Sora vs. DALL-E 3: dois produtos OpenAI, um vencedor

LifeTechWebFebruary 27, 2024

0 5 minutes read

A green robot with a video camera generated with Midjourney

Já faz qualquer tempo que ouço falar de texto para vídeo e ainda não pensei duas vezes porque, francamente, não fiquei impressionado com o que tenho visto online. Problemas de renderização claros, movimento caótico, desfoque de movimento não misturado e assuntos que se aproximam demais do vale misterioso.

Sempre pensei que tentaria mal eles resolvessem esses problemas. No entanto, com o passar dos meses, eu verificava as últimas notícias daquele espaço e não me impressionava.

Isso foi até a semana passada, quando a OpenAI chocou o mundo mais uma vez ao revelar um projeto que eles mantiveram em sigilo por anos: Sora.

Agora, uma vez que a maioria das pessoas, eu ainda não poderia tentar. Logo, fizemos a próxima melhor coisa: confrontar os resultados apresentados com o gerador de imagens de IA do próprio OpenAI: DALL-E 3. Neste item, mostrarei suas diferenças e compará-las-ei sem preconceitos.

O que é Sora?

Semelhante ao DALL-E 3, Sora é mais uma das tentativas da OpenAI de ocupar o espaço da IA. É um protótipo de espalhamento para geração de texto para vídeo, enquanto o DALL-E 3 é exclusivamente para geração de texto para imagem. Infelizmente, a partir de 24 de fevereiro, ainda não estará disponível para as massas, mas devemos esperar uma versão beta pública mais cedo ou mais tarde.

Pelo que vi online, Sora parece ser mais criativo e realista do que DALL-E 3. Quanto às semelhanças, Sora também usa tecnologia de transformador para entender melhor os prompts uma vez que secção de seu recurso de “recaptação”. Além do mais, além da conversão de texto em vídeo, ele também pode pegar vídeos pré-existentes uma vez que ingresso e preencher os espaços em branco ou estender o vídeo.

Sora vs. DALL-E 3: verificação de saída

Uma vez que não consigo ajustar a proporção do DALL-E com o Bing Create, não tenho escolha a não ser confrontar imagens 1:1 com vídeos 16:9 (ou mais longos). Porém, não deve mudar muito, já que estamos exclusivamente comparando sua originalidade e nuances, e seria injusto confrontar um protótipo mais velho com um caso de uso dissemelhante com um novo uma vez que o Sora.

O recife de coral

Incitar: Um mundo de papercraft maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.

O varão nas nuvens

Incitar: Um jovem de 20 anos está sentado em uma nuvem no firmamento, lendo um livro.

O Jardim Zen

Incitar: Uma visão de perto de uma esfera de vidro que contém um jardim zen. Há um pequeno homúnculo na esfera que está varrendo o jardim zen e criando padrões na areia.

Bambu em uma placa de Petri

Incitar: Uma placa de Petri com uma floresta de bambu crescendo e pequenos pandas vermelhos correndo por aí.

A pessoa fofa

Incitar: Animação 3D de uma pessoa pequena, redonda e fofa com olhos grandes e expressivos explora uma floresta vibrante e encantada. A pessoa, uma mistura caprichosa de coelho e esquilo, tem pelo azul suave e uma rabo espessa e listrada. Ele salta ao longo de um riacho cintilante, com os olhos arregalados de pasmo. A floresta está repleta de elementos mágicos: flores que brilham e mudam de cor, árvores com folhas em tons de roxo e prata e pequenas luzes flutuantes que lembram vaga-lumes. A pessoa para para interagir divertidamente com um grupo de pequenos seres parecidos com fadas dançando em torno de um aro de cogumelo. A pessoa olha maravilhada para uma árvore grande e luzidio que parece ser o coração da floresta.

A Igreja

Incitar: Uma câmera drone circula em torno de uma bela igreja histórica construída em um afloramento rochoso ao longo da Costa Amalfitana, a vista mostra detalhes arquitetônicos históricos e magníficos e caminhos e pátios em camadas, as ondas são vistas batendo contra as rochas inferior enquanto a vista tem vista para o horizonte da costa águas e paisagens montanhosas da Costa Amalfitana Itália, várias pessoas distantes são vistas andando e apreciando vistas nos pátios das dramáticas vistas do oceano, o luz quente do sol da tarde cria uma sensação mágica e romântica na cena, a vista é magnificiente capturada com retrato formosa.

Inverno no Japão

Incitar: A bela e nevada cidade de Tóquio está movimentada. A câmera se move pelas movimentadas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de sakura voam pelo vento junto com flocos de neve.

O velho e sábio

Incitar: Um close extremo de um varão de cabelos grisalhos e barba na mansão dos 60 anos, ele está imerso em pensamentos, ponderando sobre a história do universo enquanto está sentado em um moca em Paris, seus olhos focam nas pessoas fora da tela enquanto elas andam enquanto ele está sentado quase imóvel, veste um paletó de velo com camisa de botão, usa capelo marrom e óculos e tem uma aspecto muito professoral, e no final oferece um sutil sorriso de boca fechada uma vez que se tivesse encontrado a resposta ao mistério da vida, a iluminação é muito cinematográfica com a luz dourada e as ruas e cidade parisienses ao fundo, profundidade de campo, filme cinematográfico 35mm.

Atlântida em Novidade York

Incitar: A cidade de Novidade York submergiu uma vez que a Atlântida. Peixes, baleias, tartarugas marinhas e tubarões nadam pelas ruas de Novidade York.

O Monstro das Nuvens

Incitar: Uma nuvem gigante e imponente na forma de um varão paira sobre a terreno. O varão das nuvens dispara raios para a terreno.

Pensamentos não filtrados

Vamos debutar com as nuances primeiro. Primeiro, temos que reconhecer que pode ter um viés cá, uma vez que essas solicitações vieram da própria OpenAI, o que significa que eles provavelmente escolheram os melhores resultados para sua vitrine.

No entanto, Sora parece ter uma precisão de alerta muito melhor do que DALL-E 3.

Por exemplo, o DALL-E 3 – apesar de ser consistentemente o melhor gerador de imagens de IA em termos de nuances – perdeu alguns detalhes de suporte em seus prompts. A imagem do velho não tinha iluminação cinematográfica, e a pessoa fofa não trazia nenhuma fada com ele. Há também o vestuário de que o DALL-E também é confundido com a física do mundo real, uma vez que demonstrado pelas imagens estranhas da placa de Petri que ele gerou.

Ou por outra, pelo que tenho visto online até agora, parece que Sora pegou tudo que havia de bom no DALL-E e melhorou, depois consertou tudo que estava ruim. É muito mais criativo e cria imagens mais realistas de pessoas. Veja a verificação “Varão nas Nuvens” e concentre-se no tópico da imagem. A produção de Sora não é tão suave e cerosa quanto a de DALL-E.

E também não se limita a retratos. Role para cima e compare os resultados do “Inverno no Japão”. Notou uma vez que Sora é mais realista e menos sonhador? Isso cria uma atmosfera mais precisa. Verdade seja dita, não estou convicto de que a OpenAI não tenha contratado alguém para pegar esses vídeos e empacotá-los uma vez que “IA”.

Estou brincando, mas para ser honesto, Sora não é motivo de riso. O realismo desses vídeos é genuinamente incrível e terrificante. Já ouvi esse ponto de discussão on-line várias vezes, mas é a primeira vez que acredito que um filme poderia ser totalmente feito usando IA.

O resultado final

Não fico tão impressionado com um protótipo de IA desde Midjourney. E o vestuário de que isso veio do zero, de uma empresa de IA enxurro de controvérsia e incerteza no ano pretérito, é exclusivamente a cereja do bolo.

Mas para dar crédito a quem merece, OpenAI não é o primeiro protótipo a tentar transformar texto em vídeo. Pensando muito, eu poderia nomear Runway e Pika Labs uma vez que os (anteriores) pioneiros neste espaço.

Além do reconhecimento do nome, o que separa Sora deles é o seu realismo. Não é exclusivamente o tópico que é mais realista, mas também o movimento da câmera e o desfoque de movimento.

Estou definitivamente entusiasmado para dar uma chance a Sora. Infelizmente, isso pode ter que esperar. Enquanto isso, você pode ler mais sobre Sora em nosso item cá.

Comparação imediata de Sora vs. DALL-E 3: dois produtos OpenAI, um vencedor

O que é Sora?