Comparação imediata de Sora vs. DALL-E 3: dois produtos OpenAI, um vencedor
![A green robot with a video camera generated with Midjourney](https://i3.wp.com/goldpenguin.org/wp-content/uploads/2024/02/A-green-robot-with-a-video-camera-generated-with-Midjourney.webp?w=780&resize=780,470&ssl=1)
Já faz qualquer tempo que ouço falar de texto para vídeo e ainda não pensei duas vezes porque, francamente, não fiquei impressionado com o que tenho visto online. Problemas de renderização claros, movimento caótico, desfoque de movimento não misturado e assuntos que se aproximam demais do vale misterioso.
Sempre pensei que tentaria mal eles resolvessem esses problemas. No entanto, com o passar dos meses, eu verificava as últimas notícias daquele espaço e não me impressionava.
Isso foi até a semana passada, quando a OpenAI chocou o mundo mais uma vez ao revelar um projeto que eles mantiveram em sigilo por anos: Sora.
Agora, uma vez que a maioria das pessoas, eu ainda não poderia tentar. Logo, fizemos a próxima melhor coisa: confrontar os resultados apresentados com o gerador de imagens de IA do próprio OpenAI: DALL-E 3. Neste item, mostrarei suas diferenças e compará-las-ei sem preconceitos.
O que é Sora?
Semelhante ao DALL-E 3, Sora é mais uma das tentativas da OpenAI de ocupar o espaço da IA. É um protótipo de espalhamento para geração de texto para vídeo, enquanto o DALL-E 3 é exclusivamente para geração de texto para imagem. Infelizmente, a partir de 24 de fevereiro, ainda não estará disponível para as massas, mas devemos esperar uma versão beta pública mais cedo ou mais tarde.
![Screenshot 2024 02 22 210740](https://goldpenguin.org/wp-content/uploads/2024/02/Screenshot-2024-02-22-210740.png)
![Screenshot 2024 02 22 210740](https://goldpenguin.org/wp-content/uploads/2024/02/Screenshot-2024-02-22-210740.png)
Pelo que vi online, Sora parece ser mais criativo e realista do que DALL-E 3. Quanto às semelhanças, Sora também usa tecnologia de transformador para entender melhor os prompts uma vez que secção de seu recurso de “recaptação”. Além do mais, além da conversão de texto em vídeo, ele também pode pegar vídeos pré-existentes uma vez que ingresso e preencher os espaços em branco ou estender o vídeo.
Sora vs. DALL-E 3: verificação de saída
Uma vez que não consigo ajustar a proporção do DALL-E com o Bing Create, não tenho escolha a não ser confrontar imagens 1:1 com vídeos 16:9 (ou mais longos). Porém, não deve mudar muito, já que estamos exclusivamente comparando sua originalidade e nuances, e seria injusto confrontar um protótipo mais velho com um caso de uso dissemelhante com um novo uma vez que o Sora.
O recife de coral
Incitar: Um mundo de papercraft maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.
![d3f666ad 6383 4bd9 8d10 b3b4c37da9b5](https://goldpenguin.org/wp-content/uploads/2024/02/d3f666ad-6383-4bd9-8d10-b3b4c37da9b5.jpg)
![d3f666ad 6383 4bd9 8d10 b3b4c37da9b5](https://goldpenguin.org/wp-content/uploads/2024/02/d3f666ad-6383-4bd9-8d10-b3b4c37da9b5.jpg)
![3c1e2a86 8cde 4715 b1f3 a9bd8dfaca41](https://goldpenguin.org/wp-content/uploads/2024/02/3c1e2a86-8cde-4715-b1f3-a9bd8dfaca41.jpg)
![3c1e2a86 8cde 4715 b1f3 a9bd8dfaca41](https://goldpenguin.org/wp-content/uploads/2024/02/3c1e2a86-8cde-4715-b1f3-a9bd8dfaca41.jpg)
O varão nas nuvens
Incitar: Um jovem de 20 anos está sentado em uma nuvem no firmamento, lendo um livro.
![3c964d94 e8c7 4e1d b0d7 12b6a9ca0a65](https://goldpenguin.org/wp-content/uploads/2024/02/3c964d94-e8c7-4e1d-b0d7-12b6a9ca0a65.jpg)
![3c964d94 e8c7 4e1d b0d7 12b6a9ca0a65](https://goldpenguin.org/wp-content/uploads/2024/02/3c964d94-e8c7-4e1d-b0d7-12b6a9ca0a65.jpg)
![24f91aec 85f1 48c6 ad74 b90f6efafb97](https://goldpenguin.org/wp-content/uploads/2024/02/24f91aec-85f1-48c6-ad74-b90f6efafb97.jpg)
![24f91aec 85f1 48c6 ad74 b90f6efafb97](https://goldpenguin.org/wp-content/uploads/2024/02/24f91aec-85f1-48c6-ad74-b90f6efafb97.jpg)
O Jardim Zen
Incitar: Uma visão de perto de uma esfera de vidro que contém um jardim zen. Há um pequeno homúnculo na esfera que está varrendo o jardim zen e criando padrões na areia.
![ba0f43ff 18f0 4108 a7f5 4391c179de56](https://goldpenguin.org/wp-content/uploads/2024/02/ba0f43ff-18f0-4108-a7f5-4391c179de56.jpg)
![ba0f43ff 18f0 4108 a7f5 4391c179de56](https://goldpenguin.org/wp-content/uploads/2024/02/ba0f43ff-18f0-4108-a7f5-4391c179de56.jpg)
![a9b8c657 47e7 471b b545 a8bc174d2ec9](https://goldpenguin.org/wp-content/uploads/2024/02/a9b8c657-47e7-471b-b545-a8bc174d2ec9.jpg)
![a9b8c657 47e7 471b b545 a8bc174d2ec9](https://goldpenguin.org/wp-content/uploads/2024/02/a9b8c657-47e7-471b-b545-a8bc174d2ec9.jpg)
Bambu em uma placa de Petri
Incitar: Uma placa de Petri com uma floresta de bambu crescendo e pequenos pandas vermelhos correndo por aí.
![34a9ccc2 eeb2 4e0d 80d8 a02a695cd0d3](https://goldpenguin.org/wp-content/uploads/2024/02/34a9ccc2-eeb2-4e0d-80d8-a02a695cd0d3.jpg)
![34a9ccc2 eeb2 4e0d 80d8 a02a695cd0d3](https://goldpenguin.org/wp-content/uploads/2024/02/34a9ccc2-eeb2-4e0d-80d8-a02a695cd0d3.jpg)
![85dddcbf 4233 428f 8dfd 165832cd9add](https://goldpenguin.org/wp-content/uploads/2024/02/85dddcbf-4233-428f-8dfd-165832cd9add.jpg)
![85dddcbf 4233 428f 8dfd 165832cd9add](https://goldpenguin.org/wp-content/uploads/2024/02/85dddcbf-4233-428f-8dfd-165832cd9add.jpg)
A pessoa fofa
Incitar: Animação 3D de uma pessoa pequena, redonda e fofa com olhos grandes e expressivos explora uma floresta vibrante e encantada. A pessoa, uma mistura caprichosa de coelho e esquilo, tem pelo azul suave e uma rabo espessa e listrada. Ele salta ao longo de um riacho cintilante, com os olhos arregalados de pasmo. A floresta está repleta de elementos mágicos: flores que brilham e mudam de cor, árvores com folhas em tons de roxo e prata e pequenas luzes flutuantes que lembram vaga-lumes. A pessoa para para interagir divertidamente com um grupo de pequenos seres parecidos com fadas dançando em torno de um aro de cogumelo. A pessoa olha maravilhada para uma árvore grande e luzidio que parece ser o coração da floresta.
![4d047ba2 83d2 4b2a 8574 1e3878ce716b](https://goldpenguin.org/wp-content/uploads/2024/02/4d047ba2-83d2-4b2a-8574-1e3878ce716b.jpg)
![4d047ba2 83d2 4b2a 8574 1e3878ce716b](https://goldpenguin.org/wp-content/uploads/2024/02/4d047ba2-83d2-4b2a-8574-1e3878ce716b.jpg)
![ddff587b 58c0 4ed5 a6f2 a66788dbe9ee](https://goldpenguin.org/wp-content/uploads/2024/02/ddff587b-58c0-4ed5-a6f2-a66788dbe9ee.jpg)
![ddff587b 58c0 4ed5 a6f2 a66788dbe9ee](https://goldpenguin.org/wp-content/uploads/2024/02/ddff587b-58c0-4ed5-a6f2-a66788dbe9ee.jpg)
A Igreja
Incitar: Uma câmera drone circula em torno de uma bela igreja histórica construída em um afloramento rochoso ao longo da Costa Amalfitana, a vista mostra detalhes arquitetônicos históricos e magníficos e caminhos e pátios em camadas, as ondas são vistas batendo contra as rochas inferior enquanto a vista tem vista para o horizonte da costa águas e paisagens montanhosas da Costa Amalfitana Itália, várias pessoas distantes são vistas andando e apreciando vistas nos pátios das dramáticas vistas do oceano, o luz quente do sol da tarde cria uma sensação mágica e romântica na cena, a vista é magnificiente capturada com retrato formosa.
![e47c5d81 b6f1 436e bba0 d8a66a778c4c](https://goldpenguin.org/wp-content/uploads/2024/02/e47c5d81-b6f1-436e-bba0-d8a66a778c4c.jpg)
![e47c5d81 b6f1 436e bba0 d8a66a778c4c](https://goldpenguin.org/wp-content/uploads/2024/02/e47c5d81-b6f1-436e-bba0-d8a66a778c4c.jpg)
![571945a2 4095 4f5b a89c ef4065cc6cd4](https://goldpenguin.org/wp-content/uploads/2024/02/571945a2-4095-4f5b-a89c-ef4065cc6cd4.jpg)
![571945a2 4095 4f5b a89c ef4065cc6cd4](https://goldpenguin.org/wp-content/uploads/2024/02/571945a2-4095-4f5b-a89c-ef4065cc6cd4.jpg)
Inverno no Japão
Incitar: A bela e nevada cidade de Tóquio está movimentada. A câmera se move pelas movimentadas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de sakura voam pelo vento junto com flocos de neve.
![55c4cc88 9fdb 4127 90b0 90f8ecc19f8a](https://goldpenguin.org/wp-content/uploads/2024/02/55c4cc88-9fdb-4127-90b0-90f8ecc19f8a.jpg)
![55c4cc88 9fdb 4127 90b0 90f8ecc19f8a](https://goldpenguin.org/wp-content/uploads/2024/02/55c4cc88-9fdb-4127-90b0-90f8ecc19f8a.jpg)
![84b65b05 c06e 421a 8ead a347545ad534](https://goldpenguin.org/wp-content/uploads/2024/02/84b65b05-c06e-421a-8ead-a347545ad534.jpg)
![84b65b05 c06e 421a 8ead a347545ad534](https://goldpenguin.org/wp-content/uploads/2024/02/84b65b05-c06e-421a-8ead-a347545ad534.jpg)
O velho e sábio
Incitar: Um close extremo de um varão de cabelos grisalhos e barba na mansão dos 60 anos, ele está imerso em pensamentos, ponderando sobre a história do universo enquanto está sentado em um moca em Paris, seus olhos focam nas pessoas fora da tela enquanto elas andam enquanto ele está sentado quase imóvel, veste um paletó de velo com camisa de botão, usa capelo marrom e óculos e tem uma aspecto muito professoral, e no final oferece um sutil sorriso de boca fechada uma vez que se tivesse encontrado a resposta ao mistério da vida, a iluminação é muito cinematográfica com a luz dourada e as ruas e cidade parisienses ao fundo, profundidade de campo, filme cinematográfico 35mm.
![72d64675 d7ec 4444 ab98 bd0b62475a64](https://goldpenguin.org/wp-content/uploads/2024/02/72d64675-d7ec-4444-ab98-bd0b62475a64.jpg)
![72d64675 d7ec 4444 ab98 bd0b62475a64](https://goldpenguin.org/wp-content/uploads/2024/02/72d64675-d7ec-4444-ab98-bd0b62475a64.jpg)
![b3013e60 3de6 45f2 b0a7 daa8ec2ba0db](https://goldpenguin.org/wp-content/uploads/2024/02/b3013e60-3de6-45f2-b0a7-daa8ec2ba0db.jpg)
![b3013e60 3de6 45f2 b0a7 daa8ec2ba0db](https://goldpenguin.org/wp-content/uploads/2024/02/b3013e60-3de6-45f2-b0a7-daa8ec2ba0db.jpg)
Atlântida em Novidade York
Incitar: A cidade de Novidade York submergiu uma vez que a Atlântida. Peixes, baleias, tartarugas marinhas e tubarões nadam pelas ruas de Novidade York.
![ea785536 a850 401b b5d4 1ffed89491e9](https://goldpenguin.org/wp-content/uploads/2024/02/ea785536-a850-401b-b5d4-1ffed89491e9.jpg)
![ea785536 a850 401b b5d4 1ffed89491e9](https://goldpenguin.org/wp-content/uploads/2024/02/ea785536-a850-401b-b5d4-1ffed89491e9.jpg)
![b10cdf03 910b 4aae b8ce db771cf7841e](https://goldpenguin.org/wp-content/uploads/2024/02/b10cdf03-910b-4aae-b8ce-db771cf7841e.jpg)
![b10cdf03 910b 4aae b8ce db771cf7841e](https://goldpenguin.org/wp-content/uploads/2024/02/b10cdf03-910b-4aae-b8ce-db771cf7841e.jpg)
O Monstro das Nuvens
Incitar: Uma nuvem gigante e imponente na forma de um varão paira sobre a terreno. O varão das nuvens dispara raios para a terreno.
![42075a9b 6281 44be a291 882557012b8a](https://goldpenguin.org/wp-content/uploads/2024/02/42075a9b-6281-44be-a291-882557012b8a.jpg)
![42075a9b 6281 44be a291 882557012b8a](https://goldpenguin.org/wp-content/uploads/2024/02/42075a9b-6281-44be-a291-882557012b8a.jpg)
![9453a787 a29f 48bc a3ba 194a81ba3d08](https://goldpenguin.org/wp-content/uploads/2024/02/9453a787-a29f-48bc-a3ba-194a81ba3d08.jpg)
![9453a787 a29f 48bc a3ba 194a81ba3d08](https://goldpenguin.org/wp-content/uploads/2024/02/9453a787-a29f-48bc-a3ba-194a81ba3d08.jpg)
Pensamentos não filtrados
Vamos debutar com as nuances primeiro. Primeiro, temos que reconhecer que pode ter um viés cá, uma vez que essas solicitações vieram da própria OpenAI, o que significa que eles provavelmente escolheram os melhores resultados para sua vitrine.
No entanto, Sora parece ter uma precisão de alerta muito melhor do que DALL-E 3.
Por exemplo, o DALL-E 3 – apesar de ser consistentemente o melhor gerador de imagens de IA em termos de nuances – perdeu alguns detalhes de suporte em seus prompts. A imagem do velho não tinha iluminação cinematográfica, e a pessoa fofa não trazia nenhuma fada com ele. Há também o vestuário de que o DALL-E também é confundido com a física do mundo real, uma vez que demonstrado pelas imagens estranhas da placa de Petri que ele gerou.
Ou por outra, pelo que tenho visto online até agora, parece que Sora pegou tudo que havia de bom no DALL-E e melhorou, depois consertou tudo que estava ruim. É muito mais criativo e cria imagens mais realistas de pessoas. Veja a verificação “Varão nas Nuvens” e concentre-se no tópico da imagem. A produção de Sora não é tão suave e cerosa quanto a de DALL-E.
E também não se limita a retratos. Role para cima e compare os resultados do “Inverno no Japão”. Notou uma vez que Sora é mais realista e menos sonhador? Isso cria uma atmosfera mais precisa. Verdade seja dita, não estou convicto de que a OpenAI não tenha contratado alguém para pegar esses vídeos e empacotá-los uma vez que “IA”.
Estou brincando, mas para ser honesto, Sora não é motivo de riso. O realismo desses vídeos é genuinamente incrível e terrificante. Já ouvi esse ponto de discussão on-line várias vezes, mas é a primeira vez que acredito que um filme poderia ser totalmente feito usando IA.
O resultado final
Não fico tão impressionado com um protótipo de IA desde Midjourney. E o vestuário de que isso veio do zero, de uma empresa de IA enxurro de controvérsia e incerteza no ano pretérito, é exclusivamente a cereja do bolo.
Mas para dar crédito a quem merece, OpenAI não é o primeiro protótipo a tentar transformar texto em vídeo. Pensando muito, eu poderia nomear Runway e Pika Labs uma vez que os (anteriores) pioneiros neste espaço.
Além do reconhecimento do nome, o que separa Sora deles é o seu realismo. Não é exclusivamente o tópico que é mais realista, mas também o movimento da câmera e o desfoque de movimento.
Estou definitivamente entusiasmado para dar uma chance a Sora. Infelizmente, isso pode ter que esperar. Enquanto isso, você pode ler mais sobre Sora em nosso item cá.