DALL-E 3 vs DALL-E 1 (até onde chegou em 3 anos)
![image4 10](https://i0.wp.com/goldpenguin.org/wp-content/uploads/2024/06/image4-10.png?w=780&resize=780,470&ssl=1)
A inteligência synthetic avançou a um ritmo alucinante nos últimos anos, com poucas áreas sendo tão visivelmente transformadas como a geração de imagens de IA. Quando o DALL-E 1 foi revelado pela primeira vez pela OpenAI em janeiro de 2021, parecia uma revelação – um sistema de IA que poderia criar imagens únicas e muitas vezes surreais com apenas um único immediate. Embora primitivo para os padrões atuais, o DALL-E 1 abriu os olhos do mundo para o potencial criativo da IA generativa.
Avançando para 2024, a OpenAI lançou agora o DALL-E 3, a mais recente evolução de seu modelo inovador de texto para imagem. A questão é: como ele se compara exatamente às iterações anteriores?
Neste artigo, nos aprofundaremos em como o DALL-E evoluiu desde sua primeira iteração até sua versão atual. Fique atento!
O que é DALL-E?
DÊ A ELA é um modelo de IA criado pela OpenAI (a mesma empresa por trás do ChatGPT) que pode gerar imagens a partir de descrições de texto ou prompts. Ele usa técnicas de aprendizado de máquina para compreender a semântica de sua entrada e gerar recursos visuais correspondentes. Atualmente está em sua terceira iteração, que já analisamos detalhadamente neste artigo.
![image9 8](https://goldpenguin.org/wp-content/uploads/2024/06/image9-8.png)
![image9 8](https://goldpenguin.org/wp-content/uploads/2024/06/image9-8.png)
DALL-E é um marco significativo no espaço de IA porque é um dos primeiros modelos de texto para imagem. É também um dos primeiros a priorizar a compreensão contextual de prompts, geração de texto e integração nativa com chatbots de IA, como o GPT-4.
Como melhorou nos últimos três anos?
Para apreciar plenamente como o DALL-E evoluiu ao longo dos anos, devemos primeiro falar sobre as melhorias que ele trouxe em termos de recursos. Aqui está um rápido resumo dos novos recursos do DALL-E, junto com aqueles que foram descontinuados, mas esperamos que retornem no futuro:
- Criatividade e Nuance: Este tem sido um ponto sólido de melhoria em todos os modelos DALL-E. À medida que o OpenAI passa de um para o outro, a única mudança constante é a sua criatividade. Também testamos o DALL-E 3 em todos os modelos populares de IA de texto para imagem e estamos confiantes em dizer que ninguém pode superar suas nuances.
- Imagens de resolução mais alta: O DALL-E 2 pode gerar imagens em resoluções muito mais altas, de até 1024 x 1024 pixels, em comparação com o limite de 256 x 256 pixels do DALL-E. O DALL-E 3 também permite que você controle a proporção da imagem.
- Capacidades de edição de imagens: DALL-E 2 pode não apenas gerar imagens do zero, mas também editar e modificar (pintura interna e externa) imagens existentes com base em prompts de texto. Infelizmente, isso foi descontinuado no DALL-E 3.
- Integração com ChatGPT: desde sua terceira iteração, o DALL-E agora pode ser usado nativamente com ChatGPT, permitindo usar conversas como contexto ou até mesmo prompts.
- Geração de Texto: DALL-E 3 está entre os primeiros geradores de imagens de IA capazes de escrever texto em um nível quase preciso. O GPT-4o tornou isso muito melhor e agora o DALL-E pode escrever parágrafos inteiros sem problemas.
DALL-E 1 vs. DE-E 3
Por mais que adoraríamos comparar modelos usando nossos próprios prompts, não há como usar o DALL-E unique em 2024. Então, tivemos que improvisar.
Felizmente, ainda temos acesso à página DALL-E unique da OpenAI, que apresenta centenas de amostras de imagens do modelo unique e seus prompts correspondentes. Então, aqui está uma rápida comparação entre algumas das imagens do showcase unique do DALL-E com seu equivalente usando o DALL-E 3:
Incitar: Uma ilustração de uma berinjela em um tutu passeando com um cachorro.
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image18-3.png)
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image18-3.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image15-1.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image15-1.jpg)
Incitar: Um manequim masculino vestido com camisa de flanela laranja e preta e calça denims preta.
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image11-6.png)
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image11-6.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image8-1.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image8-1.jpg)
Incitar: Uma fotografia macro de um coral cerebral.
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image22-3.png)
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image22-3.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image2-1.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image2-1.jpg)
Incitar: Uma poltrona em forma de abacate.
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image13-4.png)
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image13-4.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image23.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image23.jpg)
Incitar: Um emoji profissional de alta qualidade de uma xícara de boba apaixonada.
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image1-16.png)
![DE-E 1](https://goldpenguin.org/wp-content/uploads/2024/06/image1-16.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image10-1.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image10-1.jpg)
Pensamentos?
Não é nem uma questão de qual é melhor – DALL-E 3 é obviamente o melhor modelo. Mas precisamos conversar sobre o que mudou para que isso acontecesse.
Pense desta forma: DALL-E abriu o caminho a seguir. Ninguém nunca tinha ouvido falar de geração de texto para imagem antes de ser provocada, então está claro por que – apesar de quão ruins as imagens parecem agora – ela capturou a atenção do mundo inteiro. A primeira tentativa é sempre a mais difícil, mas é um passo necessário rumo ao que temos agora.
Como você pode ver, as imagens são mais criativas e entendem melhor o contexto. Não é apenas aparente no assunto da imagem, mas também no fundo. O nível de detalhe, os elementos extravagantes e a combinação inesperada de objetos do DALL-E 3 apresentam uma abordagem altamente imaginativa e criativa. O DALL-E 3 também produz imagens mais nítidas devido às melhorias que o OpenAI fez na resolução.
DALL-E 2 vs. DE-E 3
Incitar: Uma foto da escultura de David de Michelangelo usando fones de ouvido e tocando.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image5-9.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image5-9.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image6.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image6.jpg)
Incitar: Um desenho em óleo pastel de um gato irritado em uma nave espacial.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image26-2.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image26-2.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image3-1.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image3-1.jpg)
Incitar: Um cachorro Shiba Inu usando boina e gola alta preta.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image14-4.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image14-4.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image24.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image24.jpg)
Incitar: Duas torres futuristas com uma passarela coberta de vegetação exuberante, arte digital.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image19-3.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image19-3.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image25.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image25.jpg)
Incitar: Um veleiro desenhado à mão rodeado por pássaros no mar ao nascer do sol.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image16-3.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image16-3.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image20.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image20.jpg)
Incitar: Uma pintura no estilo van Gogh de um jogador de futebol americano.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image7-9.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image7-9.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image21.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image21.jpg)
Incitar: Um computador dos anos 90 no estilo vaporwave.
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image12-5.png)
![DE-E 2](https://goldpenguin.org/wp-content/uploads/2024/06/image12-5.png)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image17.jpg)
![DE-E 3](https://goldpenguin.org/wp-content/uploads/2024/06/image17.jpg)
Pensamentos?
A melhor maneira de descrever a diferença entre DALL-E 2 e DALL-E 3 é que o último é mais completo.
Os resultados do DALL-E 2 são muito mais coerentes e sólidos que o DALL-E 1, mas também ainda são muito mais abstratos que o DALL-E 3. Mais do que criatividade, a terceira versão cria imagens mais sólidas e estruturalmente sonoras que são mais consistentes. com o que sabemos na vida actual. No DALL-E 3, os teclados têm mais teclas do que letras no alfabeto, as obsessões de Van Gogh por espirais são mais aparentes e há uma separação clara entre edifícios e estradas.
Se você estiver interessado em aprender mais sobre suas diferenças, já comparamos DALL-E 2 e DALL-E 3 detalhadamente neste artigo.
A linha de fundo
Não podemos compreender completamente como os modelos de IA melhoram sem compreender o seu passado. Para DALL-E, foi um longo caminho, mas a OpenAI finalmente criou um modelo que rivaliza com Midjourney em criatividade e é incomparável em nuances.
Se eu fosse descrever esses três modelos em uma ou duas palavras, descreveria a primeira versão como pioneira, a segunda como um trampolim e a terceira como a culminação. Ainda não temos nenhuma informação se a OpenAI planeja criar uma quarta versão, mas se houver, então teria que ser a pináculo — sua iteração mais avançada e refinada.
Interessado em aprender mais sobre o DALL-E? Este artigo seria um bom lugar para começar. Divirta-se!