Tech

DALL-E 3 vs DALL-E 1 (até onde chegou em 3 anos)

LifeTechWebJune 27, 2024

0 5 minutes read

A inteligência synthetic avançou a um ritmo alucinante nos últimos anos, com poucas áreas sendo tão visivelmente transformadas como a geração de imagens de IA. Quando o DALL-E 1 foi revelado pela primeira vez pela OpenAI em janeiro de 2021, parecia uma revelação – um sistema de IA que poderia criar imagens únicas e muitas vezes surreais com apenas um único immediate. Embora primitivo para os padrões atuais, o DALL-E 1 abriu os olhos do mundo para o potencial criativo da IA generativa.

Avançando para 2024, a OpenAI lançou agora o DALL-E 3, a mais recente evolução de seu modelo inovador de texto para imagem. A questão é: como ele se compara exatamente às iterações anteriores?

Neste artigo, nos aprofundaremos em como o DALL-E evoluiu desde sua primeira iteração até sua versão atual. Fique atento!

O que é DALL-E?

DÊ A ELA é um modelo de IA criado pela OpenAI (a mesma empresa por trás do ChatGPT) que pode gerar imagens a partir de descrições de texto ou prompts. Ele usa técnicas de aprendizado de máquina para compreender a semântica de sua entrada e gerar recursos visuais correspondentes. Atualmente está em sua terceira iteração, que já analisamos detalhadamente neste artigo.

DALL-E é um marco significativo no espaço de IA porque é um dos primeiros modelos de texto para imagem. É também um dos primeiros a priorizar a compreensão contextual de prompts, geração de texto e integração nativa com chatbots de IA, como o GPT-4.

Como melhorou nos últimos três anos?

Para apreciar plenamente como o DALL-E evoluiu ao longo dos anos, devemos primeiro falar sobre as melhorias que ele trouxe em termos de recursos. Aqui está um rápido resumo dos novos recursos do DALL-E, junto com aqueles que foram descontinuados, mas esperamos que retornem no futuro:

Criatividade e Nuance: Este tem sido um ponto sólido de melhoria em todos os modelos DALL-E. À medida que o OpenAI passa de um para o outro, a única mudança constante é a sua criatividade. Também testamos o DALL-E 3 em todos os modelos populares de IA de texto para imagem e estamos confiantes em dizer que ninguém pode superar suas nuances.
Imagens de resolução mais alta: O DALL-E 2 pode gerar imagens em resoluções muito mais altas, de até 1024 x 1024 pixels, em comparação com o limite de 256 x 256 pixels do DALL-E. O DALL-E 3 também permite que você controle a proporção da imagem.
Capacidades de edição de imagens: DALL-E 2 pode não apenas gerar imagens do zero, mas também editar e modificar (pintura interna e externa) imagens existentes com base em prompts de texto. Infelizmente, isso foi descontinuado no DALL-E 3.
Integração com ChatGPT: desde sua terceira iteração, o DALL-E agora pode ser usado nativamente com ChatGPT, permitindo usar conversas como contexto ou até mesmo prompts.
Geração de Texto: DALL-E 3 está entre os primeiros geradores de imagens de IA capazes de escrever texto em um nível quase preciso. O GPT-4o tornou isso muito melhor e agora o DALL-E pode escrever parágrafos inteiros sem problemas.

DALL-E 1 vs. DE-E 3

Por mais que adoraríamos comparar modelos usando nossos próprios prompts, não há como usar o DALL-E unique em 2024. Então, tivemos que improvisar.

Felizmente, ainda temos acesso à página DALL-E unique da OpenAI, que apresenta centenas de amostras de imagens do modelo unique e seus prompts correspondentes. Então, aqui está uma rápida comparação entre algumas das imagens do showcase unique do DALL-E com seu equivalente usando o DALL-E 3:

Incitar: Uma ilustração de uma berinjela em um tutu passeando com um cachorro.

Incitar: Um manequim masculino vestido com camisa de flanela laranja e preta e calça denims preta.

Incitar: Uma fotografia macro de um coral cerebral.

Incitar: Uma poltrona em forma de abacate.

Incitar: Um emoji profissional de alta qualidade de uma xícara de boba apaixonada.

Pensamentos?

Não é nem uma questão de qual é melhor – DALL-E 3 é obviamente o melhor modelo. Mas precisamos conversar sobre o que mudou para que isso acontecesse.

Pense desta forma: DALL-E abriu o caminho a seguir. Ninguém nunca tinha ouvido falar de geração de texto para imagem antes de ser provocada, então está claro por que – apesar de quão ruins as imagens parecem agora – ela capturou a atenção do mundo inteiro. A primeira tentativa é sempre a mais difícil, mas é um passo necessário rumo ao que temos agora.

Como você pode ver, as imagens são mais criativas e entendem melhor o contexto. Não é apenas aparente no assunto da imagem, mas também no fundo. O nível de detalhe, os elementos extravagantes e a combinação inesperada de objetos do DALL-E 3 apresentam uma abordagem altamente imaginativa e criativa. O DALL-E 3 também produz imagens mais nítidas devido às melhorias que o OpenAI fez na resolução.

DALL-E 2 vs. DE-E 3

Incitar: Uma foto da escultura de David de Michelangelo usando fones de ouvido e tocando.

Incitar: Um desenho em óleo pastel de um gato irritado em uma nave espacial.

Incitar: Um cachorro Shiba Inu usando boina e gola alta preta.

Incitar: Duas torres futuristas com uma passarela coberta de vegetação exuberante, arte digital.

Incitar: Um veleiro desenhado à mão rodeado por pássaros no mar ao nascer do sol.

Incitar: Uma pintura no estilo van Gogh de um jogador de futebol americano.

Incitar: Um computador dos anos 90 no estilo vaporwave.

Pensamentos?

A melhor maneira de descrever a diferença entre DALL-E 2 e DALL-E 3 é que o último é mais completo.

Os resultados do DALL-E 2 são muito mais coerentes e sólidos que o DALL-E 1, mas também ainda são muito mais abstratos que o DALL-E 3. Mais do que criatividade, a terceira versão cria imagens mais sólidas e estruturalmente sonoras que são mais consistentes. com o que sabemos na vida actual. No DALL-E 3, os teclados têm mais teclas do que letras no alfabeto, as obsessões de Van Gogh por espirais são mais aparentes e há uma separação clara entre edifícios e estradas.

Se você estiver interessado em aprender mais sobre suas diferenças, já comparamos DALL-E 2 e DALL-E 3 detalhadamente neste artigo.

A linha de fundo

Não podemos compreender completamente como os modelos de IA melhoram sem compreender o seu passado. Para DALL-E, foi um longo caminho, mas a OpenAI finalmente criou um modelo que rivaliza com Midjourney em criatividade e é incomparável em nuances.

Se eu fosse descrever esses três modelos em uma ou duas palavras, descreveria a primeira versão como pioneira, a segunda como um trampolim e a terceira como a culminação. Ainda não temos nenhuma informação se a OpenAI planeja criar uma quarta versão, mas se houver, então teria que ser a pináculo — sua iteração mais avançada e refinada.

Interessado em aprender mais sobre o DALL-E? Este artigo seria um bom lugar para começar. Divirta-se!