10 coisas incrivelmente criativas que você pode fazer com o novo GPT-4o da OpenAI

O momento em que a IA deixou de ser o assunto da cidade foi o momento em que realmente entramos na period da IA. Tornou-se tão naturalizado em nossa sociedade a ponto de ser integrado à nossa educação, trabalho e vida cotidiana.

No entanto, uma coisa que limita o nosso acesso à IA é a falta de suporte à interação humano-computador. Apenas alguns LLMs oferecem suporte multimodal, e menos ainda o fazem de forma gratuita ou precisa. OpenAI pode ter resolvido esse problema.

Neste artigo, discutirei brevemente o que é e alguns dos meus casos de uso favoritos deste modelo até agora.

Isenção de responsabilidade: todos os hyperlinks de vídeo fornecidos abaixo são cortesia da OpenAI.

O que é GPT-4o?

GPT-4o (“o” significa omni) é o mais novo LLM da OpenAI. Ele foi criado para criar interações homem-computador mais naturais, expandindo sua capacidade multimodal e aprimorando suas nuances. Tem um tempo médio de resposta de 320 milissegundos, próximo ao tempo de resposta humano.

Aqui estão algumas maneiras interessantes de usá-lo:

Tradução em tempo actual

Você já se perdeu em um país estrangeiro sem nenhum meio de comunicação? OpenAI tem o que você precisa.

Um dos recursos mais importantes do GPT-4o é o suporte multilíngue. Junto com entradas multimodais, o ChatGPT pode traduzir facilmente de um idioma para outro com mais rapidez e quase tanta precisão quanto qualquer tradutor humano. Com um tempo de resposta de cerca de 232 milissegundos para áudio, ChatGPT com 4o pode ser seu melhor amigo sempre que você estiver viajando ou conversando com alguém que não é fluente em seu idioma.

Assistente de IA para reuniões

As reuniões podem ser desgastantes. Você nunca sabe quando está cochilando ou quando sua atenção está voltada para outro lugar.

Com o GPT-4o, você sempre pode estar por dentro de tudo usando-o como um assistente de IA para reuniões. Ele pode servir de guia sempre que alguém lhe fizer uma pergunta, reservar atas da reunião para revisitá-la mais tarde ou esclarecer as coisas quando ficar confuso.

Harmonizar

Esta é uma das coisas mais malucas que já vi em uma IA. Todos nós nos acostumamos com a IA recebendo informações de diferentes formas, mas nunca vi uma IA verdadeiramente multimodal a ponto de poder criar batidas, ajustar o tom e realmente harmonizar para criar música. O que o torna melhor é que você pode fornecer contexto adicional à medida que avança para definir o som que você está procurando.

Concluir tarefas de matemática

Okay, eu sei que uma IA que pode realizar tarefas não está fora do padrão hoje – mas espere até ver o que o GPT-4o pode fazer.

Este novo modelo pode responder questões matemáticas em tempo actual. Usando seu novo aplicativo de desktop, o GPT-4o pode responder perguntas na forma de texto, imagens ou vídeo e agir como um tutor, fornecendo as informações que você procura e explicando como chegou a essa resposta. Você pode até restringir suas perguntas em tempo actual, fornecendo-lhes mais contexto.

Pelo que vi, o GPT-4o também melhorou muito o raciocínio matemático em comparação com os modelos GPT anteriores.

> pedi ao chatgpt mac os app (gpt4o) para responder a uma questão de matemática do terceiro ano do navegador
> acertou a resposta, o raciocínio é muito bom. pic.twitter.com/rG9D6LYLAp

-Anu Aakash (@anukaakash) 14 de maio de 2024

Geração de texto perfeita

Já se foram os dias de geração de texto imperfeita do DALL-E 3. Com o GPT-4o, o ChatGPT agora pode escrever parágrafos de texto em uma imagem com pouco ou nenhum erro. Você pode até ajustar a aparência do texto. Deixe-me dizer, como alguém que usa geradores de imagens de IA diariamente, isso é uma loucura.

Referência de personagem

Midjourney pode ser o primeiro gerador de imagens de IA a lançar seu recurso de referência de personagem, mas acho que o OpenAI os superou em precisão. Usando GPT-4o, o DALL-E 3 agora pode criar caracteres consistentes com base em uma entrada ou em uma geração anterior.

por exemplo, você pode gerar imagens consistentes com caracteres apenas condicionando imagens anteriores. (veja a postagem do weblog para mais)

A partir deste immediate de imagem:

Esta é Sally, uma entregadora de correspondência: Sally está de frente para a câmera com um sorriso no rosto.

Agora Sally… pic.twitter.com/DNk7ohEOTB

– vai depue (@willdepue) 13 de maio de 2024

Depois de um tempo, minha esposa ficou intrigada com o que eu estava fazendo e perguntou se eu poderia fazer isso para 2 jogadores. GPT-4o adicionou seu personagem sem esforço e nos permite escolher o mesmo ou fazer escolhas diferentes para cobrir mais terreno! 🤯🤯🤯🤯 pic.twitter.com/mUyjZuG6TW

– Cody Savage (@NaturallyDragon) 20 de maio de 2024

Resuma as informações de um vídeo

Semelhante ao assistente de IA para reuniões, o GPT-4o também pode transcrever e resumir um vídeo inteiro como entrada. Para fazer isso, você deve inserir um vídeo diretamente e não um hyperlink. Por exemplo, aqui está um trecho da vitrine da OpenAI da entrada e saída do modelo:


Certamente! A apresentação focou em técnicas para maximizar o desempenho de grandes modelos de linguagem (LLMs) e foi ministrada por Colin Jarvis e John Allard da OpenAI. A sessão fez parte da primeira conferência de desenvolvedores da OpenAI e teve como objetivo fornecer insights sobre a otimização de LLMs para tarefas específicas. Introdução Colin Jarvis é o chefe da prática de soluções da OpenAI na Europa, e John Allard é líder de engenharia na equipe de ajuste fino do produto. A apresentação destacou os desafios da otimização dos LLMs, enfatizando que não existe uma solução única para todos. Desafios de otimizar LLMs Separando sinal do ruído: É um desafio identificar o problema exato. Métricas abstratas de desempenho: Medir o desempenho pode ser difícil. Escolhendo a otimização certa: é difícil saber qual abordagem usar. Fluxo de otimização Os apresentadores introduziram uma estrutura para otimizar LLMs baseada em dois eixos: Otimização de contexto: o que o modelo precisa saber. Otimização LLM: como o modelo precisa agir. A estrutura inclui quatro quadrantes: Engenharia Immediate: O ponto de partida para otimização. Geração Aumentada de Recuperação (RAG): Para otimização de contexto. Ajuste fino: Para otimização LLM. Todas as opções acima: Combinando todas as técnicas. Engenharia imediata Estratégias: Escreva instruções claras. Divida tarefas complexas em subtarefas mais simples. Dê tempo ao modelo para pensar. Teste as alterações sistematicamente. Bom para: Testando e aprendendo desde cedo. Definindo uma linha de base. Não é bom para: Apresentando novas informações. Replicando estilos complexos. Minimizando o uso de tokens. Geração Aumentada de Recuperação (RAG) Visão geral: O RAG envolve a recuperação de documentos relevantes e seu uso para gerar respostas. Bom para: Apresentando novas informações. Reduzindo alucinações. Não é bom para: Incorporação de amplo conhecimento de domínio. Ensinar novos formatos ou estilos. Minimizando o uso de tokens. História de sucesso: Os apresentadores compartilharam uma história de sucesso em que melhoraram a precisão de 45% para 98% usando RAG. Afinação Visão geral: O ajuste fino envolve a continuação do processo de treinamento em um conjunto de dados menor e específico do domínio. Benefícios: Melhora o desempenho em tarefas específicas. Melhora a eficiência. Bom para: Enfatizando o conhecimento existente. Personalizando estrutura ou tom. Ensinando instruções complexas. Não é bom para: Adicionando novos conhecimentos. Iteração rápida. História de sucesso: Os apresentadores compartilharam uma história de sucesso do Canva, onde o ajuste fino melhorou significativamente o desempenho. Melhores Práticas Comece com engenharia imediata e aprendizado rápido. Estabeleça uma linha de base. Comece pequeno e concentre-se na qualidade. Combinando ajuste fino e RAG Os apresentadores destacaram os benefícios de combinar o ajuste fino e o RAG para um desempenho preferrred. Aplicação da Teoria Os apresentadores aplicaram a teoria a um desafio prático, o benchmark Spider 1.0, alcançando alta precisão usando RAG e ajuste fino. Conclusão A apresentação foi concluída com um resumo do fluxo de otimização e enfatizou a importância de melhorar iterativamente o desempenho do LLM usando as técnicas discutidas. Perguntas e respostas Os apresentadores convidaram perguntas do público e ficaram disponíveis para discussões mais aprofundadas.

Como alguém que assistiu ao vídeo na íntegra, posso confirmar que o GPT-4o não perdeu nenhuma informação importante. Esta é uma grande evolução em comparação com a iteração anterior.

Transcrever texto ilegível

Você já desenterrou um pedaço de papel velho com um texto que você mal consegue – se é que consegue – ler? Deixe o OpenAI fazer sua mágica.

GPT-4o combina suporte multimodal com processamento aprimorado de linguagem pure para transformar escrita ilegível em string usando compreensão contextual. Aqui está um exemplo do Histórico Generativo no Twitter:

GPT-4o é verdadeiramente notável na 18ª caligrafia. Entreguei-lhe a seguinte carta e pedi uma transcrição. Alguns pequenos erros…incrível! pic.twitter.com/3JevZvd5p5

– História Gerativa (@HistoryGPT) 14 de maio de 2024

Crie um clone do Fb Messenger

Eu estava navegando no Twitter ontem à noite e descobri o que pode ser o maior argumento para os recursos aprimorados do GPT-4o. Capuz Sawyer do Twitter queria testar este novo modelo, pedindo-lhe para criar um clone do Fb Messenger.

O resultado? Funcionou. Não só isso, mas o GPT-4o fez tudo isso em menos de seis segundos. Claro, é apenas um único arquivo HTML — mas think about as implicações disso no desenvolvimento front-end em geral.

Entenda a entonação

E agora chegamos ao que considero a maior conquista do GPT-4o, embora alguns possam não concordar. No passado, os LLMs sempre consideraram o que lhes damos pelo valor nominal. Eles raramente consideram nosso tom ou fraseado ao processar nossas informações.

É por isso que sempre considerei modelos que conseguem fazer sarcasmo como ficção científica. Bem, o OpenAI acabou de provar que estou errado.

Tudo dito e feito

Fala-se muito sobre Gemini, Claude e outros LLMs potencialmente ultrapassando o OpenAI em termos de nuances e recursos. Bem, esta é a resposta da OpenAI para eles.

GPT-4o é o primeiro modelo que vi que parece verdadeiramente multimodal. Não apenas isso, mas também resolveu alguns dos problemas que atormentaram o GPT-4 no passado em termos de preguiça e falta de nuances.

OpenAI é uma empresa que está muito familiarizada com controvérsias do passado, mas tenho a sensação de que as pessoas vão esquecê-las em breve com o GPT-4o. Mal posso esperar para ver para onde a OpenAI levará os LLMs a partir daqui. Nesse ritmo, o GPT-5 pode quebrar o mundo. Quer saber mais sobre o recente drama da OpenAI? Você pode ler nosso artigo sobre Sam Altman aqui ou nossos outros artigos como este.