Tech

Visão GPT4o vs Llama 3 vs Phi3 AI e análise visible comparada

LifeTechWebJune 7, 2024

0 4 minutes read

GPT4o vs Llama 3 vs Phi3 AI vision and visual analytics compared

O surgimento de modelos de visão de código aberto revolucionou o campo da visão da IA e da interpretação de imagens. Dois exemplos notáveis são o da Microsoft Visão Phi 3 e Meta Lhama 3. Essas ferramentas poderosas são projetadas para lidar com uma ampla gama de tarefas, desde a geração de descrições simples de imagens até a realização de análises complexas de imagens.

Se você quiser saber mais sobre os diferentes modelos de IA disponíveis e como eles funcionam durante os testes analíticos visuais, ficará satisfeito em saber que Matthew Berman realizou vários testes e observações para seu prazer visible. Comparando o desempenho desses modelos de visão de IA com os bem conhecidos GPT-4 em várias tarefas de interpretação de imagens para avaliar a sua eficácia e identificar os seus pontos fortes e limitações.

Descrição da imagem de visão AI

Uma das principais tarefas dos modelos de visão é fornecer descrições precisas e detalhadas das imagens. Vamos ver como cada modelo se sai nesse aspecto:

Phi 3 Imaginative and prescient se destaca por fornecer descrições rápidas e precisas. Pode descrever uma cena com detalhes precisos, capturando os elementos essenciais da imagem.
Llama 3 com Llama 3 tem uma abordagem mais artística, oferecendo descrições detalhadas e criativas que dão um toque único às suas interpretações.
O GPT-4, embora mais lento em comparação com os outros modelos, demonstra sua precisão ao identificar corretamente objetos específicos em uma imagem, como uma lhama.

Identificação de Indivíduos

Reconhecer indivíduos específicos a partir de imagens é uma tarefa desafiadora para modelos de visão. Nos nossos testes, nenhum dos modelos conseguiu identificar Invoice Gates a partir de uma imagem, destacando uma limitação comum nesta área. Isto indica que são necessários mais avanços para melhorar a capacidade dos modelos de reconhecer e identificar indivíduos específicos com precisão.

Reconhecimento CAPTCHA

O reconhecimento de CAPTCHA é uma tarefa importante que testa a robustez dos modelos de visão. Veja o desempenho de cada modelo:

A Phi 3 Imaginative and prescient identificou com sucesso tanto o CAPTCHA quanto as letras, demonstrando seu forte desempenho nesta tarefa.
Llama 3 com Llama 3 forneceram resultados parcialmente corretos, mostrando alguma capacidade, mas não alcançando precisão whole.
O GPT-4 falhou inicialmente, mas teve sucesso em uma segunda tentativa, demonstrando sua capacidade de aprender e se adaptar.

Descrições de imagens complexas

Quando se trata de analisar imagens complexas e fornecer descrições detalhadas, os modelos apresentam diferentes pontos fortes:

Tanto o Phi 3 Imaginative and prescient quanto o Llama 3 com Llama 3 se destacam na geração de descrições abrangentes, demonstrando sua proficiência em análises complexas de imagens.
GPT-4 fornece descrições precisas, mas menos detalhadas, alcançando um equilíbrio entre correção e concisão.

Modelos AI Imaginative and prescient de código aberto testados

Aqui estão alguns outros artigos que você pode achar interessantes sobre o assunto da visão da IA:

Configurações de armazenamento do iPhone

Interpretar as configurações de armazenamento do iPhone a partir de uma imagem é uma tarefa prática que testa a capacidade dos modelos de extrair informações relevantes. Os resultados são os seguintes:

Phi 3 Imaginative and prescient fornece informações precisas e detalhadas sobre as configurações de armazenamento do iPhone, mostrando sua eficácia nesta área.
Llama 3 com Llama 3 se esforça para fornecer detalhes específicos, indicando uma lacuna em seu desempenho para esta tarefa específica.
O GPT-4 supera os outros modelos, oferecendo detalhes abrangentes e precisos sobre as configurações de armazenamento do iPhone.

Leitura de código QR

A extração de informações de códigos QR é outra aplicação prática dos modelos de visão. No entanto, todos os três modelos não conseguiram extrair o URL de um código QR, revelando uma limitação comum que precisa ser abordada em futuras iterações destes modelos.

Explicação do meme

Compreender e explicar memes requer uma combinação de percepção visible e conhecimento contextual. Vamos ver como os modelos lidam com essa tarefa:

Phi 3 Imaginative and prescient fornece uma explicação incorreta, perdendo o contexto e não conseguindo compreender o significado do meme.
Llama 3 com Llama 3 oferece uma explicação descritiva, mas carece de precisão, indicando uma compreensão parcial do meme.
GPT-4 demonstra sua capacidade dando uma explicação correta e perspicaz, mostrando sua capacidade de compreender memes de forma eficaz.

Conversão de tabela para CSV

A conversão de dados tabulares de uma imagem para o formato CSV é um recurso valioso dos modelos de visão. Veja o desempenho de cada modelo:

O Phi 3 Imaginative and prescient se destaca nessa tarefa, proporcionando conversão rápida e precisa, demonstrando sua eficiência no tratamento de dados estruturados.
Llama 3 com Llama 3 não consegue converter a tabela em CSV, indicando uma limitação em seus recursos de manipulação de dados.
O GPT-4 vai um passo além ao criar um arquivo CSV para obtain, mostrando sua utilidade prática na extração e manipulação de dados.

Desempenho geral e testes futuros

Com base em nossa análise comparativa, Visão Phi 3 emerge como o modelo mais impressionante em geral, destacando-se em múltiplas tarefas e demonstrando sua versatilidade. Lhama 3 tem um bom desempenho inicialmente, mas tem dificuldades com tarefas específicas, indicando áreas para melhoria. GPT-4 mostra resultados mistos, com algumas tarefas executadas excepcionalmente bem, enquanto outras ficam aquém.

Para avaliar melhor as capacidades e limitações desses modelos de visão, encorajamos você a sugerir formas adicionais de testá-los. Ao expandir a gama de tarefas e cenários, podemos obter insights mais profundos sobre seus pontos fortes e fracos, orientando-nos na seleção da ferramenta mais adequada para necessidades específicas de interpretação de imagens de IA.

Concluindo, o surgimento de modelos de visão de código aberto como Phi 3 Imaginative and prescient e Llama 3 com Llama 3 abriu novas possibilidades na interpretação de imagens de IA. Ao comparar o seu desempenho com o GPT-4, podemos avaliar a sua eficácia e identificar áreas de melhoria. À medida que estes modelos continuam a evoluir, podemos esperar capacidades ainda mais avançadas no futuro, revolucionando a forma como analisamos e entendemos os dados visuais.

Crédito do vídeo: Fonte

Últimas ofertas de devices geeks

Divulgação: Alguns de nossos artigos incluem hyperlinks afiliados. Se você comprar algo por meio de um desses hyperlinks, o lifetechweb Devices poderá ganhar uma comissão de afiliado. Conheça nossa Política de Divulgação.