Tech

Revelando Meta Llama 3: um salto em frente em grandes modelos de linguagem

No campo da IA ​​generativa, a Meta continua a liderar com seu compromisso com a disponibilidade de código aberto, distribuindo globalmente sua avançada série Giant Language Mannequin Meta AI (Llama) para desenvolvedores e pesquisadores. Com base em suas iniciativas progressivas, a Meta introduziu recentemente a terceira iteração desta série, Llama 3. Esta nova edição melhora significativamente o Llama 2, oferecendo inúmeras melhorias e estabelecendo benchmarks que desafiam concorrentes da indústria como Google, Mistral e Anthropic. Este artigo explora os avanços significativos do Llama 3 e como ele se compara ao seu antecessor, o Llama 2.

Série Llama da Meta: Do exclusivo ao acesso aberto e desempenho aprimorado

A Meta iniciou sua série Llama em 2022 com o lançamento do Llama 1, um modelo confinado ao uso não comercial e acessível apenas a instituições de pesquisa selecionadas devido às imensas demandas computacionais e à natureza proprietária que caracterizavam os LLMs de ponta na época. Em 2023, com o lançamento do Llama 2, a Meta AI mudou para uma maior abertura, oferecendo o modelo gratuitamente para pesquisa e fins comerciais. Esta medida foi concebida para democratizar o acesso a tecnologias sofisticadas de IA generativa, permitindo que uma gama mais ampla de utilizadores, incluindo startups e equipas de investigação mais pequenas, inovassem e desenvolvessem aplicações sem os elevados custos normalmente associados a modelos de grande escala. Dando continuidade a esta tendência de abertura, a Meta lançou o Llama 3, que se concentra em melhorar o desempenho de modelos menores em vários benchmarks industriais.

Apresentando Lhama 3

Llama 3 é a segunda geração de modelos de linguagem grande (LLMs) de código aberto da Meta, apresentando modelos pré-treinados e ajustados por instrução com parâmetros 8B e 70B. Em linha com seus antecessores, o Llama 3 utiliza uma arquitetura de transformador somente decodificador e continua a prática de treinamento autorregressivo e auto-supervisionado para prever tokens subsequentes em sequências de texto. O Llama 3 é pré-treinado em um conjunto de dados sete vezes maior do que o usado para o Llama 2, apresentando mais de 15 trilhões de tokens extraídos de uma combinação recentemente selecionada de dados on-line disponíveis publicamente. Este vasto conjunto de dados é processado usando dois clusters equipados com 24.000 GPUs. Para manter a alta qualidade desses dados de treinamento, foram empregadas diversas técnicas de IA centradas em dados, incluindo filtros heurísticos e NSFW, desduplicação semântica e classificação de qualidade de texto. Adaptado para aplicações de diálogo, o modelo Llama 3 Instruct foi significativamente aprimorado, incorporando mais de 10 milhões de amostras de dados anotadas por humanos e aproveitando uma combinação sofisticada de métodos de treinamento, como ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO). ) e otimização direta de políticas (DPO).

Llama 3 vs. Llama 2: principais melhorias

O Llama 3 traz diversas melhorias em relação ao Llama 2, aumentando significativamente sua funcionalidade e desempenho:

  • Vocabulário Expandido: O Llama 3 aumentou seu vocabulário para 128.256 tokens, acima dos 32.000 tokens do Llama 2. Este aprimoramento suporta codificação de texto mais eficiente para entradas e saídas e fortalece suas capacidades multilíngues.
  • Comprimento de contexto estendido: Os modelos Llama 3 fornecem um comprimento de contexto de 8.000 tokens, dobrando os 4.090 tokens suportados pelo Llama 2. Esse aumento permite uma manipulação de conteúdo mais extensa, abrangendo prompts do usuário e respostas do modelo.
  • Dados de treinamento atualizados: O conjunto de dados de treinamento do Llama 3 é sete vezes maior que o do Llama 2, incluindo quatro vezes mais código. Ele contém mais de 5% de dados de alta qualidade em idiomas diferentes do inglês, abrangendo mais de 30 idiomas, o que é essential para o suporte a aplicativos multilíngues. Esses dados passam por um rigoroso controle de qualidade usando técnicas avançadas como filtros heurísticos e NSFW, desduplicação semântica e classificadores de texto.
  • Ajuste e avaliação de instruções refinados: Divergindo do Llama 2, o Llama 3 utiliza técnicas avançadas de ajuste de instrução, incluindo ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO) e otimização de política direta (DPO). Para ampliar esse processo, foi introduzido um novo conjunto de avaliação humana de alta qualidade, composto por 1.800 prompts que abrangem diversos casos de uso, como aconselhamento, brainstorming, classificação, codificação e muito mais, garantindo uma avaliação abrangente e o ajuste fino das capacidades do modelo.
  • Segurança avançada de IA: O Llama 3, assim como o Llama 2, incorpora medidas de segurança rigorosas, como ajuste fino de instruções e formação de equipes vermelhas abrangentes para mitigar riscos, especialmente em áreas críticas como segurança cibernética e ameaças biológicas. Em apoio a esses esforços, a Meta também introduziu o Llama Guard 2, ajustado na versão 8B do Llama 3. Este novo modelo aprimora a série Llama Guard classificando entradas e respostas do LLM para identificar conteúdo potencialmente inseguro, tornando-o ideally suited para produção. ambientes.

Disponibilidade do Lhama 3

Os modelos Llama 3 agora estão integrados ao ecossistema Hugging Face, melhorando a acessibilidade para os desenvolvedores. Os modelos também estão disponíveis por meio de plataformas de modelo como serviço, como Perplexity Labs e Fireworks.ai, e em plataformas de nuvem como AWS SageMaker, Azure ML e Vertex AI. A Meta planeja ampliar ainda mais a disponibilidade do Llama 3, incluindo plataformas como Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM e Snowflake. Além disso, o suporte de {hardware} para Llama 3 será estendido para incluir plataformas AMD, AWS, Dell, Intel, NVIDIA e Qualcomm.

Próximas melhorias no Llama 3

Meta revelou que a versão atual do Llama 3 é apenas a fase inicial de sua visão mais ampla para a versão completa do Llama 3. Eles estão desenvolvendo um modelo avançado com mais de 400 bilhões de parâmetros que introduzirá novos recursos, incluindo multimodalidade e a capacidade de lidar com vários idiomas. Esta versão aprimorada também contará com uma janela de contexto significativamente estendida e recursos de desempenho geral aprimorados.

O resultado closing

O Llama 3 da Meta marca uma evolução significativa no cenário de grandes modelos de linguagem, impulsionando a série não apenas para uma maior acessibilidade de código aberto, mas também melhorando substancialmente suas capacidades de desempenho. Com um conjunto de dados de treinamento sete vezes maior que seu antecessor e recursos como vocabulário expandido e maior extensão de contexto, o Llama 3 estabelece novos padrões de referência que desafiam até mesmo os concorrentes mais fortes do setor.

Esta terceira iteração não só continua a democratizar a tecnologia de IA, disponibilizando capacidades de alto nível para um espectro mais amplo de desenvolvedores, mas também introduz avanços significativos em segurança e precisão de treinamento. Ao integrar esses modelos em plataformas como Hugging Face e ampliar a disponibilidade por meio dos principais serviços em nuvem, a Meta garante que o Llama 3 seja tão onipresente quanto poderoso.

Olhando para o futuro, o desenvolvimento contínuo do Meta promete capacidades ainda mais robustas, incluindo multimodalidade e suporte expandido a idiomas, preparando o terreno para que o Llama 3 não apenas concorra, mas potencialmente supere outros grandes modelos de IA no mercado. Llama 3 é uma prova do compromisso da Meta em liderar a revolução da IA, fornecendo ferramentas que não são apenas mais acessíveis, mas também significativamente mais avançadas e seguras para uma base world de usuários.

Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button