O novo modelo de IA Gemma 2 9B do Google supera o Llama-3 8B

June 28, 2024

O Google lançou dois novos modelos sob a série Gemma 2, apresentando 9 bilhões e 27 bilhões de parâmetros. Esses modelos são projetados para serem competitivos com os grandes modelos de linguagem existentes, oferecendo alto desempenho em vários benchmarks. O modelo de 9 bilhões é conhecido por sua eficiência e competitividade contra o Llama-3 de 8 bilhões, enquanto o modelo de 27 bilhões é reivindicado para rivalizar com modelos com até 70 bilhões de parâmetros. Ambos os modelos têm requisitos de {hardware} específicos para desempenho splendid e estão disponíveis para uso comercial.

Principais conclusões

Variantes do modelo:O Gemma 2 vem em duas versões – 9 bilhões de parâmetros (9B) e 27 bilhões de parâmetros (27B).
Desempenho:
- O modelo 9B supera o Llama-3 8B em vários benchmarks.
- O modelo 27B é competitivo com modelos em torno de 70 bilhões de parâmetros e tem bom desempenho na área de chatbot LMSys.
Requisitos de {hardware}:
- O modelo 27B requer {hardware} de ponta como Nvidia H100, A100 com 80 GB de VRAM ou TPUs.
- O modelo 9B é mais acessível, sendo compatível com GPUs menores, como Nvidia L4 ou T4.
Treinamento:
- O modelo 27B foi treinado em 13 trilhões de tokens usando TPU 5s.
- O modelo 9B foi treinado em 8 trilhões de tokens usando TPU 4s.
Tokenizador: Utiliza um tokenizador com 256.000 tokens, contribuindo para suas capacidades multilíngues.
Licença: Licenciado comercialmente, permitindo uma variedade de casos de uso.
Implantação: Pode ser implantado no Google Cloud e no Vertex AI, com opções de implantação com um clique em breve.
Melhorias Técnicas:
- Incorpora mudanças nos mecanismos de atenção.
- Usa mesclagem de modelos com base em diferentes hiperparâmetros.
Benchmarks e testes:
- O modelo 9B supera consistentemente o Llama-3 8B em diversas tarefas.
- O modelo 27B estabelece um novo estado da arte para modelos de peso aberto na enviornment de chatbot LMSys.
Qualidade de saída:
- Ambos os modelos se destacam em tarefas de escrita criativa e raciocínio passo a passo.
- O modelo 27B fornece respostas mais detalhadas e contextualmente ricas.
Experimentação e Uso:
- Disponível para teste no AI Studio.
- Demonstra forte desempenho na execução de código e razão complexa

Sam Witteveen criou uma excelente visão geral que fornece mais detalhes sobre esses mais recentes modelos de IA em grandes linguagens e como eles competem com os grandes modelos de linguagens existentes, para oferecer desempenho excepcional em vários benchmarks e aplicativos. A série Gemma 2 oferece duas variantes distintas, cada uma adaptada a necessidades e requisitos específicos:

O Modelo de parâmetros de 9 bilhões foi projetado com a eficiência em mente, tornando-o um concorrente formidável contra o modelo de 8 bilhões de parâmetros do Llama-3. Este modelo atinge um equilíbrio entre desempenho e utilização de recursos, tornando-o acessível a uma gama mais ampla de usuários e aplicações.
O Modelo de parâmetros de 27 bilhões é uma potência, capaz de rivalizar com modelos com até 70 bilhões de parâmetros. Este modelo foi projetado para atender às aplicações mais exigentes, oferecendo desempenho e precisão incomparáveis.

Um extenso benchmarking revelou as capacidades impressionantes desses modelos. O modelo de 9 bilhões de parâmetros supera consistentemente o modelo de 8 bilhões do Llama-3 em várias métricas importantes, enquanto o modelo de 27 bilhões de parâmetros se compara a modelos significativamente maiores. Esses resultados mostram a busca incansável do Google pela eficiência e eficácia dos modelos, ampliando os limites do que é possível com grandes modelos de linguagem.

Gemma 2 9B e 27B AI -Modelos

Aqui está uma seleção de outros artigos de nossa extensa biblioteca de conteúdo que você pode achar interessante sobre o assunto Google Gemma:

Para garantir o desempenho splendid, os modelos Gemma 2 possuem requisitos de {hardware} específicos. O modelo de 27 bilhões de parâmetros exige {hardware} de ponta, como Nvidia H100, A100 (80 GB VRAM) ou TPUrefletindo suas imensas necessidades computacionais. Por outro lado, o modelo de 9 bilhões de parâmetros, com seu foco na eficiência, pode rodar sem problemas em GPUs menores como Nvidia L4 ou T4tornando-o mais acessível a uma base de usuários mais ampla.

Construído usando dados de treinamento extensivos

Um dos principais fatores que contribuem para o desempenho excepcional dos modelos Gemma 2 são os extensos dados de treinamento aos quais eles foram expostos. O modelo de 27 bilhões de parâmetros foi treinado em uma quantidade impressionante 13 trilhões de tokensenquanto o modelo de 9 bilhões de parâmetros foi treinado em um impressionante 8 trilhões de tokens. Essa grande quantidade de dados permite que os modelos desenvolvam uma compreensão profunda das nuances, do contexto e dos padrões da linguagem, resultando em resultados altamente precisos e contextualmente relevantes.

A equipe de especialistas do Google incorporou vários aprimoramentos técnicos aos modelos Gemma 2, aumentando ainda mais suas capacidades. Esses aprimoramentos incluem:

Mudanças arquitetônicas e otimizações do mecanismo de atenção
Utilização de dados sintéticos para aumentar o treinamento
Técnicas de fusão de modelos para combinar os pontos fortes de diferentes modelos

Esses avanços contribuem para o desempenho e a eficiência superiores dos modelos, diferenciando-os de seus antecessores e concorrentes.

Uso Comercial

Os modelos de parâmetros de 9 bilhões e 27 bilhões estão disponíveis sob um Licença comercial, permitindo que as empresas aproveitem seu poder para diversas aplicações. As opções de implantação incluem Google Cloud e Vertex AIfornecendo soluções escaláveis e flexíveis que podem ser adaptadas às necessidades específicas.

Além de suas capacidades básicas, os modelos Gemma 2 vêm equipados com vários recursos valiosos. O Google abriu o código-fonte de sua tecnologia de marca d'água de texto, garantindo a autenticidade e integridade do conteúdo gerado. Os modelos também suportam cadeias de pensamento e resultados de remarcação de alta qualidade, aumentando sua versatilidade e usabilidade em diferentes domínios.

avaliação comparativa

Benchmarking e testes rigorosos demonstraram o desempenho competitivo dos modelos Gemma 2 no Enviornment de chatbot LMSys. Eles também demonstraram capacidades excepcionais de escrita criativa e geração de código, destacando seu potencial para transformar vários setores e aplicações.

Para auxiliar nos testes e na experimentação, os modelos Gemma 2 estão acessíveis através de Estúdio de IA. Há também o potencial para implantação native, permitindo que os usuários explorem e aproveitem os recursos dos modelos em seus próprios ambientes.

A série Gemma 2 do Google representa um marco significativo na evolução de grandes modelos de linguagem. Com a introdução dos modelos de parâmetros de 9 mil milhões e 27 mil milhões, o Google demonstrou mais uma vez o seu compromisso em ultrapassar os limites do processamento de linguagem pure. Esses modelos, apoiados por extensos dados de treinamento, aprimoramentos técnicos avançados e opções flexíveis de implantação, estão preparados para causar um impacto profundo em vários domínios. À medida que as empresas e os investigadores continuam a explorar o potencial destes modelos, podemos esperar ver aplicações e inovações inovadoras que moldarão o futuro da IA e da compreensão da linguagem pure.

Crédito do vídeo: Sam Witteveen

Últimas ofertas de devices geeks

Divulgação: Alguns dos nossos artigos incluem hyperlinks de afiliados. Se você comprar algo por meio de um desses hyperlinks, a lifetechweb Devices pode ganhar uma comissão de afiliado. Saiba mais sobre nossa Política de Divulgação.

Gemma 2 9B e 27B AI -Modelos

Construído usando dados de treinamento extensivos

Uso Comercial

avaliação comparativa

Share this: