Tech

Arquitetura do modelo de IA do Google Gemma 2, dados de treinamento e muito mais explicados

LifeTechWebJune 29, 2024

0 4 minutes read

O Google lançou a segunda iteração de seus modelos de peso aberto, Gemma 2, que inclui três modelos com 2, 9 e 27 bilhões de parâmetros. Atualmente, apenas os modelos de parâmetros de 9 e 27 bilhões estão disponíveis. Estes modelos têm demonstrado um desempenho impressionante em vários benchmarks, muitas vezes superando modelos maiores de outras famílias. O relatório técnico fornece insights detalhados sobre a arquitetura, dados de treinamento e técnicas inovadoras usadas, como destilação de conhecimento, para melhorar o desempenho do modelo e a Immediate Engineering criou uma visão geral fantástica que fornece insights.

Google explica:

Desempenho descomunal: No 27B, o Gemma 2 oferece o melhor desempenho para sua classe de tamanho e ainda oferece alternativas competitivas para modelos com mais que o dobro do seu tamanho. O modelo 9B Gemma 2 também oferece desempenho líder na categoria, superando o Llama 3 8B e outros modelos abertos em sua categoria de tamanho. Para análises detalhadas de desempenho, confira o relatório técnico.
Eficiência e economia de custos inigualáveis: O modelo 27B Gemma 2 foi projetado para executar inferência com eficiência e precisão whole em um único host Google Cloud TPU, GPU NVIDIA A100 80GB Tensor Core ou GPU NVIDIA H100 Tensor Core, reduzindo significativamente os custos e mantendo o alto desempenho. Isso permite implantações de IA mais acessíveis e econômicas.
Inferência extremamente rápida em {hardware}: O Gemma 2 é otimizado para rodar em uma velocidade incrível em uma variedade de hardwares, de laptops avid gamers potentes e desktops de ponta a configurações baseadas em nuvem. Experimente o Gemma 2 com precisão whole no Google AI Studio, desbloqueie o desempenho native com a versão quantizada com Gemma.cpp na sua CPU ou experimente no seu computador doméstico com uma NVIDIA RTX ou GeForce RTX through Hugging Face Transformers.

Modelos de IA do Google Gemma-2

Embora o modelo de 2 mil milhões de parâmetros permaneça em segredo, os modelos de 9 e 27 mil milhões de parâmetros foram disponibilizados ao público, oferecendo aos investigadores e desenvolvedores a oportunidade de aproveitar o seu potencial. Esses modelos são cuidadosamente projetados para lidar com tarefas linguísticas de grande escala com eficiência e precisão incomparáveis.

Os modelos Gemma 2 AI já provaram sua coragem em aplicações do mundo actual, com o modelo de 9 bilhões de parâmetros superando o formidável modelo Lama, que apresenta 38 bilhões de parâmetros. Enquanto isso, o modelo de 27 bilhões de parâmetros se mantém contra a versão de 70 bilhões do Lama 3. Ambos os modelos Gemma 2 garantiram as primeiras posições na Enviornment de Chatbots do LMS, uma prova de sua robustez e versatilidade.

Aprofundamento da Immediate Engineering

Aqui está uma seleção de outros artigos de nossa extensa biblioteca de conteúdo que você pode achar de interesse sobre o assunto Google Gemma 2:

Revelando os segredos do sucesso da Gemma-2

O relatório técnico que acompanha o lançamento do Gemma-2 oferece uma visão fascinante do técnicas inovadoras empregados para alcançar um desempenho tão notável. No centro do sucesso do Gemma-2 está o conceito de destilação do conhecimentouma abordagem poderosa que permite o treinamento de modelos menores, mas altamente eficazes.

Ao adotar um paradigma de modelo professor-aluno, o Gemma-2 utiliza o conhecimento de modelos maiores e mais complexos para orientar o treinamento de seus equivalentes mais compactos. O alinhamento entre os modelos de aluno e professor é alcançado através do uso de Divergência KLgarantindo consistência e precisão durante os estágios de pré-treinamento e ajuste fino.

Superando os desafios do treinamento

O desenvolvimento do Gemma-2 não foi isento de desafios, particularmente em termos das vastas quantidades de dados necessárias para o ajuste fino. Evidências de subtreinamento nos modelos maiores foram observadas, mas a equipe do Google habilmente mitigou esse problema empregando a destilação de conhecimento. Essa abordagem permitiu que eles superassem as restrições de dados e desbloqueassem todo o potencial dos modelos.

Os estudos de ablação realizados durante o processo de desenvolvimento destacaram ainda mais a eficácia da destilação do conhecimento. Os modelos treinados do zero foram comparados com aqueles treinados usando esta técnica, com os modelos destilados demonstrando consistentemente melhorias significativas nos benchmarks e na perplexidade. Além disso, a robustez das técnicas de treinamento ficou evidente no impacto mínimo dos diversos tamanhos de janelas deslizantes no desempenho.

Acessibilidade e implantação

O Google disponibilizou modelos Gemma-2 no Google AI Studio e no Hugging Face, garantindo que pesquisadores e desenvolvedores possam acessar e implantar facilmente essas ferramentas inovadoras. A disponibilidade de versões quantizadas dos modelos aumenta ainda mais sua praticidade, oferecendo opções de compactação de modelos e implantação eficiente em diversos cenários.

Os modelos Gemma-2 estão disponíveis em três tamanhos: 2, 9 e 27 bilhões de parâmetros
Os modelos de 9 e 27 bilhões de parâmetros foram divulgados ao público
Os modelos Gemma-2 demonstraram desempenho superior em vários benchmarks
A destilação do conhecimento desempenha um papel essential no treinamento de modelos menores e altamente eficazes
Estudos de ablação confirmam a eficácia da destilação do conhecimento na melhoria do desempenho do modelo

À medida que o campo do processamento de linguagem pure continua a evoluir, o Gemma-2 do Google está na vanguarda, ampliando os limites do que é possível com modelos de peso aberto. Com seu desempenho impressionante, técnicas de treinamento inovadoras e acessibilidade, o Gemma-2 está preparado para causar um impacto significativo em uma ampla gama de aplicações, desde chatbots até tradução de idiomas e muito mais.

Crédito do vídeo: Fonte

Últimas ofertas de devices geeks

Divulgação: Alguns dos nossos artigos incluem hyperlinks de afiliados. Se você comprar algo por meio de um desses hyperlinks, a lifetechweb Devices pode ganhar uma comissão de afiliado. Saiba mais sobre nossa Política de Divulgação.