Google apresenta Gemma 2: elevando o desempenho, a velocidade e a acessibilidade da IA para desenvolvedores

July 4, 2024

O Google revelou o Gemma 2, a mais recente iteração de seus modelos de linguagem leves de código aberto, disponíveis em 9 bilhões (9B) e 27 bilhões (27B) de tamanhos de parâmetros. Esta nova versão promete desempenho aprimorado e inferência mais rápida em comparação com seu antecessor, o modelo Gemma. O Gemma 2, derivado dos modelos Gemini do Google, foi projetado para ser mais acessível para pesquisadores e desenvolvedores, oferecendo melhorias substanciais em velocidade e eficiência. Ao contrário dos modelos Gemini multimodais e multilíngues, o Gemma 2 se concentra exclusivamente no processamento de linguagem. Neste artigo, vamos nos aprofundar nos recursos e avanços de destaque do Gemma 2, comparando-o com seus antecessores e concorrentes no campo, destacando seus casos de uso e desafios.

Construindo Gemma 2

Assim como seu antecessor, os modelos Gemma 2 são baseados em uma arquitetura de transformador somente decodificador. A variante 27B é treinada em 13 trilhões de tokens de dados principalmente em inglês, enquanto o modelo 9B usa 8 trilhões de tokens, e o modelo 2.6B é treinado em 2 trilhões de tokens. Esses tokens vêm de uma variedade de fontes, incluindo documentos da internet, código e artigos científicos. O modelo usa o mesmo tokenizador que Gemma 1 e Gemini, garantindo consistência no processamento de dados.

O Gemma 2 é pré-treinado usando um método chamado destilação de conhecimento, onde ele aprende com as probabilidades de saída de um modelo maior e pré-treinado. Após o treinamento inicial, os modelos são ajustados por meio de um processo chamado ajuste de instrução. Isso começa com o ajuste fino supervisionado (SFT) em uma mistura de pares de prompt-resposta somente de texto em inglês sintéticos e gerados por humanos. Em seguida, o aprendizado por reforço com suggestions humano (RLHF) é aplicado para melhorar o desempenho geral

Gemma 2: Desempenho e eficiência aprimorados em diversos hardwares

O Gemma 2 não só supera o Gemma 1 em desempenho, mas também compete efetivamente com modelos duas vezes maiores. Ele foi projetado para operar eficientemente em várias configurações de {hardware}, incluindo laptops, desktops, dispositivos IoT e plataformas móveis. Especificamente otimizado para GPUs e TPUs individuais, o Gemma 2 aprimora a eficiência de seu antecessor, especialmente em dispositivos com recursos limitados. Por exemplo, o modelo 27B se destaca na execução de inferência em um único host GPU ou TPU NVIDIA H100 Tensor Core, tornando-o uma opção econômica para desenvolvedores que precisam de alto desempenho sem investir muito em {hardware}.

Além disso, o Gemma 2 oferece aos desenvolvedores recursos de ajuste aprimorados em uma ampla gama de plataformas e ferramentas. Seja usando soluções baseadas em nuvem como o Google Cloud ou plataformas populares como o Axolotl, o Gemma 2 fornece opções de ajuste fino abrangentes. A integração com plataformas como Hugging Face, NVIDIA TensorRT-LLM e JAX e Keras do Google permite que pesquisadores e desenvolvedores alcancem desempenho best e implantação eficiente em diversas configurações de {hardware}.

Gemma 2 vs. Lhama 3 70B

Ao comparar Gemma 2 com Llama 3 70B, ambos os modelos se destacam na categoria de modelo de linguagem de código aberto. Pesquisadores do Google afirmam que Gemma 2 27B oferece desempenho comparável ao Llama 3 70B, apesar de ser muito menor em tamanho. Além disso, Gemma 2 9B supera consistentemente Llama 3 8B em vários benchmarks, como compreensão de linguagem, codificação e resolução de problemas de matemática.

Uma vantagem notável do Gemma 2 sobre o Llama 3 do Meta é seu manuseio de idiomas índicos. O Gemma 2 se destaca devido ao seu tokenizador, que é projetado especificamente para esses idiomas e inclui um grande vocabulário de 256k tokens para capturar nuances linguísticas. Por outro lado, o Llama 3, apesar de suportar muitos idiomas, luta com a tokenização para scripts índicos devido ao vocabulário limitado e aos dados de treinamento. Isso dá ao Gemma 2 uma vantagem em tarefas que envolvem idiomas índicos, tornando-o uma escolha melhor para desenvolvedores e pesquisadores que trabalham nessas áreas.

Casos de uso

Com base nas características específicas do modelo Gemma 2 e seu desempenho em benchmarks, identificamos alguns casos de uso prático para o modelo.

Assistentes multilíngues: O tokenizador especializado do Gemma 2 para vários idiomas, especialmente idiomas índicos, o torna uma ferramenta eficaz para desenvolver assistentes multilíngues adaptados a esses usuários de idiomas. Seja buscando informações em hindi, criando materiais educacionais em urdu, conteúdo de advertising and marketing em árabe ou artigos de pesquisa em bengali, o Gemma 2 capacita os criadores com ferramentas eficazes de geração de idiomas. Um exemplo actual desse caso de uso é o Navarasa, um assistente multilíngue criado no Gemma que oferece suporte a nove idiomas indianos. Os usuários podem produzir sem esforço conteúdo que ressoe com públicos regionais, ao mesmo tempo em que aderem a normas e nuances linguísticas específicas.
Ferramentas educacionais: Com sua capacidade de resolver problemas de matemática e entender consultas linguísticas complexas, o Gemma 2 pode ser usado para criar sistemas de tutoria inteligentes e aplicativos educacionais que proporcionam experiências de aprendizagem personalizadas.
Codificação e Assistência de Código: A proficiência do Gemma 2 em benchmarks de codificação de computador indica seu potencial como uma ferramenta poderosa para geração de código, detecção de bugs e revisões automatizadas de código. Sua capacidade de ter um bom desempenho em dispositivos com recursos limitados permite que os desenvolvedores o integrem perfeitamente em seus ambientes de desenvolvimento.
Geração Aumentada de Recuperação (RAG): O forte desempenho do Gemma 2 em benchmarks de inferência baseados em texto o torna bem adequado para o desenvolvimento de sistemas RAG em vários domínios. Ele oferece suporte a aplicativos de saúde sintetizando informações clínicas, auxilia sistemas de IA jurídica no fornecimento de aconselhamento jurídico, permite o desenvolvimento de chatbots inteligentes para suporte ao cliente e facilita a criação de ferramentas educacionais personalizadas.

Limitações e Desafios

Embora o Gemma 2 mostre avanços notáveis, ele também enfrenta limitações e desafios principalmente relacionados à qualidade e diversidade de seus dados de treinamento. Apesar de seu tokenizador suportar vários idiomas, o Gemma 2 carece de treinamento específico para capacidades multilíngues e requer ajustes finos para lidar efetivamente com outros idiomas. O modelo tem um bom desempenho com prompts claros e estruturados, mas tem dificuldades com tarefas abertas ou complexas e nuances sutis de linguagem, como sarcasmo ou expressões figurativas. Sua precisão factual nem sempre é confiável, produzindo potencialmente informações desatualizadas ou incorretas, e pode carecer de raciocínio de senso comum em certos contextos. Embora esforços tenham sido feitos para lidar com alucinações, especialmente em áreas sensíveis como cenários médicos ou CBRN, ainda há o risco de gerar informações imprecisas em domínios menos refinados, como finanças. Além disso, apesar dos controles para evitar a geração de conteúdo antiético, como discurso de ódio ou ameaças à segurança cibernética, há riscos contínuos de uso indevido em outros domínios. Por fim, o Gemma 2 é baseado apenas em texto e não oferece suporte ao processamento de dados multimodais.

A linha de fundo

O Gemma 2 introduz avanços notáveis em modelos de linguagem de código aberto, melhorando o desempenho e a velocidade de inferência em comparação ao seu antecessor. Ele é bem adequado para várias configurações de {hardware}, tornando-o acessível sem investimentos significativos em {hardware}. No entanto, os desafios persistem no manuseio de tarefas de linguagem diferenciadas e na garantia da precisão em cenários complexos. Embora benéfico para aplicativos como consultoria jurídica e ferramentas educacionais, os desenvolvedores devem estar cientes de suas limitações em recursos multilíngues e problemas potenciais com precisão factual em contextos sensíveis. Apesar dessas considerações, o Gemma 2 continua sendo uma opção valiosa para desenvolvedores que buscam soluções confiáveis de processamento de linguagem.