Gemma: Google trazendo recursos avançados de IA por meio de código aberto

O campo da lucidez sintético (IA) tem visto um imenso progresso nos últimos anos, em grande secção impulsionado por avanços na aprendizagem profunda e no processamento de linguagem originário (PNL). Na vanguarda desses avanços estão os grandes modelos de linguagem (LLMs) – sistemas de IA treinados em grandes quantidades de dados de texto que podem gerar texto semelhante ao humano e participar de tarefas de conversação.

LLMs uma vez que PaLM do Google, Claude da Anthropic e Gopher da DeepMind demonstraram capacidades notáveis, desde a codificação até o raciocínio de bom siso. No entanto, a maioria destes modelos não foi divulgada claramente, limitando o seu entrada para investigação, desenvolvimento e aplicações benéficas.

Isso mudou com o recente código desimpedido do Gemma – uma família de LLMs da DeepMind do Google baseada em seus poderosos modelos proprietários Gemini. Nesta postagem do blog, vamos nos aprofundar no Gemma, analisando sua arquitetura, processo de treinamento, desempenho e lançamento responsável.

Visão universal de Gema

Em fevereiro de 2023, a DeepMind abriu o código-fonte de dois tamanhos de modelos Gemma – uma versão de 2 bilhões de parâmetros otimizada para implantação no dispositivo e uma versão maior de 7 bilhões de parâmetros projetada para uso de GPU/TPU.

Gemma aproveita uma arquitetura baseada em transformador e metodologia de treinamento semelhantes aos modelos Gemini líderes da DeepMind. Ele foi treinado em até 6 trilhões de tokens de texto de documentos da web, matemática e código.

A DeepMind lançou pontos de verificação pré-treinados brutos do Gemma, muito uma vez que versões ajustadas com aprendizagem supervisionado e feedback humano para recursos aprimorados em áreas uma vez que diálogo, seguimento de instruções e codificação.

Primeiros passos com Gemma

O lançamento desimpedido do Gemma torna seus recursos avançados de IA acessíveis a desenvolvedores, pesquisadores e entusiastas. Cá está um guia rápido para encetar:

Implantação independente de plataforma

Um ponto possante do Gemma é sua flexibilidade – você pode executá-lo em CPUs, GPUs ou TPUs. Para CPU, aproveite os transformadores TensorFlow Lite ou HuggingFace. Para desempenho vertiginoso em GPU/TPU, use o TensorFlow. Serviços em nuvem uma vez que o Vertex AI do Google Cloud também fornecem escalonamento contínuo.

Acesse modelos pré-treinados

Gemma vem em diferentes variantes pré-treinadas, dependendo de suas necessidades. Os modelos 2B e 7B oferecem fortes capacidades generativas prontas para uso. Para ajuste fino personalizado, os modelos 2B-FT e 7B-FT são pontos de partida ideais.

Crie aplicativos interessantes

Você pode edificar uma ampla gama de aplicativos com Gemma, uma vez que geração de histórias, tradução de idiomas, resposta a perguntas e produção de teor criativo. O sigilo é aproveitar os pontos fortes do Gemma por meio do ajuste fino de seus próprios conjuntos de dados.

Arquitetura

Gemma utiliza uma arquitetura de transformador somente decodificador, com base em avanços uma vez que atenção multi-consulta e incorporações posicionais rotativas:

Transformadores: Introduzida em 2017, a arquitetura transformadora baseada exclusivamente em mecanismos de atenção tornou-se onipresente na PNL. Gemma herda a capacidade do transformador de modelar dependências de longo alcance em texto.
Somente decodificador: Gemma usa exclusivamente uma rima de decodificador de transformador, ao contrário de modelos codificador-decodificador uma vez que BART ou T5. Isso fornece fortes recursos geradores para tarefas uma vez que geração de texto.
Atenção multi-consulta: Gemma emprega atenção de múltiplas consultas em seu padrão maior, permitindo que cada cabeça de atenção processe múltiplas consultas em paralelo para uma inferência mais rápida.
Incorporações posicionais rotativas: Gemma representa informações posicionais usando incorporações rotativas em vez de codificações de posição absoluta. Esta técnica reduz o tamanho do padrão enquanto retém informações de posição.

O uso de técnicas uma vez que atenção multiconsulta e incorporações posicionais rotativas permitem que os modelos Gemma alcancem uma ressarcimento ideal entre desempenho, velocidade de inferência e tamanho do padrão.

Processo de dados e treinamento

Gemma foi treinada em até 6 trilhões de tokens de dados de texto, principalmente em inglês. Isso incluía documentos da web, texto matemático e código-fonte. A DeepMind investiu esforços significativos na filtragem de dados, removendo teor tóxico ou prejudicial usando classificadores e heurísticas.

O treinamento foi realizado usando a infraestrutura TPUv5 do Google, com até 4.096 TPUs usadas para treinar o Gemma-7B. Técnicas eficientes de padrão e paralelismo de dados permitiram treinar modelos massivos com hardware geral.

Foi utilizado treinamento em etapas, ajustando continuamente a distribuição dos dados para focar em textos relevantes e de subida qualidade. Os estágios finais de ajuste fino usaram uma mistura de exemplos de seguimento de instruções gerados por humanos e sintéticos para aprimorar as capacidades.

Desempenho do padrão

A DeepMind avaliou rigorosamente os modelos Gemma em um espaçoso conjunto de mais de 25 benchmarks abrangendo resposta a perguntas, raciocínio, matemática, codificação, bom siso e capacidades de diálogo.

Gemma alcança resultados de última geração em verificação com modelos de código desimpedido de tamanho semelhante na maioria dos benchmarks. Alguns destaques:

Matemática: Gemma se destaca em testes de raciocínio matemático uma vez que GSM8K e MATH, superando modelos uma vez que Codex e Claude da Anthropic em mais de 10 pontos.
Codificação: Gemma iguala ou excede o desempenho do Codex em benchmarks de programação uma vez que MBPP, apesar de não ter sido especificamente treinado em código.
Diálogo: Gemma demonstra possante capacidade de conversação com taxa de vitória de 51,7% sobre o Mistral-7B da Anthropic em testes de preferência humana.
Raciocínio: Em tarefas que exigem inferência uma vez que ARC e Winogrande, Gemma supera outros modelos 7B em 5 a 10 pontos.

A versatilidade da Gemma entre disciplinas demonstra suas fortes capacidades de lucidez universal. Embora ainda existam lacunas no desempenho em nível humano, Gemma representa um salto em frente na PNL de código desimpedido.

Segurança e Responsabilidade

A liberação de pesos de código desimpedido de grandes modelos apresenta desafios em torno do uso indevido propositado e preconceitos inerentes ao padrão. A DeepMind tomou medidas para mitigar os riscos:

Filtragem de dados: Texto potencialmente tóxico, ilícito ou tendencioso foi removido dos dados de treinamento usando classificadores e heurísticas.
Avaliações: Gemma foi testada em mais de 30 benchmarks selecionados para estimar segurança, imparcialidade e robustez. Ele igualou ou superou outros modelos.
Afinação: O ajuste fino do padrão focou na melhoria das capacidades de segurança, uma vez que filtragem de informações e comportamentos apropriados de cobertura/recusa.
Termos de uso: Os termos de uso proíbem aplicações ofensivas, ilegais ou antiéticas dos modelos Gemma. No entanto, a emprego continua a ser um repto.
Cartões de padrão: Cartões detalhando as capacidades, limitações e preconceitos do padrão foram lançados para promover a transparência.

Embora existam riscos de código desimpedido, a DeepMind determinou que o lançamento de Gemma oferece benefícios sociais líquidos com base em seu perfil de segurança e na capacitação de pesquisas. No entanto, a monitorização vigilante dos potenciais danos continuará a ser sátira.

Habilitando a próxima vaga de inovação em IA

Lançar Gemma uma vez que uma família de modelos de código desimpedido significa desbloquear o progresso em toda a comunidade de IA:

Acessibilidade: Gemma reduz as barreiras para as organizações construírem com PNL de ponta, que anteriormente enfrentavam altos custos de computação/dados para treinar seus próprios LLMs.
Novas aplicações: Ao transfixar o código-fonte de pontos de verificação pré-treinados e ajustados, a DeepMind permite o desenvolvimento mais fácil de aplicativos benéficos em áreas uma vez que instrução, ciência e acessibilidade.
Costumização: Os desenvolvedores podem personalizar ainda mais o Gemma para aplicativos específicos do setor ou de domínio por meio de treinamento contínuo em dados proprietários.
Pesquisar: Modelos abertos uma vez que o Gemma promovem maior transparência e auditoria dos sistemas atuais de PNL, iluminando direções futuras de pesquisas.
Inovação: A disponibilidade de modelos de base fortes, uma vez que o Gemma, acelerará o progresso em áreas uma vez que mitigação de preconceitos, factualidade e segurança da IA.

Ao fornecer os recursos da Gemma a todos por meio de código desimpedido, a DeepMind espera estimular o desenvolvimento responsável da IA para o muito social.

A estrada adiante

A cada salto na IA, aproximamo-nos de modelos que rivalizam ou excedem a lucidez humana em todos os domínios. Sistemas uma vez que o Gemma sublinham uma vez que os rápidos avanços nos modelos auto-supervisionados estão a desbloquear capacidades cognitivas cada vez mais avançadas.

No entanto, ainda há trabalho para melhorar a fiabilidade, interpretabilidade e controlabilidade da IA – áreas onde a lucidez humana ainda reina suprema. Domínios uma vez que a matemática destacam essas lacunas persistentes, com Gemma pontuando 64% no MMLU em verificação com o desempenho humano estimado de 89%.

Colmatar estas lacunas e prometer simultaneamente a segurança e a moral de sistemas de IA cada vez mais capazes serão os desafios centrais nos próximos anos. Encontrar o estabilidade perceptível entre rombo e cautela será fundamental, uma vez que a DeepMind pretende democratizar o entrada aos benefícios da IA, ao mesmo tempo que gere os riscos emergentes.

Iniciativas para promover a segurança da IA – uma vez que a ANC de Dario Amodei, a equipe de Moral e Sociedade da DeepMind e a IA Constitucional da Anthropic – sinalizam um reconhecimento crescente dessa urgência de nuances. Um progresso significativo exigirá um diálogo desimpedido e fundamentado em evidências entre investigadores, promotores, decisores políticos e o público.

Se navegado de forma responsável, Gemma representa não o vértice da IA, mas um acampamento base para a próxima geração de pesquisadores de IA seguindo os passos da DeepMind em direção à lucidez sintético universal justa e benéfica.

Peroração

O lançamento dos modelos Gemma pela DeepMind significa uma novidade era para IA de código desimpedido – uma que transcende benchmarks estreitos para capacidades de lucidez generalizadas. Testado extensivamente quanto à segurança e amplamente alcançável, Gemma estabelece um novo padrão para código desimpedido responsável em IA.

Impulsionado por um espírito competitivo temperado com valores cooperativos, compartilhar inovações uma vez que Gemma eleva todos os barcos no ecossistema de IA. Toda a comunidade agora tem entrada a uma família versátil de LLM para impulsionar ou concordar suas iniciativas.

Embora os riscos permaneçam, a diligência técnica e moral da DeepMind proporciona a crédito de que os benefícios da Gemma superam os seus potenciais danos. À medida que as capacidades de IA se tornam cada vez mais avançadas, será fundamental manter esta nuance entre rombo e cautela.

Gemma nos leva um passo mais perto da IA que beneficia toda a humanidade. Mas muitos grandes desafios ainda aguardam no caminho para uma lucidez sintético universal bondoso. Se os investigadores de IA, os programadores e a sociedade em universal conseguirem manter o progresso colaborativo, o Gemma poderá um dia ser visto uma vez que um acampamento base histórico, e não uma vez que a cimeira final.

Unite AI Mobile Newsletter 1