Tech

Por dentro do DBRX: Databricks lança poderoso LLM de código aberto

LifeTechWebApril 16, 2024

0 10 minutes read

No campo de rápido avanço dos grandes modelos de linguagem (LLMs), surgiu um novo modelo poderoso – DBRX, um modelo de código aberto criado pela Databricks. Este LLM está agitando seu desempenho de última geração em uma ampla gama de benchmarks, rivalizando até mesmo com as capacidades de gigantes da indústria como o GPT-4 da OpenAI.

O DBRX representa um marco significativo na democratização da inteligência synthetic, proporcionando a pesquisadores, desenvolvedores e empresas acesso aberto a um modelo de linguagem de primeira linha. Mas o que é exatamente o DBRX e o que o torna tão especial? Neste aprofundamento técnico, exploraremos a arquitetura inovadora, o processo de treinamento e os principais recursos que impulsionaram o DBRX para a vanguarda do cenário aberto de LLM.

O Nascimento do DBRX A criação do DBRX foi impulsionada pela missão da Databricks de tornar a inteligência de dados acessível a todas as empresas. Como líder em plataformas de análise de dados, a Databricks reconheceu o imenso potencial dos LLMs e decidiu desenvolver um modelo que pudesse igualar ou até mesmo superar o desempenho das ofertas proprietárias.

Após meses de intensa pesquisa, desenvolvimento e um investimento multimilionário, a equipe da Databricks alcançou um avanço com o DBRX. O desempenho impressionante do modelo em uma ampla gama de benchmarks, incluindo compreensão de linguagem, programação e matemática, estabeleceu-o firmemente como um novo estado da arte em LLMs abertos.

Arquitetura Inovadora

O poder da mistura de especialistas No centro do desempenho excepcional do DBRX está sua arquitetura inovadora de mistura de especialistas (MoE). Este design inovador representa um afastamento dos modelos densos tradicionais, adotando uma abordagem esparsa que aumenta a eficiência do pré-treinamento e a velocidade de inferência.

Na estrutura do MoE, apenas um grupo seleto de componentes, chamados “especialistas”, é ativado para cada enter. Essa especialização permite que o modelo lide com uma gama mais ampla de tarefas com maior habilidade, ao mesmo tempo que otimiza recursos computacionais.

O DBRX leva esse conceito ainda mais longe com sua arquitetura MoE refinada. Ao contrário de alguns outros modelos do MoE que utilizam um número menor de especialistas maiores, o DBRX emprega 16 especialistas, com quatro especialistas activos para qualquer contribuição. Este design fornece 65 vezes mais combinações especializadas possíveis, contribuindo diretamente para o desempenho superior do DBRX.

O DBRX se diferencia por diversos recursos inovadores:

Codificações de posição rotativa (RoPE): Melhora a compreensão das posições dos tokens, essential para gerar texto contextualmente preciso.
Unidades Lineares Fechadas (GLU): Introduz um mecanismo de controle que aprimora a capacidade do modelo de aprender padrões complexos com mais eficiência.
Atenção de consulta agrupada (GQA): Melhora a eficiência do modelo otimizando o mecanismo de atenção.
Tokenização Avançada: Utiliza o tokenizer do GPT-4 para processar entradas de forma mais eficaz.

A arquitetura MoE é particularmente adequada para modelos de linguagem de grande escala, pois permite um dimensionamento mais eficiente e uma melhor utilização dos recursos computacionais. Ao distribuir o processo de aprendizagem por múltiplas sub-redes especializadas, o DBRX pode alocar efetivamente dados e poder computacional para cada tarefa, garantindo resultados de alta qualidade e eficiência best.

Dados de treinamento abrangentes e otimização eficiente Embora a arquitetura do DBRX seja sem dúvida impressionante, seu verdadeiro poder reside no meticuloso processo de treinamento e na vasta quantidade de dados aos quais foi exposto. O DBRX foi pré-treinado com impressionantes 12 trilhões de tokens de dados de texto e código, cuidadosamente selecionados para garantir alta qualidade e diversidade.

Os dados de treinamento foram processados usando o conjunto de ferramentas do Databricks, incluindo Apache Spark para processamento de dados, Unity Catalog para gerenciamento e governança de dados e MLflow para rastreamento de experimentos. Este conjunto de ferramentas abrangente permitiu à equipe do Databricks gerenciar, explorar e refinar com eficácia o enorme conjunto de dados, estabelecendo as bases para o desempenho excepcional do DBRX.

Para aprimorar ainda mais os recursos do modelo, o Databricks empregou um currículo de pré-treinamento dinâmico, variando de forma inovadora o combine de dados durante o treinamento. Essa estratégia permitiu que cada token fosse efetivamente processado usando os 36 bilhões de parâmetros ativos, resultando em um modelo mais completo e adaptável.

Além disso, o processo de treinamento do DBRX foi otimizado para eficiência, aproveitando o conjunto de ferramentas e bibliotecas proprietárias da Databricks, incluindo Composer, LLM Foundry, MegaBlocks e Streaming. Ao empregar técnicas como aprendizagem curricular e estratégias de otimização otimizadas, a equipe alcançou uma melhoria de quase quatro vezes na eficiência computacional em comparação com seus modelos anteriores.

Treinamento e Arquitetura

O DBRX foi treinado usando um modelo de previsão do próximo token em um conjunto de dados colossal de 12 trilhões de tokens, enfatizando texto e código. Acredita-se que este conjunto de treinamento seja significativamente mais eficaz do que aqueles usados em modelos anteriores, garantindo uma rica compreensão e capacidade de resposta em diversos prompts.

A arquitetura do DBRX não é apenas uma prova das proezas técnicas da Databricks, mas também destaca a sua aplicação em vários setores. Desde aprimorar as interações do chatbot até potencializar tarefas complexas de análise de dados, o DBRX pode ser integrado em diversos campos que exigem compreensão diferenciada da linguagem.

Notavelmente, o DBRX Instruct rivaliza até com alguns dos modelos fechados mais avançados do mercado. De acordo com as medições da Databricks, ele supera o GPT-3.5 e é competitivo com o Gemini 1.0 Professional e o Mistral Medium em vários benchmarks, incluindo conhecimento geral, raciocínio de bom senso, programação e raciocínio matemático.

Por exemplo, no benchmark MMLU, que mede a compreensão do idioma, o DBRX Instruct alcançou uma pontuação de 73,7%, superando a pontuação relatada do GPT-3.5 de 70,0%. No benchmark de raciocínio de bom senso HellaSwag, o DBRX Instruct obteve impressionantes 89,0%, superando os 85,5% do GPT-3.5.

O DBRX Instruct realmente brilha, alcançando uma precisão notável de 70,1% no benchmark HumanEval, superando não apenas o GPT-3.5 (48,1%), mas também o modelo especializado CodeLLaMA-70B Instruct (67,8%).

Esses resultados excepcionais destacam a versatilidade do DBRX e sua capacidade de se destacar em uma ampla gama de tarefas, desde a compreensão de linguagem pure até programação complexa e resolução de problemas matemáticos.

Inferência e escalabilidade eficientes Uma das principais vantagens da arquitetura MoE do DBRX é sua eficiência durante a inferência. Graças à ativação esparsa de parâmetros, o DBRX pode atingir uma taxa de transferência de inferência até duas a três vezes mais rápida do que modelos densos com a mesma contagem whole de parâmetros.

Comparado ao LLaMA2-70B, um in style LLM de código aberto, o DBRX não apenas demonstra maior qualidade, mas também possui quase o dobro da velocidade de inferência, apesar de ter cerca de metade dos parâmetros ativos. Esta eficiência torna o DBRX uma escolha atraente para implantação em uma ampla gama de aplicações, desde a criação de conteúdo até a análise de dados e muito mais.

Além disso, a Databricks desenvolveu uma pilha de treinamento robusta que permite às empresas treinar seus próprios modelos de classe DBRX do zero ou continuar o treinamento com base nos pontos de verificação fornecidos. Esta capacidade permite às empresas aproveitar todo o potencial do DBRX e adaptá-lo às suas necessidades específicas, democratizando ainda mais o acesso à tecnologia LLM de ponta.

O desenvolvimento do modelo DBRX pela Databricks marca um avanço significativo no campo do aprendizado de máquina, particularmente por meio da utilização de ferramentas inovadoras da comunidade de código aberto. Esta jornada de desenvolvimento é significativamente influenciada por duas tecnologias essenciais: a biblioteca MegaBlocks e o sistema Absolutely Sharded Information Parallel (FSDP) do PyTorch.

MegaBlocks: Melhorando a Eficiência do MoE

A biblioteca MegaBlocks aborda os desafios associados ao roteamento dinâmico em camadas de Mistura de Especialistas (MoEs), um obstáculo comum no dimensionamento de redes neurais. As estruturas tradicionais muitas vezes impõem limitações que reduzem a eficiência do modelo ou comprometem a qualidade do modelo. MegaBlocks, no entanto, redefine a computação do MoE por meio de operações esparsas em blocos que gerenciam habilmente o dinamismo intrínseco dentro dos MoEs, evitando assim esses compromissos.

Essa abordagem não apenas preserva a integridade do token, mas também se alinha bem com os recursos modernos da GPU, facilitando tempos de treinamento até 40% mais rápidos em comparação aos métodos tradicionais. Essa eficiência é essential para o treinamento de modelos como o DBRX, que dependem fortemente de arquiteturas avançadas de MoE para gerenciar com eficiência seus extensos conjuntos de parâmetros.

PyTorch FSDP: dimensionando modelos grandes

O Absolutely Sharded Information Parallel (FSDP) do PyTorch apresenta uma solução robusta para treinar modelos excepcionalmente grandes, otimizando a fragmentação e distribuição de parâmetros em vários dispositivos de computação. Co-projetado com os principais componentes do PyTorch, o FSDP se integra perfeitamente, oferecendo uma experiência de usuário intuitiva semelhante às configurações de treinamento native, mas em uma escala muito maior.

O design do FSDP aborda de forma inteligente diversas questões críticas:

Experiência de usuário: simplifica a interface do usuário, apesar dos processos de back-end complexos, tornando-a mais acessível para uso mais amplo.
Heterogeneidade de {hardware}: adapta-se a ambientes de {hardware} variados para otimizar a utilização de recursos de forma eficiente.
Utilização de recursos e planejamento de memória: o FSDP aprimora o uso de recursos computacionais e minimiza a sobrecarga de memória, o que é essencial para modelos de treinamento que operam na escala do DBRX.

O FSDP não apenas suporta modelos maiores do que period possível anteriormente na estrutura Distributed Information Parallel, mas também mantém escalabilidade quase linear em termos de rendimento e eficiência. Esta capacidade provou ser essencial para o DBRX da Databricks, permitindo-lhe escalar através de múltiplas GPUs enquanto gere o seu vasto número de parâmetros de forma eficaz.

Acessibilidade e Integrações

Em linha com a sua missão de promover o acesso aberto à IA, a Databricks disponibilizou o DBRX através de múltiplos canais. Os pesos do modelo básico (DBRX Base) e do modelo ajustado (DBRX Instruct) são hospedados na in style plataforma Hugging Face, permitindo que pesquisadores e desenvolvedores baixem e trabalhem facilmente com o modelo.

Além disso, o repositório do modelo DBRX está disponível no GitHub, proporcionando transparência e permitindo maior exploração e personalização do código do modelo.

Para clientes do Databricks, o DBRX Base e o DBRX Instruct são convenientemente acessíveis por meio das APIs do Databricks Basis Mannequin, permitindo uma integração perfeita em fluxos de trabalho e aplicativos existentes. Isso não apenas simplifica o processo de implantação, mas também garante governança e segurança de dados para casos de uso confidenciais.

Além disso, o DBRX já foi integrado a diversas plataformas e serviços de terceiros, como You.com e Perplexity Labs, ampliando seu alcance e aplicações potenciais. Essas integrações demonstram o crescente interesse no DBRX e seus recursos, bem como a crescente adoção de LLMs abertos em diversos setores e casos de uso.

Recursos de contexto longo e geração aumentada de recuperação Um dos recursos de destaque do DBRX é sua capacidade de lidar com entradas de contexto longo, com um comprimento máximo de contexto de 32.768 tokens. Esse recurso permite que o modelo processe e gere texto com base em extensas informações contextuais, tornando-o adequado para tarefas como resumo de documentos, resposta a perguntas e recuperação de informações.

Em benchmarks que avaliam o desempenho de contexto longo, como KV-Pairs e HotpotQAXL, o DBRX Instruct superou o GPT-3.5 Turbo em vários comprimentos de sequência e posições de contexto.

O DBRX supera os modelos de código aberto estabelecidos em compreensão de linguagem (MMLU), programação (HumanEval) e matemática (GSM8K).

Limitações e Trabalho Futuro

Embora o DBRX represente uma conquista significativa no campo dos LLMs abertos, é essencial reconhecer as suas limitações e áreas para melhorias futuras. Como qualquer modelo de IA, o DBRX pode produzir respostas imprecisas ou tendenciosas, dependendo da qualidade e diversidade dos seus dados de treinamento.

Além disso, embora o DBRX seja excelente em tarefas de uso geral, certas aplicações específicas de domínio podem exigir mais ajustes ou treinamento especializado para atingir o desempenho best. Por exemplo, em cenários onde a precisão e a fidelidade são de extrema importância, a Databricks recomenda a utilização de técnicas de geração aumentada de recuperação (RAG) para melhorar o resultado do modelo.

Além disso, o atual conjunto de dados de treinamento do DBRX consiste principalmente em conteúdo em inglês, potencialmente limitando seu desempenho em tarefas que não sejam em inglês. Futuras iterações do modelo podem envolver a expansão dos dados de formação para incluir uma gama mais diversificada de idiomas e contextos culturais.

A Databricks está empenhada em melhorar continuamente as capacidades do DBRX e resolver as suas limitações. O trabalho futuro se concentrará na melhoria do desempenho, escalabilidade e usabilidade do modelo em vários aplicativos e casos de uso, bem como na exploração de técnicas para mitigar possíveis preconceitos e promover o uso ético da IA.

Além disso, a empresa planeja refinar ainda mais o processo de treinamento, aproveitando técnicas avançadas, como aprendizado federado e métodos de preservação de privacidade, para garantir a privacidade e a segurança dos dados.

A estrada à frente

O DBRX representa um passo significativo na democratização do desenvolvimento da IA. Prevê um futuro onde cada empresa terá a capacidade de controlar os seus dados e o seu destino no mundo emergente da IA generativa.

Ao abrir o código-fonte do DBRX e fornecer acesso às mesmas ferramentas e infraestrutura usadas para construí-lo, a Databricks está capacitando empresas e pesquisadores a desenvolverem seus próprios Databricks de ponta, adaptados às suas necessidades específicas.

Através da plataforma Databricks, os clientes podem aproveitar o conjunto de ferramentas de processamento de dados da empresa, incluindo Apache Spark, Unity Catalog e MLflow, para selecionar e gerenciar seus dados de treinamento. Eles podem então utilizar as bibliotecas de treinamento otimizadas do Databricks, como Composer, LLM Foundry, MegaBlocks e Streaming, para treinar seus próprios modelos de classe DBRX com eficiência e escala.

Esta democratização do desenvolvimento da IA tem o potencial de desbloquear uma nova onda de inovação, à medida que as empresas ganham a capacidade de aproveitar o poder de grandes modelos de linguagem para uma vasta gama de aplicações, desde a criação de conteúdos e análise de dados até ao apoio à decisão e muito mais.

Além disso, ao promover um ecossistema aberto e colaborativo em torno do DBRX, a Databricks pretende acelerar o ritmo de investigação e desenvolvimento no domínio dos grandes modelos de linguagem. À medida que mais organizações e indivíduos contribuem com os seus conhecimentos e conhecimentos, o conhecimento e a compreensão colectiva destes poderosos sistemas de IA continuarão a crescer, abrindo caminho para modelos ainda mais avançados e capazes no futuro.

Conclusão

DBRX é um divisor de águas no mundo dos grandes modelos de linguagem de código aberto. Com sua arquitetura inovadora de combinação de especialistas, extensos dados de treinamento e desempenho de última geração, estabeleceu uma nova referência para o que é possível com LLMs abertos.

Ao democratizar o acesso à tecnologia de IA de ponta, o DBRX capacita pesquisadores, desenvolvedores e empresas a explorar novas fronteiras no processamento de linguagem pure, criação de conteúdo, análise de dados e muito mais. À medida que a Databricks continua a refinar e aprimorar o DBRX, as aplicações potenciais e o impacto deste modelo poderoso são verdadeiramente ilimitados.

join the future newsletter Unite AI Mobile Newsletter 1