Tech

Qwen2 – O mais recente modelo de linguagem multilíngue do Alibaba desafia SOTA como Llama 3

Após meses de antecipação, a equipe Qwen do Alibaba finalmente revelou o Qwen2 – a próxima evolução de sua poderosa série de modelos de linguagem. Qwen2 representa um salto significativo, ostentando avanços de ponta que poderiam potencialmente posicioná-lo como a melhor alternativa ao célebre modelo Llama 3 da Meta. Neste aprofundamento técnico, exploraremos os principais recursos, benchmarks de desempenho e técnicas inovadoras que tornam o Qwen2 um concorrente formidável no domínio dos grandes modelos de linguagem (LLMs).

Ampliação: Apresentando a linha de modelos Qwen2

No centro do Qwen2 está uma linha diversificada de modelos adaptados para atender às diversas demandas computacionais. A série abrange cinco tamanhos de modelos distintos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e o carro-chefe Qwen2-72B. Essa gama de opções atende a um amplo espectro de usuários, desde aqueles com recursos de {hardware} modestos até aqueles com acesso a infraestrutura computacional de ponta.

Um dos recursos de destaque do Qwen2 são seus recursos multilíngues. Embora o modelo Qwen1.5 anterior se destacasse em inglês e chinês, o Qwen2 foi treinado em dados que abrangem impressionantes 27 idiomas adicionais. Este regime de formação multilingue inclui línguas de diversas regiões, como a Europa Ocidental, a Europa Oriental e Central, o Médio Oriente, a Ásia Oriental e o Sul da Ásia.

Idiomas suportados por modelos Qwen2, categorizados por regiões geográficas

Ao expandir o seu repertório linguístico, o Qwen2 demonstra uma capacidade excepcional de compreender e gerar conteúdo numa vasta gama de línguas, tornando-o uma ferramenta inestimável para aplicações globais e comunicação intercultural.

Tabela comparando modelos Qwen2 por parâmetros, parâmetros não incorporados, GQA, incorporação de empate e comprimento de contexto

Especificações dos modelos Qwen2, incluindo parâmetros, GQA e comprimento do contexto.

Abordando a troca de código: um desafio multilíngue

Em contextos multilingues, o fenómeno da troca de códigos – a prática de alternar entre diferentes línguas numa única conversa ou expressão – é uma ocorrência comum. Qwen2 foi meticulosamente treinado para lidar com cenários de troca de código, reduzindo significativamente os problemas associados e garantindo transições suaves entre idiomas.

Avaliações usando prompts que normalmente induzem a troca de código confirmaram a melhoria substancial do Qwen2 neste domínio, uma prova do compromisso do Alibaba em fornecer um modelo de linguagem verdadeiramente multilíngue.

Excelência em codificação e matemática

Qwen2 possui capacidades notáveis ​​nos domínios da codificação e da matemática, áreas que tradicionalmente representam desafios para os modelos de linguagem. Ao aproveitar extensos conjuntos de dados de alta qualidade e metodologias de treinamento otimizadas, o Qwen2-72B-Instruct, a variante ajustada por instrução do modelo principal, exibe excelente desempenho na resolução de problemas matemáticos e tarefas de codificação em várias linguagens de programação.

Estendendo a compreensão do contexto

Uma das características mais impressionantes do Qwen2 é a sua capacidade de compreender e processar sequências de contexto estendidas. Embora a maioria dos modelos de linguagem tenha dificuldade com texto de formato longo, os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct foram projetados para lidar com comprimentos de contexto de até 128 mil tokens.

Esta capacidade notável é um divisor de águas para aplicações que exigem uma compreensão profunda de documentos extensos, como contratos legais, documentos de pesquisa ou manuais técnicos densos. Ao processar eficazmente contextos estendidos, o Qwen2 pode fornecer respostas mais precisas e abrangentes, abrindo novas fronteiras no processamento de linguagem pure.

Gráfico mostrando a precisão da recuperação de fatos dos modelos Qwen2 em diferentes comprimentos de contexto e profundidades de documentos

Precisão dos modelos Qwen2 na recuperação de fatos de documentos em diversos comprimentos de contexto e profundidades de documentos.

Este gráfico mostra a capacidade dos modelos Qwen2 de recuperar fatos de documentos de vários comprimentos e profundidades de contexto.

Inovações arquitetônicas: atenção a consultas de grupo e incorporações otimizadas

Sob o capô, o Qwen2 incorpora diversas inovações arquitetônicas que contribuem para seu desempenho excepcional. Uma dessas inovações é a adoção do Group Question Consideration (GQA) em todos os tamanhos de modelo. O GQA oferece velocidades de inferência mais rápidas e uso reduzido de memória, tornando o Qwen2 mais eficiente e acessível a uma gama mais ampla de configurações de {hardware}.

Além disso, o Alibaba otimizou os embeddings para modelos menores da série Qwen2. Ao vincular os embeddings, a equipe conseguiu reduzir o consumo de memória desses modelos, permitindo sua implantação em {hardware} menos potente e, ao mesmo tempo, mantendo um desempenho de alta qualidade.

Benchmarking Qwen2: superando modelos de última geração

Qwen2 tem um desempenho notável em uma ampla gama de benchmarks. Avaliações comparativas revelam que o Qwen2-72B, o maior modelo da série, supera os principais concorrentes, como o Llama-3-70B, em áreas críticas, incluindo compreensão da linguagem pure, aquisição de conhecimento, proficiência em codificação, habilidades matemáticas e habilidades multilíngues.

Gráficos comparando Qwen2-72B-Instruct e Llama3-70B-Instruct na codificação em várias linguagens de programação e em matemática em diferentes exames

Qwen2-72B-Instruct versus Llama3-70B-Instruct em codificação e desempenho matemático

Apesar de ter menos parâmetros do que seu antecessor, Qwen1.5-110B, o Qwen2-72B exibe desempenho superior, uma prova da eficácia dos conjuntos de dados meticulosamente selecionados e das metodologias de treinamento otimizadas do Alibaba.

Segurança e Responsabilidade: Alinhando-se com os Valores Humanos

Qwen2-72B-Instruct foi rigorosamente avaliado por sua capacidade de lidar com consultas potencialmente prejudiciais relacionadas a atividades ilegais, fraude, pornografia e violações de privacidade. Os resultados são encorajadores: o Qwen2-72B-Instruct tem um desempenho comparável ao altamente conceituado modelo GPT-4 em termos de segurança, exibindo proporções significativamente mais baixas de respostas prejudiciais em comparação com outros modelos grandes como o Mistral-8x22B.

Esta conquista sublinha o compromisso da Alibaba em desenvolver sistemas de IA que se alinhem com os valores humanos, garantindo que o Qwen2 não seja apenas poderoso, mas também confiável e responsável.

Compromisso de licenciamento e código aberto

Num movimento que amplifica ainda mais o impacto do Qwen2, o Alibaba adotou uma abordagem de código aberto para o licenciamento. Embora Qwen2-72B e seus modelos ajustados por instrução mantenham a licença Qianwen unique, os modelos restantes – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B e Qwen2-57B-A14B – foram licenciados sob a licença permissiva Apache 2.0 .

Espera-se que esta maior abertura acelere a aplicação e o uso comercial dos modelos Qwen2 em todo o mundo, promovendo a colaboração e a inovação dentro da comunidade international de IA.

Uso e implementação

Usar modelos Qwen2 é simples, graças à sua integração com estruturas populares como Hugging Face. Aqui está um exemplo de uso de Qwen2-7B-Chat-beta para inferência:

from transformers import AutoModelForCausalLM, AutoTokenizer
gadget = "cuda" # the gadget to load the mannequin onto
mannequin = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
immediate = "Give me a brief introduction to giant language fashions."
messages = ({"position": "consumer", "content material": immediate})
textual content = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer((textual content), return_tensors="pt").to(gadget)
generated_ids = mannequin.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = (output_ids(len(input_ids):) for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids))
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)(0)
print(response)

Este trecho de código demonstra como configurar e gerar texto usando o modelo Qwen2-7B-Chat. A integração com Hugging Face torna-o acessível e fácil de experimentar.

Qwen2 vs. Llama 3: uma análise comparativa

Embora Qwen2 e Meta's Llama 3 sejam modelos de linguagem formidáveis, eles apresentam pontos fortes e vantagens distintas.

Gráfico de comparação de desempenho de Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B em vários benchmarks

Um gráfico comparativo de desempenho de Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B em vários benchmarks, incluindo MMLU, MMLU-Professional, GPQA e outros.

Aqui está uma análise comparativa para ajudá-lo a entender suas principais diferenças:

Capacidades multilíngues: Qwen2 tem uma clara vantagem em termos de suporte multilíngue. Seu treinamento em dados abrangendo 27 idiomas adicionais, além do inglês e do chinês, permite que a Qwen2 se destaque na comunicação intercultural e em cenários multilíngues. Em contraste, as capacidades multilingues do Llama 3 são menos pronunciadas, limitando potencialmente a sua eficácia em diversos contextos linguísticos.

Proficiência em codificação e matemática: Tanto o Qwen2 quanto o Llama 3 demonstram habilidades matemáticas e de codificação impressionantes. No entanto, o Qwen2-72B-Instruct parece ter uma ligeira vantagem, devido ao seu treinamento rigoroso em conjuntos de dados extensos e de alta qualidade nesses domínios. O foco do Alibaba em melhorar as capacidades do Qwen2 nessas áreas poderia dar-lhe uma vantagem para aplicações especializadas que envolvem codificação ou resolução de problemas matemáticos.

Compreensão de contexto longo: Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct apresentam uma capacidade impressionante de lidar com comprimentos de contexto de até 128 mil tokens. Esse recurso é particularmente valioso para aplicações que exigem conhecimento profundo de documentos extensos ou materiais técnicos densos. O Llama 3, embora seja capaz de processar sequências longas, pode não corresponder ao desempenho do Qwen2 nesta área específica.

Embora o Qwen2 e o Llama 3 apresentem desempenho de última geração, a linha diversificada de modelos do Qwen2, variando de parâmetros de 0,5B a 72B, oferece maior flexibilidade e escalabilidade. Essa versatilidade permite aos usuários escolher o tamanho do modelo que melhor se adapta aos seus recursos computacionais e requisitos de desempenho. Além disso, os esforços contínuos da Alibaba para escalar o Qwen2 para modelos maiores poderiam melhorar ainda mais as suas capacidades, ultrapassando potencialmente o Llama 3 no futuro.

Implantação e integração: simplificando a adoção do Qwen2

Para facilitar a ampla adoção e integração do Qwen2, o Alibaba tomou medidas proativas para garantir uma implantação perfeita em várias plataformas e estruturas. A equipe Qwen colaborou estreitamente com vários projetos e organizações de terceiros, permitindo que o Qwen2 fosse aproveitado em conjunto com uma ampla gama de ferramentas e estruturas.

Ajuste fino e quantização: Projetos de terceiros, como Axolotl, Llama-Manufacturing facility, Firefly, Swift e XTuner, foram otimizados para oferecer suporte ao ajuste fino de modelos Qwen2, permitindo que os usuários adaptem os modelos às suas tarefas e conjuntos de dados específicos. Além disso, ferramentas de quantização como AutoGPTQ, AutoAWQ e Neural Compressor foram adaptadas para funcionar com Qwen2, facilitando a implantação eficiente em dispositivos com recursos limitados.

Implantação e Inferência: Os modelos Qwen2 podem ser implantados e servidos usando uma variedade de estruturas, incluindo vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino e TGI. Essas estruturas oferecem pipelines de inferência otimizados, permitindo a implantação eficiente e escalonável do Qwen2 em ambientes de produção.

Plataformas API e Execução Native: Para desenvolvedores que buscam integrar o Qwen2 em seus aplicativos, plataformas API como Collectively, Fireworks e OpenRouter fornecem acesso conveniente aos recursos dos modelos. Alternativamente, a execução native é suportada por estruturas como MLX, Llama.cpp, Ollama e LM Studio, permitindo que os usuários executem Qwen2 em suas máquinas locais enquanto mantêm o controle sobre a privacidade e segurança dos dados.

Estruturas de agente e RAG: O suporte do Qwen2 para uso de ferramentas e recursos de agente é reforçado por estruturas como LlamaIndex, CrewAI e OpenDevin. Essas estruturas permitem a criação de agentes de IA especializados e a integração do Qwen2 em pipelines de geração aumentada de recuperação (RAG), expandindo a gama de aplicações e casos de uso.

Olhando para o Futuro: Desenvolvimentos e Oportunidades Futuras

A visão do Alibaba para o Qwen2 vai muito além do lançamento atual. A equipe está treinando ativamente modelos maiores para explorar as fronteiras do escalonamento de modelos, complementados por esforços contínuos de escalonamento de dados. Além disso, estão em andamento planos para estender o Qwen2 ao domínio da IA ​​multimodal, permitindo a integração de capacidades de visão e compreensão de áudio.

À medida que o ecossistema de IA de código aberto continua a prosperar, o Qwen2 desempenhará um papel elementary, servindo como um recurso poderoso para investigadores, desenvolvedores e organizações que procuram avançar o estado da arte em processamento de linguagem pure e inteligência synthetic.

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Verifique também
Close
Back to top button