Tech

Por dentro do Phi-3 Mini da Microsoft: um modelo leve de IA que supera seu peso

LifeTechWebMay 1, 2024

0 6 minutes read

A Microsoft revelou recentemente seu mais recente modelo de linguagem leve chamado Phi-3 Mini, dando início a um trio de modelos compactos de IA projetados para oferecer desempenho de última geração e ao mesmo tempo pequenos o suficiente para funcionar com eficiência em dispositivos com recursos computacionais limitados. Com apenas 3,8 bilhões de parâmetros, o Phi-3 Mini tem uma fração do tamanho de gigantes de IA como o GPT-4, mas promete igualar suas capacidades em muitas áreas importantes.

O desenvolvimento do Phi-3 Mini representa um marco significativo na busca pela democratização dos recursos avançados de IA, tornando-os acessíveis em uma gama mais ampla de {hardware}. Sua pequena área ocupada permite que ele seja implantado localmente em smartphones, tablets e outros dispositivos de ponta, superando as preocupações de latência e privacidade associadas aos modelos baseados em nuvem. Isto abre novas possibilidades para experiências inteligentes no dispositivo em vários domínios, desde assistentes virtuais e IA de conversação até assistentes de codificação e tarefas de compreensão de linguagem.

: Phi-3-mini quantizado de 4 bits rodando nativamente em um iPhone

Nos bastidores: arquitetura e treinamento

Em sua essência, Phi-3 Mini é um modelo de decodificador de transformador construído sobre uma arquitetura semelhante ao modelo Llama-2 de código aberto. Possui 32 camadas, 3.072 dimensões ocultas e 32 cabeças de atenção, com um comprimento de contexto padrão de 4.000 tokens. A Microsoft também lançou uma versão de contexto longo chamada Phi-3 Mini-128K, que estende o comprimento do contexto para impressionantes 128.000 tokens usando técnicas como LongRope.

O que diferencia o Phi-3 Mini, entretanto, é sua metodologia de treinamento. Em vez de confiar apenas na força bruta de enormes conjuntos de dados e no poder computacional, a Microsoft se concentrou na curadoria de um conjunto de dados de treinamento de alta qualidade e com raciocínio denso. Esses dados são compostos por dados da net altamente filtrados, bem como por dados sintéticos gerados por modelos de linguagem maiores.

O processo de treinamento segue uma abordagem em duas fases. Na primeira fase, o modelo é exposto a uma ampla gama de fontes da net destinadas a ensinar-lhe conhecimentos gerais e compreensão do idioma. A segunda fase combina dados da net ainda mais filtrados com dados sintéticos projetados para transmitir habilidades de raciocínio lógico e experiência em domínios de nicho.

A Microsoft se refere a essa abordagem como “regime perfect de dados”, um afastamento do tradicional “regime computacional perfect” ou “regime de treinamento excessivo” empregado por muitos modelos de linguagem de grande porte. O objetivo é calibrar os dados de treinamento para corresponderem à escala do modelo, fornecendo o nível certo de conhecimento e capacidade de raciocínio, ao mesmo tempo que deixa capacidade suficiente para outras capacidades.

Esta abordagem centrada em dados valeu a pena, pois o Phi-3 Mini alcança um desempenho notável numa ampla gama de benchmarks académicos, muitas vezes rivalizando ou superando modelos muito maiores. Por exemplo, ele pontua 69% no benchmark MMLU para aprendizagem e compreensão multitarefa e 8,38 no banco MT para raciocínio matemático – resultados que estão no mesmo nível de modelos como Mixtral 8x7B e GPT-3.5.

Segurança e Robustez

Juntamente com o seu desempenho impressionante, a Microsoft colocou uma forte ênfase na segurança e robustez no desenvolvimento do Phi-3 Mini. O modelo passou por um rigoroso processo de pós-treinamento envolvendo ajuste fino supervisionado (SFT) e otimização de preferência direta (DPO).

O estágio SFT aproveita dados altamente selecionados em diversos domínios, incluindo matemática, codificação, raciocínio, conversação, identidade de modelo e segurança. Isto ajuda a reforçar as capacidades do modelo nestas áreas, ao mesmo tempo que incute um forte sentido de identidade e comportamento ético.

O estágio DPO, por outro lado, concentra-se em desviar o modelo de comportamentos indesejados, usando respostas rejeitadas como exemplos negativos. Este processo abrange dados em formato de bate-papo, tarefas de raciocínio e esforços de IA responsável (RAI), garantindo que o Phi-3 Mini siga os princípios de IA ética e confiável da Microsoft.

Para melhorar ainda mais seu perfil de segurança, o Phi-3 Mini foi submetido a extensos testes automatizados e de equipes vermelhas em dezenas de categorias de danos RAI. Uma equipe vermelha independente da Microsoft examinou iterativamente o modelo, identificando áreas de melhoria, que foram então abordadas por meio de conjuntos de dados adicionais selecionados e retreinamento.

Esta abordagem multifacetada reduziu significativamente a incidência de respostas prejudiciais, imprecisões factuais e preconceitos, conforme demonstrado pelos benchmarks RAI internos da Microsoft. Por exemplo, o modelo apresenta baixas taxas de defeitos para continuação de conteúdo prejudicial (0,75%) e resumo (10%), bem como uma baixa taxa de falta de fundamentação (0,603), indicando que as suas respostas estão firmemente enraizadas no contexto dado.

Aplicativos e casos de uso

Com seu desempenho impressionante e medidas de segurança robustas, o Phi-3 Mini é adequado para uma ampla gama de aplicações, especialmente em ambientes com recursos limitados e cenários com latência limitada.

Uma das perspectivas mais interessantes é a implantação de assistentes virtuais inteligentes e IA de conversação diretamente em dispositivos móveis. Ao serem executados localmente, esses assistentes podem fornecer respostas instantâneas sem a necessidade de uma conexão de rede, ao mesmo tempo que garantem que os dados confidenciais permaneçam no dispositivo, abordando questões de privacidade.

As fortes habilidades de raciocínio do Phi-3 Mini também o tornam um recurso valioso para assistência de codificação e resolução de problemas matemáticos. Desenvolvedores e estudantes podem se beneficiar da conclusão de código no dispositivo, detecção de bugs e explicações, agilizando os processos de desenvolvimento e aprendizagem.

Além dessas aplicações, a versatilidade do modelo abre oportunidades em áreas como compreensão de linguagem, resumo de texto e resposta a perguntas. Seu pequeno tamanho e eficiência o tornam uma escolha atraente para incorporar recursos de IA em uma ampla gama de dispositivos e sistemas, desde eletrodomésticos inteligentes até sistemas de automação industrial.

Olhando para o futuro: Phi-3 Pequeno e Phi-3 Médio

Embora o Phi-3 Mini seja uma conquista notável por si só, a Microsoft tem planos ainda maiores para a família Phi-3. A empresa já apresentou dois modelos maiores, Phi-3 Small (7 bilhões de parâmetros) e Phi-3 Medium (14 bilhões de parâmetros), sendo que ambos deverão ampliar os limites de desempenho para modelos de linguagem compacta.

Phi-3 Small, por exemplo, aproveita um tokenizer mais avançado (tiktoken) e um mecanismo de atenção de consulta agrupada, juntamente com uma nova camada de atenção de blocos esparsos, para otimizar seu consumo de memória enquanto mantém o desempenho de recuperação de contexto longo. Também incorpora 10% adicionais de dados multilíngues, melhorando suas capacidades de compreensão e geração de idiomas em vários idiomas.

O Phi-3 Medium, por outro lado, representa um avanço significativo em escala, com 40 camadas, 40 cabeças de atenção e uma dimensão de incorporação de 5.120. Embora a Microsoft observe que alguns benchmarks podem exigir um refinamento adicional da combinação de dados de treinamento para aproveitar totalmente esse aumento de capacidade, os resultados iniciais são promissores, com melhorias substanciais em relação ao Phi-3 Small em tarefas como MMLU, TriviaQA e HumanEval.

Limitações e direções futuras

Apesar de suas capacidades impressionantes, o Phi-3 Mini, como todos os modelos de linguagem, tem suas limitações. Uma das fraquezas mais notáveis é a sua capacidade relativamente limitada de armazenar conhecimento factual, como evidenciado pelo seu desempenho inferior em benchmarks como o TriviaQA.

No entanto, a Microsoft acredita que esta limitação pode ser mitigada aumentando o modelo com capacidades de motor de busca, permitindo-lhe recuperar e raciocinar sobre informações relevantes sob demanda. Essa abordagem é demonstrada na UI do Hugging Face Chat, onde o Phi-3 Mini pode aproveitar a pesquisa para aprimorar suas respostas.

Outra área a ser melhorada são as capacidades multilíngues do modelo. Embora o Phi-3 Small tenha dado os primeiros passos ao incorporar dados multilíngues adicionais, é necessário mais trabalho para desbloquear totalmente o potencial desses modelos compactos para aplicações multilíngues.

Olhando para o futuro, a Microsoft está empenhada em desenvolver continuamente a família de modelos Phi, abordando as suas limitações e expandindo as suas capacidades. Isto pode envolver refinamentos adicionais nos dados e metodologia de treinamento, bem como a exploração de novas arquiteturas e técnicas adaptadas especificamente para modelos de linguagem compactos e de alto desempenho.

Conclusão

O Phi-3 Mini da Microsoft representa um salto significativo na democratização dos recursos avançados de IA. Ao oferecer desempenho de última geração em um pacote compacto e eficiente em termos de recursos, ele abre novas possibilidades para experiências inteligentes no dispositivo em uma ampla gama de aplicações.

A abordagem de treinamento inovadora do modelo, que enfatiza dados de alta qualidade e raciocínio denso em vez de puro poder computacional, provou ser uma virada de jogo, permitindo que o Phi-3 Mini supere bem sua classe de peso. Combinada com as suas robustas medidas de segurança e esforços contínuos de desenvolvimento, a família de modelos Phi-3 está preparada para desempenhar um papel essential na definição do futuro dos sistemas inteligentes, tornando a IA mais acessível, eficiente e confiável do que nunca.

À medida que a indústria tecnológica continua a ultrapassar os limites do que é possível com a IA, o compromisso da Microsoft com modelos leves e de alto desempenho como o Phi-3 Mini representa um afastamento refrescante da sabedoria convencional de “quanto maior, melhor”. Ao demonstrar que o tamanho não é tudo, o Phi-3 Mini tem o potencial de inspirar uma nova onda de inovação focada na maximização do valor e do impacto da IA através de curadoria inteligente de dados, design de modelo criterioso e práticas de desenvolvimento responsável.