Gigantes destilados: por que devemos repensar o desenvolvimento de pequenas IAs

Nos últimos anos, a corrida para desenvolver modelos de IA cada vez maiores cativou a indústria de tecnologia. Esses modelos, com seus bilhões de parâmetros, prometem avanços inovadores em vários campos, do processamento de linguagem pure ao reconhecimento de imagem. No entanto, essa busca incansável por tamanho vem com desvantagens significativas na forma de altos custos e impacto ambiental significativo. Embora a IA pequena ofereça uma alternativa promissora, fornecendo eficiência e menor uso de energia, a abordagem atual para construí-la ainda requer recursos substanciais. À medida que buscamos uma IA pequena e mais sustentável, explorar novas estratégias que abordem essas limitações de forma eficaz é essential.

Pequena IA: Uma solução sustentável para altos custos e demandas de energia

Desenvolver e manter grandes modelos de IA é um empreendimento caro. Estimativas sugerem que o treinamento do GPT-3 custa mais de US$ 4 milhões, com modelos mais avançados potencialmente atingindo milhões de dígitos únicos. Esses custos, incluindo {hardware}, armazenamento, poder computacional e recursos humanos necessários, são proibitivos para muitas organizações, particularmente empresas menores e instituições de pesquisa. Essa barreira financeira cria um campo de jogo desigual, limitando o acesso à tecnologia de IA de ponta e dificultando a inovação.

Além disso, as demandas de energia associadas ao treinamento de grandes modelos de IA são impressionantes. Por exemplo, estima-se que o treinamento de um grande modelo de linguagem como o GPT-3 consuma quase 1.300 megawatts-hora (MWh) de eletricidade — equivalente ao consumo anual de energia de 130 lares nos EUA. Apesar desse custo substancial de treinamento, cada solicitação do ChatGPT incorre em um custo de inferência de 2,9 watts-hora. A AIE estima que a demanda coletiva de energia de IA, information facilities e criptomoeda foi responsável por quase 2% da demanda international de energia. Essa demanda deve dobrar até 2026, aproximando-se do consumo whole de eletricidade do Japão. O alto consumo de energia não apenas aumenta os custos operacionais, mas também contribui para a pegada de carbono, piorando a crise ambiental. Para colocar em perspectiva, os pesquisadores estimam que o treinamento de um único grande modelo de IA pode emitir mais de 626.000 libras de CO2, o equivalente às emissões de cinco carros ao longo de suas vidas úteis.

Em meio a esses desafios, a Small AI fornece uma solução prática. Ela é projetada para ser mais eficiente e escalável, exigindo muito menos dados e poder computacional. Isso reduz os custos gerais e torna a tecnologia avançada de IA mais acessível a organizações menores e equipes de pesquisa. Além disso, os modelos de small AI têm menores demandas de energia, o que ajuda a cortar custos operacionais e reduz seu impacto ambiental. Ao utilizar algoritmos e métodos otimizados, como aprendizagem por transferência, a small AI pode atingir alto desempenho com menos recursos. Essa abordagem não apenas torna a IA mais acessível, mas também apoia a sustentabilidade, minimizando o consumo de energia e as emissões de carbono.

Como pequenos modelos de IA são construídos hoje

Reconhecendo as vantagens da pequena IA, grandes empresas de tecnologia como Google, OpenAI e Meta têm se concentrado cada vez mais no desenvolvimento de modelos compactos. Essa mudança levou à evolução de modelos como Gemini Flash, GPT-4o Mini e Llama 7B. Esses modelos menores são desenvolvidos principalmente usando uma técnica chamada destilação de conhecimento.

Em sua essência, a destilação envolve a transferência do conhecimento de um modelo grande e complexo para uma versão menor e mais eficiente. Nesse processo, um modelo “professor” — um grande modelo de IA — é treinado em conjuntos de dados extensos para aprender padrões e nuances intrincados. Esse modelo então gera previsões ou “rótulos suaves” que encapsulam seu profundo entendimento.

O modelo “aluno”, que é um pequeno modelo de IA, é treinado para replicar esses rótulos suaves. Ao imitar o comportamento do professor, o modelo aluno captura muito de seu conhecimento e desempenho enquanto opera com significativamente menos parâmetros.

Por que precisamos ir além da destilação de grandes IA

Embora a destilação de grandes IAs em versões pequenas e mais gerenciáveis tenha se twister uma abordagem standard para a construção de pequenas IAs, há vários motivos convincentes pelos quais essa abordagem pode não ser uma solução para todos os desafios no desenvolvimento de grandes IAs.

Dependência contínua de grandes modelos: Embora a destilação crie modelos de IA menores e mais eficientes e melhore a eficiência computacional e energética no momento da inferência, ela ainda depende muito do treinamento inicial de grandes modelos de IA. Isso significa que construir pequenos modelos de IA ainda requer recursos computacionais e energia significativos, levando a altos custos e impacto ambiental mesmo antes de ocorrer a destilação. A necessidade de treinar repetidamente grandes modelos para destilação desloca a carga de recursos em vez de eliminá-la. Embora a destilação tenha como objetivo reduzir o tamanho e as despesas dos modelos de IA, ela não elimina os custos iniciais substanciais associados ao treinamento dos grandes modelos “professores”. Essas despesas iniciais podem ser especialmente desafiadoras para organizações menores e grupos de pesquisa. Além disso, o impacto ambiental do treinamento desses grandes modelos pode anular alguns dos benefícios do uso de modelos menores e mais eficientes, pois a pegada de carbono da fase inicial de treinamento permanece considerável.
Âmbito de inovação limitado: Depender da destilação pode limitar a inovação ao focar na replicação de grandes modelos existentes em vez de explorar novas abordagens. Isso pode desacelerar o desenvolvimento de novas arquiteturas ou métodos de IA que poderiam fornecer melhores soluções para problemas específicos. A dependência de grandes IAs restringe o desenvolvimento de pequenas IAs nas mãos de algumas empresas ricas em recursos. Como resultado, os benefícios de pequenas IAs não são distribuídos uniformemente, o que pode dificultar o avanço tecnológico mais amplo e limitar as oportunidades de inovação.
Desafios de generalização e adaptação: Pequenos modelos de IA criados por meio de destilação frequentemente têm dificuldades com dados novos e inéditos. Isso acontece porque o processo de destilação pode não capturar totalmente a capacidade de generalização do modelo maior. Como resultado, embora esses modelos menores possam ter um bom desempenho em tarefas familiares, eles frequentemente encontram dificuldades ao enfrentar novas situações. Além disso, adaptar modelos destilados a novas modalidades ou conjuntos de dados frequentemente envolve retreinar ou ajustar o modelo maior primeiro. Esse processo iterativo pode ser complexo e exigir muitos recursos, tornando desafiador adaptar rapidamente pequenos modelos de IA a necessidades tecnológicas em rápida evolução ou a novas aplicações.

A linha de fundo

Embora destilar grandes modelos de IA em menores possa parecer uma solução prática, ela continua a depender dos altos custos de treinamento de grandes modelos. Para progredir genuinamente em pequenas IAs, precisamos explorar práticas mais inovadoras e sustentáveis. Isso significa criar modelos projetados para aplicações específicas, melhorar os métodos de treinamento para serem mais econômicos e eficientes em termos de energia e focar na sustentabilidade ambiental. Ao buscar essas estratégias, podemos avançar o desenvolvimento de IA de uma forma que seja responsável e benéfica para a indústria e o planeta.

Unite AI Mobile Newsletter 1