Tech

DeepMind apresenta o algoritmo JEST: tornando o treinamento de modelos de IA mais rápido, barato e ecológico

A IA generativa está fazendo avanços incríveis, transformando áreas como medicina, educação, finanças, arte, esportes, and many others. Esse progresso vem principalmente da capacidade aprimorada da IA ​​de aprender com conjuntos de dados maiores e construir modelos mais complexos com bilhões de parâmetros. Embora esses avanços tenham impulsionado descobertas científicas significativas, criado novas oportunidades de negócios e levado ao crescimento industrial, eles têm um custo alto, especialmente considerando os impactos financeiros e ambientais do treinamento desses modelos em larga escala. Os algoritmos de aprendizado precisam de poder computacional significativo para treinar modelos de IA generativa com grandes conjuntos de dados, o que leva a um alto consumo de energia e a uma notável pegada de carbono.

Enquanto esforços anteriores para tornar a IA generativa sustentável se concentraram em melhorar a eficiência do {hardware} para treinamento de IA e desenvolver modelos menores com menos parâmetros, o Google DeepMind adotou uma abordagem inovadora, visando melhorar a eficiência do algoritmo de treinamento de IA generativa. Eles foram pioneiros em um novo algoritmo, JEST (Joint Instance Choice), que opera 13 vezes mais rápido e é dez vezes mais eficiente em termos de energia do que as técnicas atuais.

Neste artigo, exploramos os desafios do treinamento de IA e como o JEST aborda essas questões. Além disso, consideramos as implicações mais amplas e as futuras direções de pesquisa para o algoritmo JEST, prevendo seu impacto potencial além de melhorar a velocidade, a eficiência de custos e a compatibilidade ambiental no treinamento de IA.

Desafios do treinamento em IA: altos custos e impacto ambiental

O treinamento de modelos de IA generativa apresenta desafios significativos devido aos altos custos e ao impacto ambiental substancial.

  • Custos financeiros: Treinar modelos de IA generativos é um esforço caro. Estimativas recentes indicam que treinar um único modelo grande, como o GPT-3 da OpenAI com 175 bilhões de parâmetros, pode custar cerca de US$ 4,6 milhões. Estima-se que treinar o ChatGPT-4 tenha custado à OpenAI aproximadamente US$ 100 milhões. Essas despesas são amplamente atribuídas aos enormes recursos computacionais, ao processamento extensivo de dados e aos longos tempos de treinamento necessários.
  • Consumo de energia: Os processos de treinamento de IA generativa são extremamente intensivos em energia. O treinamento desses modelos envolve milhares de GPUs e consome vários gigawatts-hora de energia, tornando o processo extremamente intensivo em energia. Os knowledge facilities, que abrigam a infraestrutura de computação para treinamento de IA, consomem cerca de 200 terawatts-hora (TWh) de eletricidade anualmente, aproximadamente 1% da demanda world de eletricidade. Um relatório da McKinsey prevê que o consumo de energia do knowledge heart nos EUA pode aumentar de 17 gigawatts (GW) em 2017 para 35 GW até 2030, necessitando da produção equivalente a nove Represas Hoover para atender a essa demanda adicional.
  • Pegada de carbono: O alto consumo de energia do treinamento de modelos de IA generativos contribui significativamente para as emissões de gases de efeito estufa, agravando as mudanças climáticas. Um estudo da Universidade de Massachusetts Amherst descobriu que treinar um grande modelo de IA pode emitir tanto dióxido de carbono quanto cinco carros ao longo de suas vidas úteis. Especificamente, treinar um único modelo de IA pode emitir mais de 626.000 libras de CO2, o equivalente à pegada de carbono de 315 voos transamericanos.

Esses desafios decorrem principalmente de duas fontes principais: a dependência de {hardware} computacional de alto consumo de energia e a ineficiência dos algoritmos de treinamento atuais. Embora a comunidade de IA tenha feito progressos no desenvolvimento de {hardware} com eficiência energética, é preciso dar mais ênfase à criação de algoritmos mais inteligentes que possam otimizar o uso de dados e reduzir os tempos de treinamento. O algoritmo JEST recentemente introduzido pelo Google é pioneiro em pesquisas para tornar os algoritmos de treinamento mais inteligentes. Ao selecionar de forma inteligente os dados que importam, o JEST aprimora significativamente a eficiência do treinamento de IA, abrindo caminho para um treinamento mais sustentável e econômico de modelos de IA generativos.

Compreendendo o algoritmo JEST

O JEST é um algoritmo de aprendizado projetado para treinar modelos de IA generativa multimodal de forma mais eficiente. Para entender como o JEST funciona, pense no treinamento de IA como a solução de um quebra-cabeça complexo, onde cada peça (ponto de dados) ajuda a construir a imagem completa (modelo de IA). O JEST atua como um solucionador de quebra-cabeças experiente, tornando o processo mais eficiente. Assim como um solucionador de quebra-cabeças escolhe as peças mais importantes e distintas, o JEST identifica e seleciona os lotes de dados mais valiosos do conjunto de dados, garantindo que cada lote desempenhe um papel essential no desenvolvimento de IA.

O JEST emprega um modelo de IA menor para avaliar a qualidade dos lotes de dados. Esses lotes são então classificados com base em sua eficácia no treinamento do modelo. Com esses lotes cuidadosamente escolhidos, o JEST os monta estrategicamente para treinar o modelo. Assim como um solucionador de quebra-cabeças organiza as peças do quebra-cabeça para maximizar a eficiência e a coerência, o JEST acelera significativamente o processo de treinamento priorizando e selecionando os lotes mais informativos.

Uma parte basic da abordagem do JEST é o aprendizado contrastivo multimodal. Essa técnica se concentra em aprender a correspondência entre diferentes tipos de dados, como texto e imagens. O JEST emprega um método baseado em aprendizado contrastivo multimodal para avaliar a eficácia de uma amostra de dados multimodais no treinamento do modelo. Além da eficácia de amostras de dados individuais, o JEST também avalia a capacidade de aprendizado coletivo de amostras de dados para selecionar um pequeno lote de dados de um “superlote” maior. Esse processo ajuda o JEST a selecionar e priorizar lotes que oferecem desafios e ricas oportunidades de aprendizado.

Olhando para o futuro: JEST além do treinamento de IA mais rápido, barato e ecológico

À medida que exploramos as implicações futuras do JEST (Joint Instance Choice), fica evidente que suas contribuições vão além de apenas acelerar o treinamento de IA, cortar custos e promover a sustentabilidade ambiental. Aqui, nos aprofundamos em como o JEST pode continuar a melhorar e transformar o campo da IA ​​generativa:

  • Desempenho e precisão aprimorados do modelo: A abordagem inovadora da JEST para seleção e priorização de dados leva a tempos de treinamento mais rápidos e desempenho de modelo aprimorado. Ao focar nos lotes de dados mais informativos, a JEST garante que os modelos de IA sejam treinados em entradas de alta qualidade, melhorando sua precisão e robustez. Essa vantagem é essential em aplicações onde precisão e confiabilidade são primordiais, como diagnósticos médicos, previsões financeiras e sistemas autônomos.
  • Identificação e mitigação de vieses em dados: A IA é propensa a conjuntos de dados tendenciosos onde certos grupos ou perspectivas são sub-representados ou mal representados. A abordagem de seleção de dados do JEST envolve avaliar a qualidade e a informatividade dos lotes de dados. Ao priorizar amostras de dados diversas e representativas, o JEST pode ajudar os sistemas de IA a aprender com um conjunto de dados mais equilibrado, reduzindo assim os vieses nos dados de treinamento. Por exemplo, em aplicações de IA de saúde, o JEST pode selecionar lotes de dados abrangendo vários fatores demográficos, garantindo que os modelos de diagnóstico médico sejam treinados em diversas populações de pacientes. Essa seleção reduz o risco de vieses que podem afetar desproporcionalmente certos grupos com base em raça, gênero ou standing socioeconômico.
  • Facilitando a inovação e a pesquisa: Ao reduzir significativamente os recursos computacionais e o tempo necessários para o treinamento do modelo de IA, o JEST reduz as barreiras de entrada para pesquisadores e inovadores. Essa acessibilidade promove um ecossistema mais vibrante de desenvolvimento de IA, onde equipes e organizações menores podem experimentar e implementar soluções avançadas de IA. Além disso, os ganhos de eficiência oferecidos pelo JEST liberam recursos que podem ser redirecionados para explorar novas fronteiras em IA, como novas arquiteturas, algoritmos avançados e estruturas éticas de IA.
  • Promovendo o desenvolvimento inclusivo da IA: O desenvolvimento de IA deve envolver diversas perspectivas e contribuições para efetivamente mitigar vieses e preocupações éticas. A capacidade do JEST de selecionar dados com base em seu valor informativo e representatividade incentiva práticas inclusivas na curadoria de conjuntos de dados. Os desenvolvedores de IA podem garantir que o JEST aborde efetivamente vieses e considerações éticas envolvendo equipes multidisciplinares na definição de critérios de seleção de dados, incluindo especialistas em ética, ciências sociais e campos específicos de domínio. Essa abordagem colaborativa promove um desenvolvimento mais inclusivo e responsável de tecnologias de IA.

A linha de fundo

A introdução do algoritmo JEST pela DeepMind representa um salto significativo no treinamento de IA generativa. Ao acelerar significativamente os processos de treinamento e reduzir o consumo de energia, o JEST oferece economias de custo substanciais e aborda preocupações ambientais vinculadas ao desenvolvimento de IA. Além dessas vantagens, o JEST tem o potencial de melhorar a precisão do modelo, mitigar vieses de dados, promover a inovação e encorajar o desenvolvimento de IA inclusiva. O refinamento e a aplicação contínuos do JEST estão prontos para redefinir o futuro da IA, avançando em direção a soluções de IA mais eficientes, sustentáveis ​​e eticamente responsáveis.

Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button