Tech

A ascensão das unidades de processamento neural: aprimorando a IA generativa no dispositivo para velocidade e sustentabilidade

LifeTechWebJune 20, 2024

0 5 minutes read

A evolução da IA generativa não está apenas a remodelar a nossa interação e experiências com dispositivos de computação, mas também a redefinir a computação central. Um dos principais impulsionadores da transformação é a necessidade de operar IA generativa em dispositivos com recursos computacionais limitados. Este artigo discute os desafios que isso apresenta e como as unidades de processamento neural (NPUs) estão surgindo para resolvê-los. Além disso, o artigo apresenta alguns dos processadores NPU mais recentes que estão liderando esse campo.

Desafios da infraestrutura de IA generativa no dispositivo

A IA generativa, a força motriz por trás da síntese de imagens, geração de texto e composição musical, exige recursos computacionais substanciais. Convencionalmente, essas demandas foram atendidas através do aproveitamento dos vastos recursos das plataformas em nuvem. Embora eficaz, esta abordagem traz consigo o seu próprio conjunto de desafios para a IA generativa no dispositivo, incluindo a dependência de conectividade constante à Web e infraestrutura centralizada. Essa dependência introduz latência, vulnerabilidades de segurança e aumento do consumo de energia.

A espinha dorsal da infraestrutura de IA baseada em nuvem depende em grande parte de unidades centrais de processamento (CPUs) e unidades de processamento gráfico (GPUs) para lidar com as demandas computacionais da IA generativa. No entanto, quando aplicados à IA generativa no dispositivo, esses processadores encontram obstáculos significativos. As CPUs são projetadas para tarefas de uso geral e não possuem a arquitetura especializada necessária para a execução eficiente e de baixo consumo de energia de cargas de trabalho generativas de IA. Suas capacidades limitadas de processamento paralelo resultam em rendimento reduzido, maior latência e maior consumo de energia, tornando-os menos ideais para IA no dispositivo. Por outro lado, embora as GPUs possam se destacar no processamento paralelo, elas são projetadas principalmente para tarefas de processamento gráfico. Para executar com eficácia tarefas generativas de IA, as GPUs requerem circuitos integrados especializados, que consomem alta energia e geram calor significativo. Além disso, seu grande tamanho físico cria obstáculos para seu uso em aplicações compactas no dispositivo.

O surgimento de unidades de processamento neural (NPUs)

Em resposta aos desafios acima mencionados, as unidades de processamento neural (NPUs) estão a emergir como tecnologia transformadora para a implementação de IA generativa em dispositivos. A arquitetura das NPUs é inspirada principalmente na estrutura e função do cérebro humano, particularmente na forma como os neurônios e as sinapses colaboram para processar informações. Nas NPUs, os neurônios artificiais atuam como unidades básicas, espelhando os neurônios biológicos ao receber entradas, processá-las e produzir saídas. Esses neurônios são interligados por meio de sinapses artificiais, que transmitem sinais entre neurônios com intensidades variadas que se ajustam durante o processo de aprendizagem. Isso emula o processo de mudanças de peso sináptico no cérebro. As NPUs são organizadas em camadas; camadas de entrada que recebem dados brutos, camadas ocultas que realizam processamento intermediário e camadas de saída que geram os resultados. Essa estrutura em camadas reflete a capacidade de processamento de informações paralelas e em vários estágios do cérebro. Como a IA generativa também é construída usando uma estrutura semelhante de redes neurais artificiais, as NPUs são adequadas para gerenciar cargas de trabalho de IA generativa. Este alinhamento estrutural reduz a necessidade de circuitos integrados especializados, levando a soluções mais compactas, energeticamente eficientes, rápidas e sustentáveis.

Atendendo às diversas necessidades computacionais da IA generativa

A IA generativa abrange uma ampla gama de tarefas, incluindo síntese de imagens, geração de texto e composição musical, cada uma com seu próprio conjunto de requisitos computacionais exclusivos. Por exemplo, a síntese de imagens depende fortemente de operações matriciais, enquanto a geração de texto envolve processamento sequencial. Para atender efetivamente a essas diversas necessidades computacionais, as unidades de processamento neural (NPUs) são frequentemente integradas à tecnologia System-on-Chip (SoC) junto com CPUs e GPUs.

Cada um desses processadores oferece capacidades computacionais distintas. As CPUs são particularmente adeptas ao controle sequencial e ao imediatismo, as GPUs são excelentes no streaming de dados paralelos e as NPUs são ajustadas com precisão para operações centrais de IA, lidando com matemática escalar, vetorial e tensorial. Ao aproveitar uma arquitetura de computação heterogênea, as tarefas podem ser atribuídas aos processadores com base em seus pontos fortes e nas demandas da tarefa específica em questão.

As NPUs, sendo otimizadas para cargas de trabalho de IA, podem descarregar com eficiência tarefas generativas de IA da CPU principal. Essa transferência não apenas garante operações rápidas e com baixo consumo de energia, mas também acelera as tarefas de inferência de IA, permitindo que modelos generativos de IA funcionem com mais facilidade no dispositivo. Com as NPUs cuidando das tarefas relacionadas à IA, as CPUs e GPUs ficam livres para alocar recursos para outras funções, melhorando assim o desempenho geral do aplicativo e mantendo a eficiência térmica.

Exemplos do mundo actual de NPUs

O avanço das NPUs está ganhando impulso. Aqui estão alguns exemplos reais de NPUs:

Os NPUs Hexagon da Qualcomm foram projetados especificamente para acelerar tarefas de inferência de IA em dispositivos de baixo consumo de energia e poucos recursos. Ele foi desenvolvido para lidar com tarefas generativas de IA, como geração de texto, síntese de imagens e processamento de áudio. O Hexagon NPU está integrado às plataformas Snapdragon da Qualcomm, proporcionando execução eficiente de modelos de redes neurais em dispositivos com produtos de IA da Qualcomm.
O Neural Engine da Apple é um componente-chave dos chips das séries A e M, alimentando vários recursos baseados em IA, como Face ID, Siri e realidade aumentada (AR). O Neural Engine acelera tarefas como reconhecimento facial para identificação facial segura, processamento de linguagem pure (PNL) para Siri e rastreamento aprimorado de objetos e compreensão de cena para aplicativos de AR. Ele melhora significativamente o desempenho de tarefas relacionadas à IA em dispositivos Apple, proporcionando uma experiência de usuário perfeita e eficiente.
O NPU da Samsung é um processador especializado projetado para computação de IA, capaz de lidar com milhares de cálculos simultaneamente. Integrada aos mais recentes SoCs Samsung Exynos, que alimentam muitos telefones Samsung, esta tecnologia NPU permite cálculos de IA generativos de baixo consumo de energia e alta velocidade. A tecnologia NPU da Samsung também está integrada nas principais TVs, permitindo inovação de som baseada em IA e melhorando a experiência do usuário.
A arquitetura Da Vinci da Huawei serve como núcleo do processador Ascend AI, projetado para aprimorar o poder de computação da IA. A arquitetura aproveita um mecanismo de computação em cubo 3D de alto desempenho, tornando-a poderosa para cargas de trabalho de IA.

O resultado last

A IA generativa está transformando nossas interações com dispositivos e redefinindo a computação. O desafio de executar IA generativa em dispositivos com recursos computacionais limitados é significativo, e CPUs e GPUs tradicionais muitas vezes ficam aquém. As unidades de processamento neural (NPUs) oferecem uma solução promissora com sua arquitetura especializada projetada para atender às demandas da IA generativa. Ao integrar NPUs à tecnologia System-on-Chip (SoC) juntamente com CPUs e GPUs, podemos utilizar os pontos fortes de cada processador, levando a um desempenho de IA mais rápido, mais eficiente e sustentável nos dispositivos. À medida que as NPUs continuam a evoluir, elas estão preparadas para aprimorar os recursos de IA no dispositivo, tornando os aplicativos mais responsivos e eficientes em termos energéticos.

Unite AI Mobile Newsletter 1