Cerebras apresenta a solução de inferência de IA mais rápida do mundo: velocidade 20x por uma fração do custo

A Cerebras Techniques, pioneira em computação de IA de alto desempenho, apresentou uma solução inovadora que está pronta para revolucionar a inferência de IA. Em 27 de agosto de 2024, a empresa anunciou o lançamento do Cerebras Inference, o serviço de inferência de IA mais rápido do mundo. Com métricas de desempenho que superam as dos sistemas tradicionais baseados em GPU, o Cerebras Inference oferece 20 vezes mais velocidade por uma fração do custo, estabelecendo um novo padrão em computação de IA.

Velocidade e eficiência de custos sem precedentes

O Cerebras Inference foi projetado para oferecer desempenho excepcional em vários modelos de IA, particularmente no segmento em rápida evolução de modelos de grandes linguagens (LLMs). Por exemplo, ele processa 1.800 tokens por segundo para o modelo Llama 3.1 8B e 450 tokens por segundo para o modelo Llama 3.1 70B. Esse desempenho não é apenas 20 vezes mais rápido do que o das soluções baseadas em GPU da NVIDIA, mas também tem um custo significativamente menor. A Cerebras oferece esse serviço a partir de apenas 10 centavos por milhão de tokens para o modelo Llama 3.1 8B e 60 centavos por milhão de tokens para o modelo Llama 3.1 70B, representando uma melhoria de 100x no preço-desempenho em comparação com as ofertas existentes baseadas em GPU.

Mantendo a precisão ao ultrapassar os limites da velocidade

Um dos aspectos mais impressionantes do Cerebras Inference é sua capacidade de manter precisão de ponta ao mesmo tempo em que oferece velocidade inigualável. Ao contrário de outras abordagens que sacrificam a precisão pela velocidade, a solução da Cerebras permanece dentro do domínio de 16 bits durante toda a execução da inferência. Isso garante que os ganhos de desempenho não ocorram às custas da qualidade das saídas do modelo de IA, um fator essential para desenvolvedores focados em precisão.

Micah Hill-Smith, cofundador e CEO da Synthetic Evaluation, destacou a importância desta conquista: “A Cerebras está entregando velocidades uma ordem de magnitude mais rápidas do que as soluções baseadas em GPU para os modelos de IA Llama 3.1 8B e 70B da Meta. Estamos medindo velocidades acima de 1.800 tokens de saída por segundo no Llama 3.1 8B e acima de 446 tokens de saída por segundo no Llama 3.1 70B – um novo recorde nesses benchmarks.”

A crescente importância da inferência de IA

A inferência de IA é o segmento de computação de IA de crescimento mais rápido, respondendo por aproximadamente 40% do mercado whole de {hardware} de IA. O advento da inferência de IA de alta velocidade, como a oferecida pela Cerebras, é semelhante à introdução da web de banda larga — desbloqueando novas oportunidades e anunciando uma nova period para aplicativos de IA. Com a Cerebras Inference, os desenvolvedores agora podem construir aplicativos de IA de última geração que exigem desempenho complexo em tempo actual, como agentes de IA e sistemas inteligentes.

Andrew Ng, fundador da DeepLearning.AI, destacou a importância da velocidade no desenvolvimento de IA: “O DeepLearning.AI tem vários fluxos de trabalho de agente que exigem a solicitação repetida de um LLM para obter um resultado. A Cerebras construiu uma capacidade de inferência impressionantemente rápida que será muito útil para tais cargas de trabalho.“

Amplo suporte da indústria e parcerias estratégicas

A Cerebras conquistou forte apoio de líderes da indústria e formou parcerias estratégicas para acelerar o desenvolvimento de aplicações de IA. Kim Branson, SVP de IA/ML na GlaxoSmithKline, um dos primeiros clientes da Cerebras, enfatizou o potencial transformador desta tecnologia: “Velocidade e escala mudam tudo.”

Outras empresas, como LiveKit, Perplexity e Meter, também expressaram entusiasmo pelo impacto que o Cerebras Inference terá em suas operações. Essas empresas estão alavancando o poder dos recursos de computação da Cerebras para criar experiências de IA mais responsivas e semelhantes às humanas, melhorar a interação do usuário em mecanismos de busca e aprimorar os sistemas de gerenciamento de rede.

Inferência Cerebras: Níveis e Acessibilidade

O Cerebras Inference está disponível em três níveis com preços competitivos: Free, Developer e Enterprise. O Free Tier fornece acesso gratuito à API com limites de uso generosos, tornando-o acessível a uma ampla gama de usuários. O Developer Tier oferece uma opção de implantação flexível e sem servidor, com modelos Llama 3.1 com preços de 10 centavos e 60 centavos por milhão de tokens. O Enterprise Tier atende a organizações com cargas de trabalho sustentadas, oferecendo modelos ajustados, acordos de nível de serviço personalizados e suporte dedicado, com preços disponíveis mediante solicitação.

Potencializando a inferência Cerebras: o Wafer Scale Engine 3 (WSE-3)

No coração do Cerebras Inference está o sistema Cerebras CS-3, alimentado pelo Wafer Scale Engine 3 (WSE-3), líder do setor. Este processador de IA é incomparável em seu tamanho e velocidade, oferecendo 7.000 vezes mais largura de banda de memória do que o H100 da NVIDIA. A escala massiva do WSE-3 permite que ele lide com muitos usuários simultâneos, garantindo velocidades alucinantes sem comprometer o desempenho. Esta arquitetura permite que a Cerebras evite as compensações que normalmente afetam os sistemas baseados em GPU, fornecendo o melhor desempenho da categoria para cargas de trabalho de IA.

Integração perfeita e API amigável ao desenvolvedor

O Cerebras Inference foi projetado com os desenvolvedores em mente. Ele apresenta uma API totalmente compatível com a OpenAI Chat Completions API, permitindo uma migração fácil com alterações mínimas no código. Essa abordagem amigável ao desenvolvedor garante que a integração do Cerebras Inference em fluxos de trabalho existentes seja a mais perfeita possível, permitindo a rápida implantação de aplicativos de IA de alto desempenho.

Cerebras Techniques: Impulsionando a inovação em todos os setores

A Cerebras Techniques não é apenas líder em computação de IA, mas também um player-chave em vários setores, incluindo saúde, energia, governo, computação científica e serviços financeiros. As soluções da empresa têm sido fundamentais para impulsionar avanços em instituições como Nationwide Laboratories, Aleph Alpha, The Mayo Clinic e GlaxoSmithKline.

Ao fornecer velocidade, escalabilidade e precisão inigualáveis, a Cerebras está permitindo que organizações em todos esses setores enfrentem alguns dos problemas mais desafiadores em IA e além. Seja acelerando a descoberta de medicamentos na área da saúde ou aprimorando capacidades computacionais em pesquisa científica, a Cerebras está na vanguarda da promoção da inovação.

Conclusão: Uma nova period para a inferência de IA

A Cerebras Techniques está definindo um novo padrão para inferência de IA com o lançamento do Cerebras Inference. Ao oferecer 20 vezes a velocidade dos sistemas tradicionais baseados em GPU por uma fração do custo, a Cerebras não está apenas tornando a IA mais acessível, mas também abrindo caminho para a próxima geração de aplicativos de IA. Com sua tecnologia de ponta, parcerias estratégicas e compromisso com a inovação, a Cerebras está pronta para liderar a indústria de IA em uma nova period de desempenho e escalabilidade sem precedentes.

Para mais informações sobre a Cerebras Techniques e para experimentar o Cerebras Inference, visite www.cerebras.ai.

join the future newsletter