Tech

Saurabh Vij, CEO e cofundador da MonsterAPI – Série de entrevistas

Saurabh Vij é o CEO e cofundador da MonsterAPI. Anteriormente, ele trabalhou como físico de partículas no CERN e reconheceu o potencial da computação descentralizada em projetos como o LHC@house.

MonsterAPI aproveita GPUs de baixo custo, desde fazendas de mineração de criptografia até information facilities ociosos menores, para fornecer infraestrutura de GPU escalonável e acessível para aprendizado de máquina, permitindo que os desenvolvedores acessem, ajustem e implantem modelos de IA com custos significativamente reduzidos, sem escrever uma única linha de código .

Antes da MonsterAPI, ele dirigiu duas startups, incluindo uma que desenvolveu um dispositivo de segurança vestível para mulheres na Índia, em colaboração com o governo da Índia e o IIT Delhi.

Você pode compartilhar a história da gênese por trás do MonsterGPT?

Nossa missão sempre foi “ajudar os desenvolvedores de software program a ajustar e implantar modelos de IA de maneira mais rápida e fácil possível”. Percebemos que existem vários desafios complexos que eles enfrentam quando desejam ajustar e implantar um modelo de IA.

Desde lidar com código até configurar contêineres Docker em GPUs e escalá-los sob demanda

E ao ritmo a que o ecossistema se transfer, apenas o ajuste fino não é suficiente. Isso precisa ser feito da maneira certa: evitando underfitting, overfitting e otimização de hiperparâmetros, incorporando métodos mais recentes como LORA e Q-LORA para realizar um ajuste fino mais rápido e econômico. Depois de ajustado, o modelo precisa ser implantado de forma eficiente.

Isso nos fez perceber que oferecer apenas uma ferramenta para uma pequena parte do pipeline não é suficiente. Um desenvolvedor precisa de todo o pipeline otimizado, juntamente com uma ótima interface com a qual esteja familiarizado. Do ajuste fino à avaliação e implantação last de seus modelos.

Fiz uma pergunta a mim mesmo: como ex-físico de partículas, entendo o profundo impacto que a IA poderia ter no trabalho científico, mas não sei por onde começar. Tenho ideias inovadoras, mas não tenho tempo para aprender todas as habilidades e nuances do aprendizado de máquina e da infraestrutura.

E se eu pudesse simplesmente conversar com uma IA, fornecer meus requisitos e fazer com que ela construísse todo o pipeline para mim, entregando o endpoint de API necessário?

Isso levou à ideia de um sistema baseado em chat para ajudar os desenvolvedores a ajustar e implantar sem esforço.

MonsterGPT é o nosso primeiro passo nesta jornada.

Existem milhões de desenvolvedores de software program, inovadores e cientistas como nós que poderiam aproveitar essa abordagem para construir modelos mais específicos de domínio para seus projetos.

Você poderia explicar a tecnologia subjacente por trás do agente de implantação baseado em GPT da API Monster?

MonsterGPT aproveita tecnologias avançadas para implantar e ajustar com eficiência Giant Language Fashions (LLMs) de código aberto, como Phi3 da Microsoft e Llama 3 da Meta.

  1. RAG com configuração de contexto: prepara automaticamente configurações com os hiperparâmetros corretos para ajustar LLMs ou implantar modelos usando APIs REST escaláveis ​​da MonsterAPI.
  2. LoRA (Low-Rank Adaptation): permite um ajuste fino eficiente, atualizando apenas um subconjunto de parâmetros, reduzindo a sobrecarga computacional e os requisitos de memória.
  3. Técnicas de quantização: utiliza GPT-Q e AWQ para otimizar o desempenho do modelo, reduzindo a precisão, o que reduz o consumo de memória e acelera a inferência sem perda significativa de precisão.
  4. vLLM Engine: fornece serviço LLM de alto rendimento com recursos como lote contínuo, kernels CUDA otimizados e algoritmos de decodificação paralela para inferência eficiente em grande escala.
  5. GPUs descentralizadas para escalabilidade e acessibilidade: nossas cargas de trabalho de ajuste fino e implantação são executadas em uma rede de GPUs de baixo custo de vários fornecedores, desde information facilities menores até nuvens de GPU emergentes, como coreweave, fornecendo custos mais baixos, alta opcionalidade e disponibilidade de GPUs para garantir processamento escalável e eficiente.

Confira este weblog mais recente para implantação do Llama 3 usando MonsterGPT:

Como isso agiliza o processo de ajuste fino e implantação?

MonsterGPT fornece uma interface de bate-papo com capacidade de entender instruções em linguagem pure para iniciar, rastrear e gerenciar trabalhos completos de ajuste e implantação. Essa capacidade abstrai muitas etapas complexas, como:

  • Construindo um pipeline de dados
  • Descobrir a infraestrutura de GPU certa para o trabalho
  • Configurando hiperparâmetros apropriados
  • Configurando o ambiente de ML com estruturas e bibliotecas compatíveis
  • Implementação de scripts de ajuste fino para ajuste fino eficiente de LoRA/QLoRA com estratégias de quantização.
  • Problemas de depuração, como falta de memória e erros no nível do código.
  • Projetar e implementar escalonamento automático de vários nós com mecanismos de serviço de alto rendimento, como vLLM para implantações LLM.

Que tipo de interface de usuário e comandos os desenvolvedores podem esperar ao interagir com a interface de bate-papo da API Monster?

A interface do usuário é uma UI de bate-papo simples na qual os usuários podem solicitar ao agente que ajuste um LLM para uma tarefa específica, como resumo, conclusão de bate-papo, geração de código, redação de weblog, and many others. e, depois de ajustado, o GPT pode ser instruído a implantar o LLM e consulte o modelo implantado na própria interface GPT. Alguns exemplos de comandos incluem:

  • Ajustar um LLM para geração de código no conjunto de dados X
  • Eu quero um modelo ajustado para escrever em blogs
  • Forneça-me um endpoint de API para o modelo Llama 3.
  • Implante um pequeno modelo para caso de uso de escrita de weblog

Isto é extremamente útil porque encontrar o modelo certo para o seu projeto muitas vezes pode se tornar uma tarefa demorada. Com novos modelos surgindo diariamente, isso pode causar muita confusão.

Como a solução Monster API se compara em termos de usabilidade e eficiência aos métodos tradicionais de implantação de modelos de IA?

A solução Monster API melhora significativamente a usabilidade e a eficiência em comparação com os métodos tradicionais de implantação de modelos de IA.

Para usabilidade:

  1. Configuração automatizada: os métodos tradicionais geralmente exigem uma extensa configuração guide de hiperparâmetros e configurações, que podem ser propensas a erros e demoradas. MonsterAPI automatiza esse processo usando RAG com contexto, simplificando a configuração e reduzindo a probabilidade de erros.
  2. APIs REST escaláveis: MonsterAPI fornece APIs REST intuitivas para implantação e ajuste fino de modelos, tornando-o acessível mesmo para usuários com experiência limitada em aprendizado de máquina. Os métodos tradicionais geralmente exigem conhecimento técnico profundo e codificação complexa para implantação.
  3. Plataforma Unificada: Integra todo o fluxo de trabalho, desde o ajuste fino até a implantação, em uma única plataforma. As abordagens tradicionais podem envolver ferramentas e plataformas díspares, levando a ineficiências e desafios de integração.

Para eficiência:

MonsterAPI oferece um pipeline simplificado para ajuste fino de LoRA com quantização integrada para utilização eficiente de memória e LLM alimentado por mecanismo vLLM servindo para alcançar alto rendimento com lote contínuo e kernels CUDA otimizados, além de um sistema econômico, escalonável e altamente disponível Nuvem de GPU descentralizada com monitoramento e registro simplificados.

Todo esse pipeline aumenta a produtividade do desenvolvedor, permitindo a criação de aplicativos LLM personalizados de nível de produção e, ao mesmo tempo, reduzindo a necessidade de habilidades técnicas complexas.

Você pode fornecer exemplos de casos de uso em que a API Monster reduziu significativamente o tempo e os recursos necessários para a implantação do modelo?

Uma empresa de consultoria de TI precisava ajustar e implantar o modelo Llama 3 para atender às necessidades de negócios de seus clientes. Sem MonsterAPI, eles precisariam de uma equipe de 2 a 3 engenheiros de MLOps com um profundo conhecimento de ajuste de hiperparâmetros para melhorar a qualidade do modelo no conjunto de dados fornecido e, em seguida, hospedar o modelo ajustado como um endpoint de API REST escalonável usando escalonamento automático e orquestração, provavelmente no Kubernetes. Além disso, para otimizar a economia do atendimento ao modelo, eles queriam usar estruturas como LoRA para ajuste fino e vLLM para atendimento do modelo, a fim de melhorar as métricas de custo e, ao mesmo tempo, reduzir o consumo de memória. Isto pode ser um desafio complexo para muitos desenvolvedores e pode levar semanas ou até meses para alcançar uma solução pronta para produção. Com o MonsterAPI, eles puderam experimentar várias execuções de ajuste fino em um dia e hospedar o modelo ajustado com a melhor pontuação de avaliação em horas, sem exigir vários recursos de engenharia com habilidades profundas de MLOps.

De que forma a abordagem da Monster API democratiza o acesso a modelos generativos de IA para pequenos desenvolvedores e startups?

Pequenos desenvolvedores e startups muitas vezes têm dificuldade para produzir e usar modelos de IA de alta qualidade devido à falta de capital e de habilidades técnicas. Nossas soluções os capacitam, reduzindo custos, simplificando processos e fornecendo ferramentas robustas sem código/low-code para implementar pipelines de IA prontos para produção.

Ao aproveitar nossa nuvem de GPU descentralizada, oferecemos recursos de GPU acessíveis e escaláveis, reduzindo significativamente a barreira de custo para implantação de modelos de alto desempenho. A configuração automatizada e o ajuste de hiperparâmetros da plataforma simplificam o processo, eliminando a necessidade de profundo conhecimento técnico.

Nossas APIs REST fáceis de usar e fluxo de trabalho integrado combinam ajuste fino e implantação em um processo único e coeso, tornando tecnologias avançadas de IA acessíveis até mesmo para aqueles com experiência limitada. Além disso, o uso de técnicas eficientes de ajuste fino e quantização de LoRA, como GPT-Q e AWQ, garante desempenho perfect em {hardware} mais barato, reduzindo ainda mais os custos iniciais.

Esta abordagem capacita pequenos desenvolvedores e startups a implementar e gerenciar modelos avançados de IA generativa de forma eficiente e eficaz.

O que você imagina como o próximo grande avanço ou recurso que a Monster API trará para a comunidade de desenvolvimento de IA?

Estamos trabalhando em alguns produtos inovadores para avançar ainda mais em nossa tese: Ajudar os desenvolvedores a personalizar e implantar modelos de maneira mais rápida, fácil e econômica.

O próximo imediato é um Full MLOps AI Assistant que realiza pesquisas sobre novas estratégias de otimização para LLMOps e as integra em fluxos de trabalho existentes para reduzir o esforço do desenvolvedor na construção de modelos novos e de melhor qualidade, ao mesmo tempo que permite personalização e implantação completas de pipelines LLM de nível de produção.

Digamos que você exact gerar 1 milhão de imagens por minuto para seu caso de uso. Isso pode ser extremamente caro. Tradicionalmente, você usaria o modelo de difusão estável e passaria horas encontrando e testando estruturas de otimização como o TensorRT para melhorar seu rendimento sem comprometer a qualidade e a latência da saída.

No entanto, com o agente MLOps da MonsterAPI, você não precisará desperdiçar todos esses recursos. O agente encontrará a melhor estrutura para suas necessidades, aproveitando otimizações como o TensorRT adaptadas ao seu caso de uso específico.

Como a Monster API planeja continuar apoiando e integrando novos modelos de código aberto à medida que surgem?

De 3 maneiras principais:

  1. Traga acesso aos modelos de código aberto mais recentes
  2. Fornece a interface mais simples para ajustes e implantações
  3. Otimize toda a pilha em termos de velocidade e custo com as estruturas e bibliotecas mais avançadas e poderosas

Nossa missão é ajudar desenvolvedores de todos os níveis de habilidade a adotarem a Gen AI com mais rapidez, reduzindo o tempo desde uma ideia até um endpoint de API bem polido e escalonável.

Continuaríamos nossos esforços para fornecer acesso às estruturas e bibliotecas mais recentes e poderosas, integradas em um fluxo de trabalho contínuo para a implementação de LLMOps de ponta a ponta. Estamos empenhados em reduzir a complexidade dos desenvolvedores com nossas ferramentas sem código, aumentando assim sua produtividade na construção e implantação de modelos de IA.

Para conseguir isso, apoiamos e integramos continuamente novos modelos de código aberto, estruturas de otimização e bibliotecas, monitorando os avanços na comunidade de IA. Mantemos uma nuvem de GPU descentralizada e escalonável e nos envolvemos ativamente com os desenvolvedores para acesso antecipado e suggestions. Ao aproveitar pipelines automatizados para integração perfeita, aprimorar APIs flexíveis e formar parcerias estratégicas com organizações de pesquisa de IA, garantimos que nossa plataforma permaneça na vanguarda.

Além disso, fornecemos documentação abrangente e suporte técnico robusto, permitindo que os desenvolvedores adotem e utilizem rapidamente os modelos mais recentes. MonsterAPI mantém os desenvolvedores na vanguarda da tecnologia de IA generativa, capacitando-os para inovar e ter sucesso.

Quais são os objetivos de longo prazo da Monster API em termos de desenvolvimento de tecnologia e alcance de mercado?

A longo prazo, queremos ajudar os 30 milhões de engenheiros de software program a se tornarem desenvolvedores de MLops com a ajuda de nosso agente de MLops e de todas as ferramentas que estamos construindo.

Isso exigiria que construíssemos não apenas um agente completo, mas também muitas tecnologias proprietárias fundamentais em torno de estruturas de otimização, métodos de conteinerização e orquestração.

Acreditamos que uma combinação de interfaces excelentes e simples, 10x mais rendimento e GPUs descentralizadas de baixo custo tem o potencial de transformar a produtividade de um desenvolvedor e, assim, acelerar a adoção do GenAI.

Todas as nossas pesquisas e esforços vão nessa direção.

Obrigado pela ótima entrevista, leitores que desejam saber mais devem visitar MonsterAPI.

Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button