Anand Kannappan, CEO e cofundador da Patronus AI

Anand Kannappan é cofundador e CEO da Patronus AI, a primeira plataforma automatizada de avaliação e segurança de IA do setor para ajudar empresas a detectar erros de LLM em escala. Anteriormente, Anand liderou esforços de explicabilidade de ML e experimentação avançada no Meta Actuality Labs.

O que inicialmente atraiu você para a ciência da computação?

Crescendo, sempre fui fascinado por tecnologia e como ela poderia ser usada para resolver problemas do mundo actual. A ideia de ser capaz de criar algo do zero usando apenas um computador e código me intrigou. À medida que me aprofundava na ciência da computação, percebi o imenso potencial que ela tem para inovação e transformação em vários setores. Esse impulso para inovar e fazer a diferença foi o que inicialmente me atraiu para a ciência da computação.

Você poderia compartilhar a história de gênese por trás do Patronus AI?

A gênese da Patronus AI é uma jornada bem interessante. Quando a OpenAI lançou o ChatGPT, ele se tornou o produto de consumo de crescimento mais rápido, acumulando mais de 100 milhões de usuários em apenas dois meses. Essa adoção massiva destacou o potencial da IA generativa, mas também trouxe à tona a hesitação que as empresas tinham em implementar a IA em um ritmo tão rápido. Muitas empresas estavam preocupadas com os erros potenciais e o comportamento imprevisível de modelos de linguagem grandes (LLMs).

Rebecca e eu nos conhecemos há anos, tendo estudado ciência da computação juntas na Universidade de Chicago. Na Meta, nós duas enfrentamos desafios na avaliação e interpretação de resultados de aprendizado de máquina — Rebecca do ponto de vista da pesquisa e eu de uma perspectiva aplicada. Quando o ChatGPT foi anunciado, nós duas vimos o potencial transformador dos LLMs, mas também entendemos a cautela que as empresas estavam exercendo.

O ponto de virada veio quando o banco de investimentos do meu irmão, Piper Sandler, decidiu proibir o acesso interno ao OpenAI. Isso nos fez perceber que, embora a IA tivesse avançado significativamente, ainda havia uma lacuna na adoção empresarial devido a preocupações com confiabilidade e segurança. Fundamos a Patronus AI para abordar essa lacuna e aumentar a confiança empresarial na IA generativa, fornecendo uma camada de avaliação e segurança para LLMs.

Você pode descrever a funcionalidade principal da plataforma da Patronus AI para avaliar e proteger LLMs?

Nossa missão é aumentar a confiança empresarial na IA generativa. Desenvolvemos a primeira plataforma de avaliação e segurança automatizada do setor especificamente para LLMs. Nossa plataforma ajuda as empresas a detectar erros em saídas de LLM em escala, permitindo que elas implantem produtos de IA com segurança e confiança.

Nossa plataforma automatiza vários processos importantes:

Pontuação:Avaliamos o desempenho do modelo em cenários do mundo actual, com foco em critérios importantes, como alucinações e segurança.
Geração de teste:Geramos automaticamente conjuntos de testes adversários em escala para avaliar rigorosamente as capacidades do modelo.
Avaliação comparativa: Comparamos diferentes modelos para ajudar os clientes a identificar o mais adequado para seus casos de uso específicos.

As empresas preferem avaliações frequentes para se adaptar a modelos, dados e necessidades do usuário em evolução. Nossa plataforma atua como um avaliador terceirizado confiável, fornecendo uma perspectiva imparcial semelhante à da Moody's no espaço de IA. Nossos primeiros parceiros incluem empresas líderes em IA como MongoDB, Databricks, Cohere e Nomic AI, e estamos em discussões com várias empresas de alto perfil em setores tradicionais para pilotar nossa plataforma.

Que tipos de erros ou “alucinações” o modelo Lynx da Patronus AI detecta nos resultados do LLM e como ele aborda esses problemas para as empresas?

Os LLMs são de fato ferramentas poderosas, mas sua natureza probabilística os torna propensos a “alucinações”, ou erros onde o modelo gera informações imprecisas ou irrelevantes. Essas alucinações são problemáticas, particularmente em ambientes de negócios de alto risco onde a precisão é crítica.

Tradicionalmente, as empresas têm confiado na inspeção handbook para avaliar as saídas do LLM, um processo que não só consome tempo, mas também não é escalável. Para agilizar isso, a Patronus AI desenvolveu o Lynx, um modelo especializado que aprimora a capacidade da nossa plataforma ao automatizar a detecção de alucinações. O Lynx, integrado à nossa plataforma, fornece cobertura de teste abrangente e garantias de desempenho robustas, com foco na identificação de erros críticos que podem impactar significativamente as operações comerciais, como cálculos financeiros incorretos ou erros em revisões de documentos legais.

Com o Lynx, mitigamos as limitações da avaliação handbook por meio de testes adversários automatizados, explorando um amplo espectro de cenários de falhas potenciais. Isso permite a detecção de problemas que podem iludir avaliadores humanos, oferecendo às empresas confiabilidade aprimorada e a confiança para implantar LLMs em aplicativos críticos.

O FinanceBench é descrito como o primeiro benchmark do setor para avaliar o desempenho do LLM em questões financeiras. Quais desafios no setor financeiro motivaram o desenvolvimento do FinanceBench?

Banco de Finanças foi desenvolvido em resposta aos desafios únicos enfrentados pelo setor financeiro na adoção de LLMs. Os aplicativos financeiros exigem um alto grau de precisão e confiabilidade, pois erros podem levar a perdas financeiras significativas ou problemas regulatórios. Apesar da promessa dos LLMs no manuseio de grandes volumes de dados financeiros, nossa pesquisa mostrou que modelos de última geração como GPT-4 e Llama 2 lutavam com questões financeiras, muitas vezes falhando em recuperar informações precisas.

O FinanceBench foi criado como um benchmark abrangente para avaliar o desempenho do LLM em contextos financeiros. Ele inclui 10.000 pares de perguntas e respostas com base em documentos financeiros disponíveis publicamente, abrangendo áreas como raciocínio numérico, recuperação de informações, raciocínio lógico e conhecimento mundial. Ao fornecer esse benchmark, pretendemos ajudar as empresas a entender melhor as limitações dos modelos atuais e identificar áreas para melhoria.

Nossa análise inicial revelou que muitos LLMs não atendem aos altos padrões exigidos para aplicações financeiras, destacando a necessidade de mais refinamento e avaliação direcionada. Com o FinanceBench, estamos fornecendo uma ferramenta valiosa para as empresas avaliarem e aprimorarem o desempenho dos LLMs no setor financeiro.

Sua pesquisa destacou que os principais modelos de IA, particularmente o GPT-4 da OpenAI, geraram conteúdo protegido por direitos autorais em taxas significativas quando solicitados com trechos de livros populares. Quais você acredita serem as implicações de longo prazo dessas descobertas para o desenvolvimento de IA e a indústria de tecnologia mais ampla, especialmente considerando os debates em andamento sobre IA e lei de direitos autorais?

A questão de modelos de IA gerando conteúdo protegido por direitos autorais é uma preocupação complexa e urgente na indústria de IA. Nossa pesquisa mostrou que modelos como o GPT-4, quando solicitados com trechos de livros populares, frequentemente reproduziam materials protegido por direitos autorais. Isso levanta questões importantes sobre direitos de propriedade intelectual e as implicações legais do uso de conteúdo gerado por IA.

A longo prazo, essas descobertas ressaltam a necessidade de diretrizes e regulamentações mais claras em torno de IA e direitos autorais. A indústria deve trabalhar para desenvolver modelos de IA que respeitem os direitos de propriedade intelectual, mantendo suas capacidades criativas. Isso pode envolver refinar conjuntos de dados de treinamento para excluir materials protegido por direitos autorais ou implementar mecanismos que detectem e impeçam a reprodução de conteúdo protegido.

A indústria de tecnologia mais ampla precisa se envolver em discussões contínuas com especialistas jurídicos, formuladores de políticas e partes interessadas para estabelecer uma estrutura que equilibre a inovação com o respeito às leis existentes. À medida que a IA continua a evoluir, é essential abordar esses desafios proativamente para garantir o desenvolvimento responsável e ético da IA.

Dada a taxa alarmante na qual LLMs de última geração reproduzem conteúdo protegido por direitos autorais, como evidenciado pelo seu estudo, quais medidas você acha que os desenvolvedores de IA e a indústria como um todo precisam tomar para lidar com essas preocupações? Além disso, como a Patronus AI planeja contribuir para criar modelos de IA mais responsáveis e legalmente compatíveis à luz dessas descobertas?

Abordar a questão de modelos de IA reproduzindo conteúdo protegido por direitos autorais requer uma abordagem multifacetada. Os desenvolvedores de IA e a indústria como um todo precisam priorizar a transparência e a responsabilidade no desenvolvimento de modelos de IA. Isso envolve:

Melhorando a seleção de dados: Garantir que os conjuntos de dados de treinamento sejam cuidadosamente selecionados para evitar materials protegido por direitos autorais, a menos que licenças apropriadas sejam obtidas.
Desenvolvendo mecanismos de detecção: Implementar sistemas que possam identificar quando um modelo de IA está gerando conteúdo potencialmente protegido por direitos autorais e fornecer aos usuários opções para modificar ou remover esse conteúdo.
Estabelecendo Padrões Industriais: Colaborar com especialistas jurídicos e partes interessadas do setor para criar diretrizes e padrões para o desenvolvimento de IA que respeitem os direitos de propriedade intelectual.

Na Patronus AI, estamos comprometidos em contribuir para o desenvolvimento responsável de IA, focando em avaliação e conformidade. Nossa plataforma inclui produtos como EnterprisePIIque ajudam as empresas a detectar e gerenciar potenciais problemas de privacidade em saídas de IA. Ao fornecer essas soluções, pretendemos capacitar as empresas a usar a IA de forma responsável e ética, ao mesmo tempo em que minimizamos os riscos legais.

Com ferramentas como EnterprisePII e FinanceBench, que mudanças você prevê na forma como as empresas implantam IA, especialmente em áreas sensíveis como finanças e dados pessoais?

Essas ferramentas oferecem às empresas a capacidade de avaliar e gerenciar resultados de IA de forma mais eficaz, especialmente em áreas sensíveis, como finanças e dados pessoais.

No setor financeiro, o FinanceBench permite que as empresas avaliem o desempenho do LLM com um alto grau de precisão, garantindo que os modelos atendam aos requisitos rigorosos de aplicativos financeiros. Isso capacita as empresas a alavancar a IA para tarefas como análise de dados e tomada de decisão com maior confiança e confiabilidade.

Da mesma forma, ferramentas como o EnterprisePII ajudam as empresas a navegar pelas complexidades da privacidade de dados. Ao fornecer insights sobre riscos potenciais e oferecer soluções para mitigá-los, essas ferramentas permitem que as empresas implantem IA de forma mais segura e responsável.

No geral, essas ferramentas estão abrindo caminho para uma abordagem mais informada e estratégica para a adoção de IA, ajudando as empresas a aproveitar os benefícios da IA e, ao mesmo tempo, minimizar os riscos associados.

Como a Patronus AI trabalha com empresas para integrar essas ferramentas em suas implantações e fluxos de trabalho de LLM existentes?

Na Patronus AI, entendemos a importância da integração perfeita quando se trata de adoção de IA. Trabalhamos em estreita colaboração com nossos clientes para garantir que nossas ferramentas sejam facilmente incorporadas em suas implantações e fluxos de trabalho de LLM existentes. Isso inclui fornecer aos clientes:

Planos de Integração Personalizados: Colaboramos com cada cliente para desenvolver planos de integração personalizados que se alinhem às suas necessidades e objetivos específicos.
Suporte abrangente:Nossa equipe fornece suporte contínuo durante todo o processo de integração, oferecendo orientação e assistência para garantir uma transição tranquila.
Treinamento e Educação:Oferecemos sessões de treinamento e recursos educacionais para ajudar os clientes a entender e utilizar totalmente nossas ferramentas, capacitando-os a aproveitar ao máximo seus investimentos em IA.

Dadas as complexidades de garantir que os resultados da IA sejam seguros, precisos e compatíveis com diversas leis, que conselho você daria aos desenvolvedores de LLMs e às empresas que desejam usá-los?

Ao priorizar a colaboração e o suporte, pretendemos tornar o processo de integração o mais simples e eficiente possível, permitindo que as empresas liberem todo o potencial das nossas soluções de IA.

As complexidades de garantir que as saídas de IA sejam seguras, precisas e compatíveis com várias leis apresentam desafios significativos. Para desenvolvedores de modelos de linguagem grandes (LLMs), a chave é priorizar a transparência e a responsabilidade durante todo o processo de desenvolvimento.

Um dos aspectos fundamentais é a qualidade dos dados. Os desenvolvedores devem garantir que os conjuntos de dados de treinamento sejam bem selecionados e livres de materials protegido por direitos autorais, a menos que devidamente licenciado. Isso não apenas ajuda a evitar potenciais problemas legais, mas também garante que a IA gere resultados confiáveis. Além disso, abordar o preconceito e a imparcialidade é essential. Ao trabalhar ativamente para identificar e mitigar preconceitos e desenvolver dados de treinamento diversos e representativos, os desenvolvedores podem reduzir o preconceito e garantir resultados justos para todos os usuários.

Procedimentos de avaliação robustos são essenciais. Implementar testes rigorosos e utilizar benchmarks como o FinanceBench pode ajudar a avaliar o desempenho e a confiabilidade dos modelos de IA, garantindo que eles atendam aos requisitos de casos de uso específicos. Além disso, considerações éticas devem estar em primeiro plano. O envolvimento com diretrizes e estruturas éticas garante que os sistemas de IA sejam desenvolvidos de forma responsável e alinhados com os valores sociais.

Para empresas que buscam alavancar LLMs, entender as capacidades da IA é essential. É importante definir expectativas realistas e garantir que a IA seja usada efetivamente dentro da organização. Integração e suporte perfeitos também são vitais. Ao trabalhar com parceiros confiáveis, as empresas podem integrar soluções de IA em fluxos de trabalho existentes e garantir que suas equipes sejam treinadas e apoiadas para alavancar a IA efetivamente.

Conformidade e segurança devem ser priorizadas, com foco na adesão a regulamentações relevantes e leis de proteção de dados. Ferramentas como o EnterprisePII podem ajudar a monitorar e gerenciar riscos potenciais. O monitoramento contínuo e a avaliação common do desempenho da IA também são necessários para manter a precisão e a confiabilidade, permitindo ajustes conforme necessário.

Obrigado pela ótima entrevista. Os leitores que desejarem saber mais devem visitar o Patronus AI.

Unite AI Mobile Newsletter 1