Como o preconceito acabará com sua estratégia de IA/ML e o que fazer a respeito

'Viés' em modelos de qualquer tipo descreve uma situação em que o modelo responde imprecisamente a prompts ou dados de entrada porque não foi treinado com dados diversificados e de alta qualidade suficientes para fornecer uma resposta precisa. Um exemplo seria o recurso de desbloqueio de telefone com reconhecimento facial da Apple, que falhou em uma taxa significativamente maior para pessoas com pele mais escura, em oposição a tons mais claros. O modelo não foi treinado com imagens suficientes de pessoas de pele mais escura. Este foi um exemplo de preconceito de risco relativamente baixo, mas é exatamente por isso que a Lei de IA da UE estabeleceu requisitos para provar a eficácia (e controles) do modelo antes de ir para o mercado. Os modelos com resultados que impactam situações comerciais, financeiras, de saúde ou pessoais devem ser confiáveis, ou não serão usados.

Lidando com preconceitos com dados

Grandes volumes de dados de alta qualidade

Entre muitas práticas importantes de gerenciamento de dados, um componente-chave para superar e minimizar distorções nos modelos de IA/ML é adquirir grandes volumes de dados diversos e de alta qualidade. Isso requer colaboração com várias organizações que possuem esses dados. Tradicionalmente, a aquisição de dados e as colaborações são desafiadas por questões de privacidade e/ou proteção de IP – dados confidenciais não podem ser enviados ao proprietário do modelo, e o proprietário do modelo não pode correr o risco de vazar seu IP para um proprietário de dados. Uma solução alternativa comum é trabalhar com dados simulados ou sintéticos, que podem ser úteis, mas também têm limitações em comparação ao uso de dados reais e de contexto completo. É aqui que as tecnologias de melhoria da privacidade (PETs) fornecem as respostas tão necessárias.

Dados sintéticos: próximos, mas não exatamente

Os dados sintéticos são gerados artificialmente para imitar dados reais. Isso é difícil de fazer, mas se torna um pouco mais fácil com as ferramentas de IA. Dados sintéticos de boa qualidade devem ter as mesmas distâncias de recursos que os dados reais, ou não serão úteis. Dados sintéticos de qualidade podem ser usados para aumentar efetivamente a diversidade dos dados de treinamento, preenchendo lacunas para populações menores e marginalizadas ou para populações para as quais o fornecedor de IA simplesmente não possui dados suficientes. Os dados sintéticos também podem ser usados para abordar casos extremos que podem ser difíceis de encontrar em volumes adequados no mundo actual. Além disso, as organizações podem gerar um conjunto de dados sintéticos para satisfazer os requisitos de residência e privacidade dos dados que bloqueiam o acesso aos dados reais. Isso parece ótimo; entretanto, os dados sintéticos são apenas uma peça do quebra-cabeça, não a solução.

Uma das limitações óbvias dos dados sintéticos é a desconexão do mundo actual. Por exemplo, os veículos autónomos treinados exclusivamente com dados sintéticos enfrentarão condições reais e imprevistas das estradas. Além disso, os dados sintéticos herdam o preconceito dos dados do mundo actual usados para gerá-los – praticamente anulando o propósito da nossa discussão. Concluindo, os dados sintéticos são uma opção útil para ajustar e abordar casos extremos, mas melhorias significativas na eficácia do modelo e na minimização de vieses ainda dependem do acesso a dados do mundo actual.

Uma maneira melhor: dados reais por meio de fluxos de trabalho habilitados para PETs

PETs protegem os dados durante o uso. Quando se trata de modelos de IA/ML, eles também podem proteger o IP do modelo que está sendo executado – “dois coelhos, uma cajadada só”. As soluções que utilizam PETs oferecem a opção de treinar modelos em conjuntos de dados reais e confidenciais que não eram acessíveis anteriormente devido a questões de privacidade e segurança dos dados. Este desbloqueio de fluxos de dados para dados reais é a melhor opção para reduzir preconceitos. Mas como isso realmente funcionaria?

Por enquanto, as principais opções começam com um ambiente de computação confidencial. Em seguida, uma integração com uma solução de software program baseada em PETs que a torna pronta para uso e, ao mesmo tempo, atende aos requisitos de governança e segurança de dados que não estão incluídos em um ambiente de execução confiável (TEE) padrão. Com esta solução, os modelos e dados são todos criptografados antes de serem enviados para um ambiente computacional seguro. O ambiente pode ser hospedado em qualquer lugar, o que é importante ao atender a determinados requisitos de localização de dados. Isso significa que tanto o IP do modelo quanto a segurança dos dados de entrada são mantidos durante a computação – nem mesmo o provedor do ambiente de execução confiável tem acesso aos modelos ou dados dentro dele. Os resultados criptografados são então enviados de volta para revisão e os logs ficam disponíveis para revisão.

Esse fluxo libera dados da melhor qualidade, não importa onde estejam ou quem os possui, criando um caminho para a minimização de vieses e modelos de alta eficácia em que podemos confiar. Esse fluxo também é o que a Lei de IA da UE descrevia em seus requisitos para uma área restrita regulatória de IA.

Facilitando a conformidade ética e authorized

Adquirir dados reais e de boa qualidade é difícil. Os requisitos de privacidade e localização de dados limitam imediatamente os conjuntos de dados que as organizações podem acessar. Para que a inovação e o crescimento ocorram, os dados devem fluir para aqueles que podem extrair valor deles.

O artigo 54.º da Lei da UE sobre IA estabelece requisitos para tipos de modelos de “alto risco” em termos do que deve ser comprovado antes de poderem ser comercializados. Resumindo, as equipes precisarão usar dados do mundo actual dentro de um Sandbox Regulatório de IA para mostrar eficácia suficiente do modelo e conformidade com todos os controles detalhados no Capítulo 2 do Título III. Os controles incluem monitoramento, transparência, explicabilidade, segurança de dados, proteção de dados, minimização de dados e proteção de modelo – pense em DevSecOps + Knowledge Ops.

O primeiro desafio será encontrar um conjunto de dados do mundo actual para usar – já que se trata de dados inerentemente sensíveis para esses tipos de modelo. Sem garantias técnicas, muitas organizações podem hesitar em confiar seus dados ao fornecedor do modelo ou não serão autorizadas a fazê-lo. Além disso, a forma como a lei outline uma “sandbox regulatória de IA” é um desafio por si só. Alguns dos requisitos incluem uma garantia de que os dados sejam removidos do sistema após a execução do modelo, bem como os controles de governança, aplicação e relatórios para provar isso.

Muitas organizações tentaram usar information clear rooms (DCRs) e ambientes de execução confiáveis (TEEs) prontos para uso. Mas, por si só, estas tecnologias requerem conhecimentos e trabalho significativos para operacionalizar e cumprir os requisitos regulamentares de dados e IA.
Os DCRs são mais simples de usar, mas ainda não são úteis para necessidades mais robustas de IA/ML. Os TEEs são servidores seguros e ainda precisam de uma plataforma de colaboração integrada para serem úteis rapidamente. Isto, no entanto, identifica uma oportunidade para plataformas tecnológicas que melhoram a privacidade se integrarem com TEEs para remover esse trabalho, banalizando a configuração e utilização de uma área restrita regulatória de IA e, portanto, a aquisição e utilização de dados sensíveis.

Ao permitir a utilização de conjuntos de dados mais diversos e abrangentes de forma a preservar a privacidade, estas tecnologias ajudam a garantir que as práticas de IA e ML cumprem os padrões éticos e os requisitos legais relacionados com a privacidade dos dados (por exemplo, o RGPD e a Lei da UE sobre IA na Europa). Em resumo, embora os requisitos sejam frequentemente atendidos com grunhidos e suspiros audíveis, esses requisitos estão simplesmente nos guiando para a construção de modelos melhores nos quais podemos confiar e nos quais podemos confiar para tomadas de decisões importantes baseadas em dados, protegendo ao mesmo tempo a privacidade dos titulares dos dados usados para o desenvolvimento do modelo e personalização.

Unite AI Mobile Newsletter 1

Lidando com preconceitos com dados

Grandes volumes de dados de alta qualidade

Facilitando a conformidade ética e authorized

Share this: