Tech

LightAutoML: solução AutoML para um grande ecossistema de serviços financeiros

LifeTechWebJune 12, 2024

0 9 minutes read

Embora o AutoML tenha ganhado popularidade há alguns anos, os primeiros trabalhos sobre o AutoML remontam ao início dos anos 90, quando os cientistas publicaram os primeiros artigos sobre otimização de hiperparâmetros. Foi em 2014, quando o ICML organizou o primeiro workshop de AutoML, que o AutoML chamou a atenção dos desenvolvedores de ML. Um dos principais focos ao longo dos anos do AutoML é o problema de pesquisa de hiperparâmetros, onde o modelo implementa uma série de métodos de otimização para determinar os hiperparâmetros de melhor desempenho em um grande espaço de hiperparâmetros para um modelo específico de aprendizado de máquina. Outro método comumente implementado por modelos AutoML é estimar a probabilidade de um hiperparâmetro específico ser o hiperparâmetro preferrred para um determinado modelo de aprendizado de máquina. O modelo consegue isso implementando métodos Bayesianos que tradicionalmente utilizam dados históricos de modelos previamente estimados e outros conjuntos de dados. Além da otimização de hiperparâmetros, outros métodos tentam selecionar os melhores modelos a partir de um espaço de alternativas de modelagem.

Neste artigo, abordaremos o LightAutoML, um sistema AutoML desenvolvido principalmente para uma empresa europeia que opera no setor financeiro juntamente com o seu ecossistema. A estrutura LightAutoML é implantada em vários aplicativos, e os resultados demonstraram desempenho superior, comparável ao nível dos cientistas de dados, mesmo durante a construção de modelos de aprendizado de máquina de alta qualidade. A estrutura LightAutoML tenta fazer as seguintes contribuições. Primeiro, a estrutura LightAutoML foi desenvolvida principalmente para o ecossistema de uma grande instituição financeira e bancária europeia. Devido à sua estrutura e arquitetura, a estrutura LightAutoML é capaz de superar as estruturas AutoML de última geração em vários benchmarks abertos, bem como em aplicativos de ecossistema. O desempenho da estrutura LightAutoML também é comparado com modelos ajustados manualmente por cientistas de dados, e os resultados indicaram um desempenho mais forte da estrutura LightAutoML.

Este artigo tem como objetivo cobrir o framework LightAutoML em profundidade e explorar o mecanismo, a metodologia, a arquitetura do framework juntamente com sua comparação com frameworks de última geração. Então vamos começar.

Embora os pesquisadores tenham começado a trabalhar no AutoML em meados e início dos anos 90, o AutoML atraiu grande parte da atenção nos últimos anos, com algumas das soluções industriais proeminentes que implementam modelos de aprendizado de máquina de construção automática são AutoGluon da Amazon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML e muito mais. A maioria dessas estruturas implementa uma solução AutoML de uso geral que desenvolve modelos baseados em ML automaticamente em diferentes lessons de aplicativos em serviços financeiros, saúde, educação e muito mais. A principal suposição por trás desta abordagem genérica horizontal é que o processo de desenvolvimento de modelos automáticos permanece idêntico em todas as aplicações. No entanto, a estrutura LightAutoML implementa uma abordagem vertical para desenvolver uma solução AutoML que não é genérica, mas que atende às necessidades de aplicações individuais, neste caso uma grande instituição financeira. A estrutura LightAutoML é uma solução AutoML vertical que se concentra nos requisitos do ecossistema complexo juntamente com suas características. Primeiro, a estrutura LightAutoML fornece pesquisa de hiperparâmetros rápida e quase preferrred. Embora o modelo não otimize esses hiperparâmetros diretamente, ele consegue entregar resultados satisfatórios. Além disso, o modelo mantém dinâmico o equilíbrio entre velocidade e otimização de hiperparâmetros, para garantir que o modelo seja preferrred em problemas pequenos e rápido o suficiente em problemas maiores. Em segundo lugar, a estrutura LightAutoML limita propositalmente a gama de modelos de aprendizado de máquina a apenas dois tipos: modelos lineares e GBMs ou árvores de decisão com gradiente aumentado, em vez de implementar grandes conjuntos de algoritmos diferentes. A principal razão por trás da limitação da gama de modelos de aprendizado de máquina é acelerar o tempo de execução da estrutura LightAutoML sem afetar negativamente o desempenho para um determinado tipo de problema e dados. Terceiro, a estrutura LightAutoML apresenta um método único de escolha de esquemas de pré-processamento para diferentes recursos usados nos modelos com base em certas regras de seleção e metaestatísticas. A estrutura LightAutoML é avaliada em uma ampla variedade de fontes de dados abertas em uma ampla variedade de aplicativos.

LightAutoML: Metodologia e Arquitetura

A estrutura LightAutoML consiste em módulos conhecidos como Presets que são dedicados ao desenvolvimento de modelo ponta a ponta para tarefas típicas de aprendizado de máquina. Atualmente, a estrutura LightAutoML oferece suporte a módulos predefinidos. Primeiro, o TabularAutoML Preset se concentra na resolução de problemas clássicos de aprendizado de máquina definidos em conjuntos de dados tabulares. Em segundo lugar, o White-Field Preset implementa algoritmos simples interpretáveis, como regressão logística em vez de WoE ou codificação de peso de evidência e recursos discretizados para resolver tarefas de classificação binária em dados tabulares. A implementação de algoritmos interpretáveis simples é uma prática comum para modelar a probabilidade de uma aplicação devido às restrições de interpretabilidade impostas por diferentes fatores. Terceiro, o NLP Preset é capaz de combinar dados tabulares com ferramentas de PNL ou processamento de linguagem pure, incluindo modelos de aprendizagem profunda pré-treinados e extratores de recursos específicos. Por fim, o CV Preset trabalha com dados de imagem com a ajuda de algumas ferramentas básicas. É importante observar que embora o modelo LightAutoML suporte todos os quatro Presets, a estrutura usa TabularAutoML apenas no sistema de nível de produção.

O pipeline típico da estrutura LightAutoML está incluído na imagem a seguir.

Cada pipeline contém três componentes. Primeiro, o Reader, um objeto que recebe o tipo de tarefa e dados brutos como entrada, realiza cálculos cruciais de metadados, limpa os dados iniciais e descobre as manipulações de dados a serem realizadas antes de ajustar diferentes modelos. Em seguida, os conjuntos de dados internos do LightAutoML contêm iteradores CV e metadados que implementam esquemas de validação para os conjuntos de dados. O terceiro componente são os vários pipelines de aprendizado de máquina empilhados e/ou combinados para obter uma única previsão. Um pipeline de aprendizado de máquina dentro da arquitetura da estrutura LightAutoML é um dos vários modelos de aprendizado de máquina que compartilham um único esquema de validação e pré-processamento de dados. A etapa de pré-processamento pode ter até duas etapas de seleção de recursos, uma etapa de engenharia de recursos ou pode estar vazia se nenhum pré-processamento for necessário. Os pipelines de ML podem ser calculados independentemente nos mesmos conjuntos de dados e depois combinados usando média (ou média ponderada). Alternativamente, um esquema de conjunto empilhado pode ser usado para construir arquiteturas de conjunto multinível.

Predefinição tabular LightAutoML

Dentro da estrutura LightAutoML, TabularAutoML é o pipeline padrão e é implementado no modelo para resolver três tipos de tarefas em dados tabulares: classificação binária, regressão e classificação multiclasse para uma ampla gama de métricas de desempenho e funções de perda. Uma tabela com as quatro colunas a seguir: recursos categóricos, recursos numéricos, carimbos de knowledge/hora e uma única coluna de destino com rótulos de classe ou valor contínuo é alimentada no componente TabularAutoML como entrada. Um dos principais objetivos por trás do design da estrutura LightAutoML foi projetar uma ferramenta para testes rápidos de hipóteses, uma das principais razões pelas quais a estrutura evita o uso de métodos de força bruta para otimização de pipeline e se concentra apenas em técnicas e modelos de eficiência que funcionam em um ampla gama de conjuntos de dados.

Digitação automática e pré-processamento de dados

Para lidar com diferentes tipos de recursos de maneiras diferentes, o modelo precisa conhecer cada tipo de recurso. Na situação em que existe uma única tarefa com um pequeno conjunto de dados, o usuário pode especificar manualmente cada tipo de recurso. No entanto, especificar cada tipo de recurso manualmente não é mais uma opção viável em situações que incluem centenas de tarefas com conjuntos de dados contendo milhares de recursos. Para a predefinição TabularAutoML, a estrutura LightAutoML precisa mapear recursos em três lessons: numérico, categoria e knowledge e hora. Uma solução simples e óbvia é usar tipos de dados de array de colunas como tipos de recursos reais, ou seja, mapear colunas float/int para recursos numéricos, carimbo de knowledge/hora ou string, que podem ser analisados como carimbo de knowledge/hora — para knowledge e hora e outros para categoria. No entanto, esse mapeamento não é o melhor devido à ocorrência frequente de tipos de dados numéricos nas colunas de categoria.

Esquemas de validação

Os esquemas de validação são um componente important das estruturas AutoML, uma vez que os dados no setor estão sujeitos a alterações ao longo do tempo, e esse elemento de mudança torna as suposições de IID ou Independente Identicamente Distribuídas irrelevantes ao desenvolver o modelo. Os modelos AutoML empregam esquemas de validação para estimar seu desempenho, pesquisar hiperparâmetros e gerar previsões fora do padrão. O pipeline TabularAutoML implementa três esquemas de validação:

Validação cruzada KFold: a validação cruzada KFold é o esquema de validação padrão para o pipeline TabularAutoML, incluindo GroupKFold para modelos comportamentais e KFold estratificado para tarefas de classificação.

Validação de validação: O esquema de validação de Holdout será implementado se o conjunto de validação for especificado.
Esquemas de validação personalizados: Esquemas de validação personalizados podem ser criados pelos usuários dependendo de seus requisitos individuais. Os esquemas de validação personalizados incluem validação cruzada e esquemas de divisão de série temporal.

Seleção de recursos

Embora a seleção de recursos seja um aspecto essential do desenvolvimento de modelos de acordo com os padrões da indústria, uma vez que facilita a redução nos custos de inferência e implementação de modelos, a maioria das soluções AutoML não se concentra muito neste problema. Pelo contrário, o pipeline TabularAutoML implementa três estratégias de seleção de recursos: Sem seleção, seleção de corte de importância e seleção direta baseada em importância. Dos três, a estratégia de seleção de recurso de seleção de corte de importância é o padrão. Além disso, existem duas maneiras principais de estimar a importância do recurso: importância da árvore baseada em divisão e importância da permutação do modelo GBM ou árvores de decisão com gradiente aumentado. O objetivo principal da seleção de limite de importância é rejeitar recursos que não são úteis para o modelo, permitindo que o modelo reduza o número de recursos sem impactar negativamente o desempenho, uma abordagem que pode acelerar a inferência e o treinamento do modelo.

2 1

A imagem acima compara diferentes estratégias de seleção em conjuntos de dados de bancos binários.

Ajuste de hiperparâmetros

O pipeline TabularAutoML implementa diferentes abordagens para ajustar hiperparâmetros com base no que é ajustado.

Ajuste de hiperparâmetro de parada antecipada seleciona o número de iterações para todos os modelos durante a fase de treinamento.
Ajuste de hiperparâmetros do sistema especialista é uma maneira simples de definir hiperparâmetros para modelos de maneira satisfatória. Isso evita que o modelo ultimate sofra uma grande diminuição na pontuação em comparação com modelos ajustados.

Estimativa Parzen Estruturada em Árvore ou TPE para GBM ou modelos de árvore de decisão com gradiente aumentado. TPE é uma estratégia de ajuste misto que é a escolha padrão no pipeline LightAutoML. Para cada estrutura GMB, a estrutura LightAutoML treina dois modelos: o primeiro obtém hiperparâmetros especializados, o segundo é ajustado para caber no orçamento de tempo.

Ajuste de hiperparâmetros de pesquisa de grade é implementado no pipeline TabularAutoML para ajustar os parâmetros de regularização de um modelo linear junto com a parada antecipada e a inicialização a quente.

O modelo ajusta todos os parâmetros maximizando a função métrica, definida pelo usuário ou padrão para a tarefa resolvida.

3 1

LightAutoML: experiência e desempenho

Para avaliar o desempenho, o TabularAutoML Preset dentro da estrutura LightAutoML é comparado com soluções de código aberto já existentes em várias tarefas e consolida o desempenho superior da estrutura LightAutoML. Primeiro, a comparação é realizada no benchmark OpenML que é avaliado em 35 conjuntos de dados de tarefas de classificação binária e multiclasse. A tabela a seguir resume a comparação da estrutura LightAutoML com os sistemas AutoML existentes.

4 1

Como pode ser visto, a estrutura LightAutoML supera todos os outros sistemas AutoML em 20 conjuntos de dados dentro do benchmark. A tabela a seguir contém a comparação detalhada no contexto do conjunto de dados, indicando que o LightAutoML oferece desempenho diferente em diferentes lessons de tarefas. Para tarefas de classificação binária, o LightAutoML apresenta desempenho inferior, enquanto para tarefas com grande quantidade de dados, a estrutura LightAutoML oferece desempenho superior.

5 1

A tabela a seguir compara o desempenho da estrutura LightAutoML com os sistemas AutoML em 15 conjuntos de dados bancários contendo um conjunto de várias tarefas de classificação binária. Como pode ser observado, o LightAutoML supera todas as soluções AutoML em 12 dos 15 conjuntos de dados, uma porcentagem de vitórias de 80.

Pensamentos finais

Neste artigo falamos sobre LightAutoML, um sistema AutoML desenvolvido principalmente para uma empresa europeia que opera no setor financeiro juntamente com o seu ecossistema. A estrutura LightAutoML é implantada em vários aplicativos, e os resultados demonstraram desempenho superior, comparável ao nível dos cientistas de dados, mesmo durante a construção de modelos de aprendizado de máquina de alta qualidade. A estrutura LightAutoML tenta fazer as seguintes contribuições. Primeiro, a estrutura LightAutoML foi desenvolvida principalmente para o ecossistema de uma grande instituição financeira e bancária europeia. Devido à sua estrutura e arquitetura, a estrutura LightAutoML é capaz de superar as estruturas AutoML de última geração em vários benchmarks abertos, bem como em aplicativos de ecossistema. O desempenho da estrutura LightAutoML também é comparado com modelos ajustados manualmente por cientistas de dados, e os resultados indicaram um desempenho mais forte da estrutura LightAutoML.

join the future newsletter Unite AI Mobile Newsletter 1