Tech

Steven Hillion, vice-presidente sênior de dados e IA da Astronomer – Série de entrevistas

LifeTechWebJune 24, 2024

0 10 minutes read

Steven Hillion é vice-presidente sênior de dados e IA da Astronomer, onde aproveita sua extensa formação acadêmica em pesquisa matemática e mais de 15 anos de experiência no desenvolvimento de plataformas de aprendizado de máquina no Vale do Silício. Na Astronomer, ele lidera a criação de recursos do Apache Airflow projetados especificamente para equipes de ML e IA e supervisiona a equipe interna de ciência de dados. Sob sua liderança, a Astronomer avançou em sua moderna plataforma de orquestração de dados, aprimorando significativamente seus recursos de pipeline de dados para oferecer suporte a uma ampla gama de fontes de dados e tarefas por meio de aprendizado de máquina.

Você pode compartilhar algumas informações sobre sua jornada na ciência de dados e IA e como ela moldou sua abordagem para liderar equipes de engenharia e análise?

Tive formação em investigação matemática em Berkeley antes de me mudar para Silicon Valley e trabalhar como engenheiro numa série de start-ups de sucesso. Fiquei feliz por deixar para trás a política e a burocracia da academia, mas descobri em poucos anos que sentia falta da matemática. Então, mudei para o desenvolvimento de plataformas para aprendizado de máquina e análise, e foi basicamente isso que fiz desde então.

A minha formação em matemática pura resultou numa preferência pelo que os cientistas de dados chamam de “parcimónia” – a ferramenta certa para o trabalho e nada mais. Como os matemáticos tendem a preferir soluções elegantes a máquinas complexas, sempre tentei enfatizar a simplicidade ao aplicar o aprendizado de máquina a problemas de negócios. O aprendizado profundo é ótimo para algumas aplicações – grandes modelos de linguagem são ótimos para resumir documentos, por exemplo – mas às vezes um modelo de regressão simples é mais apropriado e mais fácil de explicar.

Tem sido fascinante ver a mudança no papel do cientista de dados e do engenheiro de software program nos últimos vinte anos, desde que o aprendizado de máquina se generalizou. Tendo desempenhado as duas funções, estou ciente da importância do ciclo de vida de desenvolvimento de software program (especialmente automação e teste) aplicado a projetos de aprendizado de máquina.

Quais são os maiores desafios na movimentação, processamento e análise de dados não estruturados para IA e grandes modelos de linguagem (LLMs)?

No mundo da IA Generativa, seus dados são seu ativo mais valioso. Os modelos estão cada vez mais comoditizados, então seu diferencial é todo aquele conhecimento institucional arduamente conquistado, capturado em seus conjuntos de dados proprietários e selecionados.

Fornecer os dados certos no momento certo impõe altas demandas aos seus pipelines de dados — e isso se aplica tanto a dados não estruturados quanto a dados estruturados, ou talvez mais. Muitas vezes você está ingerindo dados de muitas fontes diferentes, em muitos formatos diferentes. Você precisa de acesso a uma variedade de métodos para descompactar os dados e prepará-los para uso na inferência ou no treinamento de modelos. Você também precisa entender a procedência dos dados e onde eles vão para “mostrar o seu trabalho”.

Se você só faz isso de vez em quando para treinar um modelo, tudo bem. Você não precisa necessariamente operacionalizá-lo. Se você usa o modelo diariamente para entender o sentimento do cliente em fóruns on-line ou para resumir e encaminhar faturas, ele começa a se parecer com qualquer outro pipeline de dados operacionais, o que significa que você precisa pensar na confiabilidade e na reprodutibilidade. Ou se você ajusta o modelo regularmente, precisa se preocupar com o monitoramento da precisão e do custo.

A boa notícia é que os engenheiros de dados desenvolveram uma excelente plataforma, o Airflow, para gerenciar pipelines de dados, que já foi aplicada com sucesso ao gerenciamento de implantação e monitoramento de modelos por algumas das equipes de ML mais sofisticadas do mundo. Portanto, os modelos podem ser novos, mas a orquestração não.

Você pode explicar melhor o uso de dados sintéticos para ajustar modelos menores para obter precisão? Como isso se compara ao treinamento de modelos maiores?

É uma técnica poderosa. Você pode pensar nos melhores modelos de linguagem grande como encapsulando de alguma forma o que aprenderam sobre o mundo, e eles podem transmitir isso para modelos menores, gerando dados sintéticos. Os LLMs encapsulam grandes quantidades de conhecimento aprendido em treinamento extensivo em diversos conjuntos de dados. Esses modelos podem gerar dados sintéticos que capturam os padrões, estruturas e informações que aprenderam. Esses dados sintéticos podem então ser usados para treinar modelos menores, transferindo efetivamente parte do conhecimento dos modelos maiores para os menores. Este processo é frequentemente referido como “destilação de conhecimento” e ajuda na criação de modelos menores e eficientes que ainda funcionam bem em tarefas específicas. E com dados sintéticos você pode evitar problemas de privacidade e preencher lacunas pequenas ou incompletas nos dados de treinamento.

Isto pode ser útil para treinar um modelo de IA generativo mais específico do domínio e pode até ser mais eficaz do que treinar um modelo “maior”, com um maior nível de controle.

Os cientistas de dados já geram dados sintéticos há algum tempo e a imputação existe desde que existem conjuntos de dados confusos. Mas você sempre teve que ter muito cuidado para não introduzir preconceitos ou fazer suposições incorretas sobre a distribuição dos dados. Agora que sintetizar dados é muito mais fácil e poderoso, você precisa ter ainda mais cuidado. Os erros podem ser ampliados.

A falta de diversidade nos dados gerados pode levar ao “colapso do modelo”. A modelo acha que está indo bem, mas é porque não viu o quadro completo. E, de forma mais geral, a falta de diversidade nos dados de treinamento é algo que as equipes de dados devem estar sempre atentas.

Em um nível básico, quer você esteja usando dados sintéticos ou orgânicos, a linhagem e a qualidade são fundamentais para treinar ou ajustar qualquer modelo. Como sabemos, os modelos são tão bons quanto os dados nos quais são treinados. Embora os dados sintéticos possam ser uma ótima ferramenta para ajudar a representar um conjunto de dados confidenciais sem expô-lo ou para preencher lacunas que possam ser deixadas de fora de um conjunto de dados representativo, você deve ter um registro em papel que mostre de onde vieram os dados e ser capaz de provar sua origem. nível de qualidade.

Quais são algumas técnicas inovadoras que sua equipe da Astronomer está implementando para melhorar a eficiência e a confiabilidade dos pipelines de dados?

Muitos! A infraestrutura Airflow totalmente gerenciada do Astro e o Astro Hypervisor suportam escalonamento dinâmico e monitoramento proativo por meio de métricas avançadas de saúde. Isto garante que os recursos sejam utilizados de forma eficiente e que os sistemas sejam confiáveis em qualquer escala. O Astro fornece alertas robustos centrados em dados com notificações personalizáveis que podem ser enviadas por meio de vários canais, como Slack e PagerDuty. Isso garante uma intervenção oportuna antes que os problemas aumentem.

Testes de validação de dados, testes unitários e verificações de qualidade de dados desempenham papéis vitais para garantir a confiabilidade, a precisão e a eficiência dos pipelines de dados e, em última análise, dos dados que alimentam seus negócios. Essas verificações garantem que, embora você crie pipelines de dados rapidamente para cumprir seus prazos, eles detectem erros ativamente, melhorem os tempos de desenvolvimento e reduzam erros imprevistos em segundo plano. Na Astronomer, criamos ferramentas como o Astro CLI para ajudar a verificar perfeitamente a funcionalidade do código ou identificar problemas de integração em seu pipeline de dados.

Como vê a evolução da governação generativa da IA e que medidas devem ser tomadas para apoiar a criação de mais ferramentas?

A governação é imperativa para que as aplicações da IA Generativa tenham sucesso. É tudo uma questão de transparência e reprodutibilidade. Você sabe como conseguiu esse resultado, de onde e por quem? O Airflow por si só já oferece uma maneira de ver o que os pipelines de dados individuais estão fazendo. Sua interface de usuário foi um dos motivos de sua rápida adoção desde o início, e na Astronomer aumentamos isso com visibilidade entre equipes e implantações. Também fornecemos aos nossos clientes painéis de relatórios que oferecem insights abrangentes sobre o uso da plataforma, desempenho e atribuição de custos para uma tomada de decisão informada. Além disso, a API Astro permite que as equipes implantem, automatizem e gerenciem programaticamente seus pipelines do Airflow, mitigando os riscos associados a processos manuais e garantindo operações contínuas em escala ao gerenciar vários ambientes do Airflow. Os recursos de linhagem estão integrados à plataforma.

Todos estes são passos para ajudar a gerir a governação de dados, e acredito que empresas de todas as dimensões estão a reconhecer a importância da governação de dados para garantir a confiança nas aplicações de IA. Este reconhecimento e sensibilização impulsionarão em grande parte a procura de ferramentas de governação de dados, e prevejo a criação de mais destas ferramentas para acelerar à medida que a IA generativa prolifera. Mas eles precisam fazer parte de uma pilha de orquestração maior, e é por isso que os consideramos fundamentais para a forma como construímos nossa plataforma.

Você pode fornecer exemplos de como as soluções da Astronomer melhoraram a eficiência operacional e a produtividade dos clientes?

Os processos de IA generativa envolvem tarefas complexas e que consomem muitos recursos que precisam ser cuidadosamente otimizadas e executadas repetidamente. Astro, a plataforma Apache Airflow gerenciada pela Astronomer, fornece uma estrutura no centro da pilha emergente de aplicativos de IA para ajudar a simplificar essas tarefas e aprimorar a capacidade de inovar rapidamente.

Ao orquestrar tarefas generativas de IA, as empresas podem garantir que os recursos computacionais sejam usados de forma eficiente e que os fluxos de trabalho sejam otimizados e ajustados em tempo actual. Isto é particularmente importante em ambientes onde os modelos generativos devem ser frequentemente atualizados ou retreinados com base em novos dados.

Ao aproveitar o gerenciamento de fluxo de trabalho do Airflow e os recursos de implantação e escalonamento do Astronomer, as equipes podem gastar menos tempo gerenciando a infraestrutura e concentrar sua atenção na transformação de dados e no desenvolvimento de modelos, o que acelera a implantação de aplicativos de IA generativa e melhora o desempenho.

Dessa forma, a plataforma Astro da Astronomer ajudou os clientes a melhorar a eficiência operacional da IA generativa em uma ampla gama de casos de uso. Para citar alguns, os casos de uso incluem descoberta de produtos de comércio eletrônico, análise de risco de rotatividade de clientes, automação de suporte, classificação e resumo de documentos legais, obtenção de insights de produtos a partir de avaliações de clientes e provisionamento de cluster dinâmico para geração de imagens de produtos.

Qual o papel do Astronomer na melhoria do desempenho e da escalabilidade de aplicativos de IA e ML?

A escalabilidade é um grande desafio para as empresas que utilizam a IA generativa em 2024. Ao passar do protótipo para a produção, os usuários esperam que seus aplicativos de IA generativa sejam confiáveis e de alto desempenho, e que os resultados que produzem sejam confiáveis. Isto tem de ser feito de forma rentável e as empresas de todas as dimensões precisam de ser capazes de aproveitar o seu potencial. Com isso em mente, usando o Astronomer, as tarefas podem ser dimensionadas horizontalmente para processar dinamicamente um grande número de fontes de dados. O Astro pode dimensionar elasticamente as implantações e os clusters nos quais estão hospedados, e a execução de tarefas baseada em filas com tipos de máquinas dedicados fornece maior confiabilidade e uso eficiente de recursos de computação. Para ajudar na peça do quebra-cabeça de economia, o Astro oferece recursos de escala até zero e hibernação, que ajudam a controlar os custos crescentes e reduzir os gastos com nuvem. Também oferecemos whole transparência em torno do custo da plataforma. A minha própria equipa de dados gera relatórios de consumo que disponibilizamos diariamente aos nossos clientes.

Quais são algumas tendências futuras em IA e ciência de dados que o entusiasmam e como o Astronomer está se preparando para elas?

A IA explicável é uma área de desenvolvimento extremamente importante e fascinante. Ser capaz de observar o funcionamento interno de modelos muito grandes é quase assustador. E também estou interessado em ver como a comunidade lida com o impacto ambiental do treinamento e ajuste de modelos. Na Astronomer, continuamos atualizando nosso Registro com todas as integrações mais recentes, para que as equipes de dados e ML possam se conectar aos melhores serviços de modelo e às plataformas de computação mais eficientes sem nenhum trabalho pesado.

Como você prevê a evolução da integração de ferramentas avançadas de IA, como LLMs, com sistemas tradicionais de gerenciamento de dados nos próximos anos?

Vimos Databricks e Snowflake fazerem anúncios recentemente sobre como incorporam o uso e o desenvolvimento de LLMs em suas respectivas plataformas. Outras plataformas DBMS e ML farão o mesmo. É ótimo ver que os engenheiros de dados têm acesso tão fácil a métodos tão poderosos, diretamente na linha de comando ou no immediate SQL.

Estou particularmente interessado em como os bancos de dados relacionais incorporam o aprendizado de máquina. Estou sempre esperando que os métodos de ML sejam incorporados ao padrão SQL, mas por algum motivo as duas disciplinas nunca se deram bem. Talvez desta vez seja diferente.

Estou muito entusiasmado com o futuro dos grandes modelos de linguagem para auxiliar o trabalho do engenheiro de dados. Para começar, os LLMs já foram particularmente bem-sucedidos com a geração de código, embora os esforços iniciais para fornecer aos cientistas de dados sugestões baseadas em IA tenham sido mistos: Hex é ótimo, por exemplo, enquanto Snowflake não é inspirador até agora. Mas há um enorme potencial para mudar a natureza do trabalho das equipes de dados, muito mais do que para os desenvolvedores. Por que? Para engenheiros de software program, o immediate é o nome de uma função ou os documentos, mas para engenheiros de dados também existem os dados. Há muito contexto com o qual os modelos podem trabalhar para fazer sugestões úteis e precisas.

Que conselho você daria aos aspirantes a cientistas de dados e engenheiros de IA que buscam causar impacto no setor?

Aprender fazendo. Hoje em dia é incrivelmente fácil criar aplicativos e aumentá-los com inteligência synthetic. Então construa algo authorized e envie para um amigo de um amigo que trabalha em uma empresa que você admira. Ou envie para mim, e prometo que vou dar uma olhada!

O truque é encontrar algo pelo qual você seja apaixonado e uma boa fonte de dados relacionados. Um amigo meu fez uma análise fascinante de temporadas anômalas de beisebol que remontam ao século 19 e descobriu algumas histórias que merecem um filme a partir delas. E alguns dos engenheiros da Astronomer se reuniram recentemente em um fim de semana para construir uma plataforma para pipelines de dados auto-recuperáveis. Não consigo imaginar tentar fazer algo assim há alguns anos, mas com apenas alguns dias de esforço vencemos o hackathon de Cohere e construímos a base de um novo recurso importante em nossa plataforma.

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar o Astronomer.

Unite AI Mobile Newsletter 1