Anais Dotis-Georgiou, Developer Advocate na InfluxData – Série de entrevistas

Anais Dotis-Georgiou é uma Developer Advocate da InfluxData com uma paixão por tornar dados bonitos com o uso de Knowledge Analytics, IA e Machine Studying. Ela pega os dados que coleta, faz uma mistura de pesquisa, exploração e engenharia para traduzir os dados em algo funcional, valioso e bonito. Quando ela não está atrás de uma tela, você pode encontrá-la do lado de fora desenhando, alongando, praticando snowboard ou correndo atrás de uma bola de futebol.

A InfluxData é a empresa que está construindo o InfluxDB, o banco de dados de séries temporais de código aberto usado por mais de um milhão de desenvolvedores ao redor do mundo. Sua missão é ajudar os desenvolvedores a construir sistemas inteligentes em tempo actual com seus dados de séries temporais.

Você pode compartilhar um pouco sobre sua jornada de Assistente de Pesquisa para se tornar um Defensor de Desenvolvedor Líder na InfluxData? Como sua experiência em análise de dados e aprendizado de máquina moldou sua função atual?

Eu obtive meu diploma de graduação em engenharia química com foco em engenharia biomédica e, eventualmente, trabalhei em laboratórios realizando desenvolvimento de vacinas e detecção de autismo pré-natal. A partir daí, comecei a programar robôs de manuseio de líquidos e a ajudar cientistas de dados a entender os parâmetros para detecção de anomalias, o que me deixou mais interessado em programação.

Depois, me tornei representante de desenvolvimento de vendas na Oracle e percebi que realmente precisava me concentrar em codificação. Fiz um bootcamp de codificação na Universidade do Texas em análise de dados e consegui entrar na área de tecnologia, especificamente em relações com desenvolvedores.

Eu vim de uma formação técnica, então isso ajudou a moldar meu papel atual. Mesmo que eu não tivesse experiência em desenvolvimento, eu conseguia me relacionar e ter empatia com pessoas que tinham formação e mente em engenharia, mas também estavam tentando aprender software program. Então, quando eu criava conteúdo ou tutoriais técnicos, eu conseguia ajudar novos usuários a superar desafios técnicos enquanto colocava a conversa em um contexto que period relevante e interessante para eles.

Seu trabalho parece misturar criatividade com experience técnica. Como você incorpora sua paixão por tornar os dados “bonitos” em seu trabalho diário na InfluxData?

Ultimamente, tenho me concentrado mais em engenharia de dados do que em análise de dados. Embora eu não me concentre tanto em análise de dados quanto costumava, ainda gosto muito de matemática — acho matemática linda e aproveito a oportunidade para explicar a matemática por trás de um algoritmo.

O InfluxDB tem sido uma pedra angular no espaço de dados de séries temporais. Como você vê a comunidade de código aberto influenciando o desenvolvimento e a evolução do InfluxDB?

A InfluxData está muito comprometida com a arquitetura de dados abertos e o ecossistema Apache. Ano passado, anunciamos o InfluxDB 3.0, o novo núcleo para o InfluxDB escrito em Rust e construído com Apache Flight, DataFusion, Arrow e Parquet – o que chamamos de pilha FDAP. À medida que os engenheiros da InfluxData continuam a contribuir para esses projetos upstream, a comunidade continua a crescer e o conjunto de projetos Apache Arrow fica mais fácil de usar com mais recursos e funcionalidades, e maior interoperabilidade.

Quais são alguns dos projetos ou contribuições de código aberto mais interessantes que você viu recentemente no contexto de dados de séries temporais e IA?

Foi authorized ver a adição de LLMs sendo reaproveitados ou aplicados a séries temporais para previsão de tiro zero. O Autolab tem uma coleção de modelos de linguagem de séries temporais abertas, e o TimeGPT é outro ótimo exemplo.

Além disso, várias bibliotecas de processamento de fluxo de código aberto, incluindo Bytewax e Mage.ai, que permitem aos usuários aproveitar e incorporar modelos do Hugging Face são muito interessantes.

Como a InfluxData garante que suas iniciativas de código aberto permaneçam relevantes e benéficas para a comunidade de desenvolvedores, principalmente com os rápidos avanços em IA e aprendizado de máquina?

As iniciativas do InfluxData permanecem relevantes e benéficas ao focar em contribuir para projetos de código aberto que empresas específicas de IA também alavancam. Por exemplo, toda vez que o InfluxDB contribui para o Apache Arrow, Parquet ou DataFusion, ele beneficia todas as outras tecnologias e empresas de IA que o alavancam, incluindo Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace e muito mais.

Modelos de linguagem de séries temporais estão se tornando cada vez mais vitais em análises preditivas. Você pode elaborar sobre como esses modelos estão transformando a previsão de séries temporais e a detecção de anomalias?

LMs de séries temporais superam modelos lineares e estatísticos, ao mesmo tempo em que fornecem previsão zero-shot. Isso significa que você não precisa treinar o modelo em seus dados antes de usá-lo. Também não há necessidade de ajustar um modelo estatístico, o que requer profunda experiência em estatísticas de séries temporais.

No entanto, diferentemente do processamento de linguagem pure, o campo de séries temporais carece de conjuntos de dados de larga escala acessíveis publicamente. A maioria dos modelos pré-treinados existentes para séries temporais são treinados em tamanhos de amostra pequenos, que contêm apenas alguns milhares — ou talvez até centenas — de amostras. Embora esses conjuntos de dados de referência tenham sido fundamentais no progresso da comunidade de séries temporais, seus tamanhos de amostra limitados e a falta de generalidade representam desafios para o pré-treinamento de modelos de aprendizado profundo.

Dito isso, é isso que eu acredito que torna os LMs de séries temporais de código aberto difíceis de serem encontrados. O TimesFM do Google e o Tiny Time Mixers da IBM foram treinados em conjuntos de dados massivos com centenas de bilhões de pontos de dados. Com o TimesFM, por exemplo, o processo de pré-treinamento é feito usando o Google Cloud TPU v3–256, que consiste em 256 núcleos TPU com um whole de 2 terabytes de memória. O processo de pré-treinamento leva aproximadamente dez dias e resulta em um modelo com 1,2 bilhão de parâmetros. O modelo pré-treinado é então ajustado em tarefas e conjuntos de dados downstream específicos usando uma taxa de aprendizado menor e menos épocas.

Esperançosamente, essa transformação implica que mais pessoas podem fazer previsões precisas sem conhecimento profundo do domínio. No entanto, é preciso muito trabalho para pesar os prós e contras de alavancar modelos computacionalmente caros como LMs de séries temporais, tanto de uma perspectiva de custo financeiro quanto ambiental.

Esta postagem do weblog Hugging Face detalha outro ótimo exemplo de previsão de séries temporais.

Quais são as principais vantagens de usar LMs de séries temporais em vez de métodos tradicionais, especialmente em termos de manipulação de padrões complexos e desempenho de disparo zero?

A vantagem crítica é não ter que treinar e retreinar um modelo em seus dados de série temporal. Isso, esperançosamente, elimina o problema de aprendizado de máquina on-line de monitorar o desvio do seu modelo e disparar o retreinamento, eliminando idealmente a complexidade do seu pipeline de previsão.

Você também não precisa se esforçar para estimar as correlações ou relacionamentos entre séries para modelos estatísticos multivariados. Variância adicional adicionada por estimativas frequentemente prejudica as previsões resultantes e pode fazer com que o modelo aprenda correlações espúrias.

Você poderia fornecer alguns exemplos práticos de como modelos como o TimesFM do Google, o TinyTimeMixer da IBM e o MOMENT da AutoLab foram implementados em cenários do mundo actual?

É difícil responder a isso; como esses modelos estão em fase inicial, pouco se sabe sobre como as empresas os utilizam em cenários do mundo actual.

Na sua experiência, quais desafios as organizações normalmente enfrentam ao integrar LMs de séries temporais em sua infraestrutura de dados existente e como elas podem superá-los?

LMs de séries temporais são tão novos que não sei os desafios específicos que as organizações enfrentam. No entanto, imagino que elas enfrentarão os mesmos desafios enfrentados ao incorporar qualquer modelo GenAI em seu pipeline de dados. Esses desafios incluem:

Problemas de compatibilidade e integração de dados: LMs de séries temporais geralmente exigem formatos de dados específicos, carimbos de knowledge/hora consistentes e intervalos regulares, mas a infraestrutura de dados existente pode incluir dados de séries temporais não estruturados ou inconsistentes espalhados por diferentes sistemas, como bancos de dados legados, armazenamento em nuvem ou fluxos em tempo actual. Para resolver isso, as equipes devem implementar pipelines ETL (extrair, transformar, carregar) robustos para pré-processar, limpar e alinhar dados de séries temporais.
Escalabilidade e desempenho do modelo: LMs de séries temporais, especialmente modelos de aprendizado profundo como transformadores, podem ser intensivos em recursos, exigindo recursos significativos de computação e memória para processar grandes volumes de dados de séries temporais em tempo actual ou quase em tempo actual. Isso exigiria que as equipes implantassem modelos em plataformas escaláveis como Kubernetes ou serviços de ML gerenciados em nuvem, aproveitassem a aceleração de GPU quando necessário e utilizassem estruturas de processamento distribuídas como Dask ou Ray para paralelizar a inferência do modelo.
Interpretabilidade e confiabilidade: Modelos de séries temporais, particularmente LMs complexos, podem ser vistos como “caixas pretas”, dificultando a interpretação de previsões. Isso pode ser particularmente problemático em setores regulamentados como finanças ou saúde.
Privacidade e segurança de dados: O manuseio de dados de séries temporais geralmente envolve informações confidenciais, como dados de sensores de IoT ou dados de transações financeiras, portanto, garantir a segurança e a conformidade dos dados é essencial ao integrar LMs. As organizações devem garantir que os pipelines e modelos de dados estejam em conformidade com as melhores práticas de segurança, incluindo criptografia e controle de acesso, e implantar modelos em ambientes seguros e isolados.

Olhando para o futuro, como você imagina o papel dos LMs de séries temporais evoluindo no campo de análise preditiva e IA? Há alguma tendência ou tecnologia emergente que particularmente o entusiasme?

Um possível próximo passo na evolução dos LMs de séries temporais poderia ser a introdução de ferramentas que permitam aos usuários implantá-los, acessá-los e usá-los mais facilmente. Muitos dos LMs de séries temporais que usei exigem ambientes muito específicos e carecem de uma amplitude de tutoriais e documentação. No last das contas, esses projetos estão em seus estágios iniciais, mas será emocionante ver como eles evoluem nos próximos meses e anos.

Obrigado pela ótima entrevista. Os leitores que desejarem saber mais devem visitar o InfluxData.

Unite AI Mobile Newsletter 1

Share this: