Tech

Dr. Stavros Papadopoulos, Fundador e CEO, TileDB – Série de entrevistas

LifeTechWebJuly 3, 2024

0 5 minutes read

TileDB é o banco de dados moderno que integra todas as modalidades de dados, código e computação em um único produto. O TileDB foi desmembrado do MIT e Intel Labs em maio de 2017.

Antes de fundar a TileDB, Inc. em fevereiro de 2017, o Dr. Stavros Papadopoulos foi um Cientista Pesquisador Sênior no Intel Parallel Computing Lab e membro do Intel Science and Expertise Heart for Huge Information no MIT CSAIL por três anos. Ele também passou cerca de dois anos como Professor Assistente Visitante no Departamento de Ciência da Computação e Engenharia da Universidade de Ciência e Tecnologia de Hong Kong (HKUST). Stavros recebeu seu título de PhD em Ciência da Computação na HKUST sob a supervisão do Prof. Dimitris Papadias e ocupou uma posição de pós-doutorado na Universidade Chinesa de Hong Kong com o Prof. Yufei Tao.

Anteriormente, você foi Cientista Pesquisador Sênior no Intel Parallel Computing Lab e membro do Intel Science and Expertise Heart (ISTC) para Huge Information no MIT CSAIL por três anos. Você pode compartilhar conosco alguns destaques importantes desse período da sua vida?

Durante meu tempo no Intel Labs e no MIT, tive a oportunidade única de colaborar com luminares em dois setores científicos diferentes: computação de alto desempenho (na Intel) e bancos de dados (no MIT). O conhecimento e a experiência que adquiri se tornaram essenciais para moldar minha visão de criar um novo tipo de sistema de banco de dados, que eventualmente construí como um projeto de pesquisa dentro do ISTC e desdobrei no que se tornou o TileDB.

Você pode explicar a visão por trás do TileDB e como ele pretende revolucionar o cenário moderno de bancos de dados?

Nos últimos anos, houve uma grande aceitação em aplicativos de machine studying e Generative AI que ajudam as organizações a tomar melhores decisões. Todos os dias, as organizações estão descobrindo novos padrões em seus dados e, em seguida, usando essas informações para obter uma vantagem competitiva. Esses padrões emergem de um espectro cada vez maior de modalidades de dados que devem ser hospedadas e gerenciadas para serem aproveitadas. De dados tabulares tradicionais a fontes de dados mais complexas, como postagens sociais, e-mail, imagens, vídeo e dados de sensores, a capacidade de derivar significado dos dados requer análise agregada. À medida que os tipos de dados aumentam, essa tarefa está se tornando muito mais árdua, exigindo um novo tipo de banco de dados. É exatamente por isso que o TileDB foi criado.

Por que é essential que as organizações priorizem sua infraestrutura de dados antes de desenvolver recursos avançados de análise e aprendizado de máquina?

Em meio ao fervor pela adoção da IA, há uma verdade crítica e frequentemente esquecida: o sucesso de qualquer iniciativa de IA está intrinsecamente ligado à qualidade e ao desempenho da infraestrutura de dados subjacente.

O problema é que dados complexos que não são naturalmente representados como tabelas são considerados “não estruturados” e são normalmente armazenados como arquivos simples em formatos de dados personalizados ou gerenciados por bancos de dados distintos e criados para esse fim. Cientistas de dados acabam gastando muito tempo discutindo dados para consolidá-los. Estima-se que 80-90 por cento do tempo dos cientistas de dados é gasto limpando seus dados e preparando-os para mesclagem. Isso retarda o tempo de treinamento de algoritmos de IA e obtenção de capacidades preditivas. Além disso, isso significa que apenas 10-20 por cento do tempo dos cientistas de dados é gasto criando insights.

Quais são as armadilhas comuns que as organizações enfrentam quando se concentram mais em aplicativos de IA e ML em detrimento de uma infraestrutura de banco de dados robusta?

As organizações tendem a se concentrar em coisas novas e brilhantes. Grandes modelos de linguagem, bancos de dados vetoriais e aplicativos de IA generativos construídos sobre uma infraestrutura de dados são exemplos atuais, às custas de abordar a infraestrutura de dados subjacente, que é essential para o sucesso analítico. Simplificando, se sua organização fizer isso, você poderá acabar gastando uma quantidade excessiva de tempo reunindo sua infraestrutura de dados e atrasar ou perder completamente oportunidades de obter insights.

Você poderia explicar melhor o que torna um banco de dados “adaptável” e por que essa adaptabilidade é essencial para a análise de dados moderna?

Um banco de dados adaptável é aquele que pode mudar de forma para acomodar todos os dados – independentemente de sua modalidade – e armazená-los juntos de forma unificada. Um banco de dados adaptável traz estrutura para dados que de outra forma seriam considerados “não estruturados”. Estima-se que 80% ou mais dos dados do mundo sejam não tabulares ou não estruturados, e a maioria dos modelos de IA/ML (incluindo LLMs) são treinados neste tipo de dados.

O TileDB estrutura dados em arrays multidimensionais. Como esse formato melhora o desempenho e a eficiência de custo em comparação aos bancos de dados tradicionais?

A força basic de um banco de dados de matriz multidimensional é que ele pode se transformar para acomodar praticamente qualquer modalidade e aplicação de dados. Um vetor, por exemplo, é simplesmente uma matriz unidimensional. Ao trazer estrutura a esses dados “não estruturados”, você pode consolidar sua infraestrutura de dados, reduzir significativamente os custos, eliminar silos, aumentar a produtividade e aprimorar a segurança. Indo um passo além, quando a infraestrutura de computação é acoplada à infraestrutura de gerenciamento de dados, você pode extrair valor instantâneo de seus dados.

Quais são alguns casos de uso notáveis em que o TileDB melhorou significativamente o gerenciamento de dados e o desempenho analítico?

O primeiro caso de uso do TileDB foi o armazenamento, gerenciamento e análise de vastos dados genômicos, o que é muito difícil e caro de modelar e armazenar em um banco de dados tradicional e tabular. Observamos ganhos de desempenho fenomenais (na ordem de 100x mais rápido em muitos casos em relação a outros bancos de dados e soluções personalizadas). No entanto, nosso modelo de matriz multidimensional é common e pode capturar eficientemente outras modalidades de dados também. Por exemplo, o TileDB é excelente em lidar com imagens biomédicas, imagens de satélite, transcriptômica de células únicas e dados de nuvem de pontos como LiDAR e SONAR.

O TileDB oferece ferramentas de código aberto para interoperabilidade. Como uma abordagem de código aberto beneficia as comunidades científica e de ciência de dados?

Somos grandes defensores do código aberto no TileDB. A biblioteca principal e a especificação do formato de dados são de código aberto. Além disso, nossas ofertas de ciências biológicas, construídas sobre a biblioteca de matriz principal, também são de código aberto. Isso inclui o TileDB-SOMA, um pacote para gerenciamento eficiente e escalável de dados de célula única, que foi construído em colaboração com a Chan Zuckerberg Basis e alimenta o CELLxGENE Uncover Census — o maior conjunto de dados de célula única totalmente curado do mundo. Isso também é de código aberto e é usado por instituições acadêmicas e grandes empresas farmacêuticas em todo o mundo.

Quais você vê como tendências futuras em gerenciamento de dados?

À medida que os dados se tornam mais ricos, os aplicativos de IA se tornam mais inteligentes. Os Massive Language Fashions estão se tornando cada vez mais poderosos, alavancando múltiplas modalidades de dados, e a integração desses LLMs com diversos conjuntos de dados está abrindo uma nova fronteira em IA conhecida como IA multimodal.

Na prática, a IA multimodal significa que os usuários não estão limitados a um tipo de entrada e um tipo de saída e podem solicitar um modelo com praticamente qualquer entrada para gerar virtualmente qualquer tipo de conteúdo. Vemos o TileDB como o banco de dados excellent para dar suporte a IA multimodal, construído para dar suporte a quaisquer tipos novos e diferentes de dados que possam surgir.

Obrigado pela ótima análise. Os leitores que desejarem saber mais devem visitar o TileDB.

Unite AI Mobile Newsletter 1