MINT-1T: Escalonamento de dados multimodais de código aberto em 10x

O treinamento de modelos multimodais de fronteira (LMMs) requer conjuntos de dados em larga escala com sequências intercaladas de imagens e texto em formato livre. Embora os LMMs de código aberto tenham evoluído rapidamente, ainda há uma grande falta de conjuntos de dados intercalados multimodais em escala que sejam de código aberto. A importância desses conjuntos de dados não pode ser exagerada, pois eles formam a base para a criação de sistemas avançados de IA capazes de entender e gerar conteúdo em diferentes modalidades. Sem um suprimento suficiente de conjuntos de dados intercalados abrangentes, o potencial para desenvolver LMMs mais sofisticados e capazes é significativamente prejudicado. Esses conjuntos de dados permitem que os modelos aprendam com uma gama diversificada de entradas, tornando-os mais versáteis e eficazes em várias aplicações. Além disso, a escassez de tais conjuntos de dados representa um desafio para a comunidade de código aberto, que depende de recursos compartilhados para impulsionar a inovação e a colaboração.

Os LMMs de código aberto fizeram avanços significativos nos últimos anos, mas seu crescimento é prejudicado pela disponibilidade limitada de conjuntos de dados intercalados em larga escala. Para superar esse obstáculo, esforços conjuntos são necessários para selecionar, anotar e liberar conjuntos de dados mais abrangentes que possam dar suporte ao desenvolvimento e refinamento contínuos de modelos multimodais. Além disso, a criação e disseminação desses conjuntos de dados envolvem a superação de vários obstáculos técnicos e logísticos. A coleta de dados deve ser extensa e representativa dos diversos contextos nos quais os LMMs serão implantados. A anotação requer consideração cuidadosa para garantir que as sequências intercaladas de imagens e texto estejam alinhadas de uma maneira que aprimore as capacidades de aprendizado do modelo. Além disso, garantir que os conjuntos de dados sejam de código aberto envolve abordar considerações legais e éticas relacionadas à privacidade de dados e direitos de uso. Expandir a disponibilidade de conjuntos de dados intercalados multimodais de alta qualidade e larga escala é essencial para o futuro da pesquisa e desenvolvimento de IA. Ao abordar a escassez atual, a comunidade de IA pode promover maior inovação e colaboração, levando à criação de LMMs mais poderosos e versáteis, capazes de lidar com problemas complexos do mundo actual.

Com base nessa nota, MINT-1T, o maior e mais diverso conjunto de dados de código aberto intercalado multimodal até o momento. MINT-1T: Uma escala 10x maior, incluindo um trilhão de tokens de texto e 3,4 bilhões de imagens do que os conjuntos de dados de código aberto existentes. O conjunto de dados MINT-1T também apresenta fontes nunca expostas, como arquivos PDF e artigos ArXiv. Como os conjuntos de dados intercalados multimodais não escalam facilmente, é importante que o conjunto de dados MINT-1T compartilhe o processo de curadoria de dados para que outros também possam realizar experimentos em tais variantes ricas em informações. O conjunto de dados MINT-1T demonstra que seu método; modelos LM treinados no MINT-1T são competitivos (embora um pouco) com os OBELICS de última geração anteriores.

MINT-1T: Um conjunto de dados multimodais com um trilhão de tokens

Grandes conjuntos de dados de pré-treinamento de código aberto têm sido essenciais para a comunidade de pesquisa na exploração de engenharia de dados e no treinamento de modelos transparentes de código aberto. No domínio do texto, trabalhos iniciais como C4 e The Pile desempenharam papéis cruciais em permitir que a comunidade treinasse o primeiro conjunto de grandes modelos de linguagem de código aberto como GPT-J, GPT-Neo e outros. Esses esforços fundamentais também abriram caminho para melhorias subsequentes em métodos de filtragem de dados e dimensionamento. Da mesma forma, no espaço imagem-texto, conjuntos de dados de código aberto em larga escala estimularam inovações em melhores métodos de curadoria de dados, como redes de filtragem de dados e T-MARS. Há uma mudança perceptível de laboratórios de fronteira para o treinamento de grandes modelos multimodais (LMMs) que exigem extensos conjuntos de dados intercalados multimodais compreendendo sequências de imagens e texto de forma livre. À medida que as capacidades dos modelos de fronteira avançam rapidamente, uma lacuna significativa está surgindo nos dados de treinamento multimodal entre modelos fechados e de código aberto. Os conjuntos de dados intercalados multimodais de código aberto atuais são menores e menos diversos do que suas contrapartes somente de texto, sendo originados principalmente de documentos HTML, o que limita a amplitude e a variedade de dados. Essa limitação impede o desenvolvimento de LMMs robustos de código aberto e cria uma disparidade entre as capacidades dos modelos de código aberto e fechado.

Para abordar essa lacuna, o MINT-1T foi criado como o maior e mais diverso conjunto de dados intercalados multimodais de código aberto até o momento. O MINT-1T contém um complete de um trilhão de tokens de texto e três bilhões de imagens, obtidos de diversas origens, como HTML, PDFs e ArXiv. Antes do MINT-1T, o maior conjunto de dados de código aberto nessa área period o OBELICS, que incluía 115 bilhões de tokens de texto e 353 milhões de imagens, todos obtidos de HTML.

As contribuições do MINT-1T são as seguintes:

  • Engenharia de Dados: Escalar esses dados intercalados multimodais apresenta mais um desafio de engenharia do que construir conjuntos de dados somente de texto ou pares de imagem-texto. Lidar com tamanhos de documentos muito maiores e preservar a ordem authentic de imagens e texto é essential.
  • Diversidade: O MINT-1T é o primeiro no espaço intercalado multimodal a reunir documentos multimodais de alta qualidade em grandes escalas de fontes como CommonCrawl PDFs e ArXiv.
  • Experimentos modelo: Experimentos mostram que os LMMs treinados no MINT-1T não apenas correspondem, mas potencialmente superam o desempenho dos modelos treinados no melhor conjunto de dados de código aberto existente, o OBELICS, ao mesmo tempo em que oferecem um aumento de dez vezes na escala.

MINT-1T: Construindo o conjunto de dados

O MINT-1T faz a curadoria de um conjunto de dados de código aberto em larga escala que utiliza fontes mais diversas de documentos intercalados, como PDFs e artigos ArXiv. Esta seção detalha os métodos do MINT-1T para obter documentos multimodais, filtrar conteúdo de baixa qualidade, desduplicar dados e remover materials não seguro para o trabalho ou NSFW e indesejável. O conjunto de dados remaining compreende 922 bilhões (B) de tokens HTML, 106B de tokens PDF e 9B de tokens ArXiv.

Obtenção de grandes quantidades de documentos multimodais

Pipeline HTML (Pipeline HTML)

O MINT-1T segue o método do OBELICS para extrair documentos multimodais intercalados de arquivos CommonCrawl WARC analisando a árvore DOM de cada entrada WARC. Enquanto o OBELICS processou apenas documentos de dumps CommonCrawl de fevereiro de 2020 a fevereiro de 2023, o MINT-1T expandiu o pool de documentos para incluir documentos HTML de maio de 2017 a abril de 2024 (com dumps completos de outubro de 2018 a abril de 2024 e dumps parciais de anos anteriores). Semelhante ao OBELICS, o MINT-1T filtra documentos que não contêm imagens, mais de trinta imagens ou quaisquer imagens com URLs que incluem substrings inapropriadas, como logotipo, avatar, pornografia e xxx.

Pipeline de PDF

O MINT-1T obtém documentos PDF de arquivos CommonCrawl WAT de dumps de fevereiro de 2023 a abril de 2024. Inicialmente, todos os hyperlinks de PDF são extraídos desses dumps. O MINT-1T tenta baixar e ler PDFs usando PyMuPDF, descartando PDFs com mais de 50 MB (provavelmente contendo imagens grandes) e aqueles com mais de 50 páginas. Páginas sem texto são excluídas e uma ordem de leitura é estabelecida para as páginas restantes. A ordem de leitura é determinada encontrando a caixa delimitadora de todos os blocos de texto em uma página, agrupando os blocos com base em colunas e ordenando-os do canto superior esquerdo para o canto inferior direito. As imagens são integradas à sequência com base em sua proximidade com os blocos de texto na mesma página.

2 3

Pipeline ArXiv

O MINT-1T cria documentos intercalados ArXiv a partir do código-fonte LaTeX usando o TexSoup para encontrar tags de figuras e intercalar imagens com o texto do artigo. Para artigos com vários arquivos, o MINT-1T identifica o arquivo Tex principal e substitui as tags de entrada pelo conteúdo de seus arquivos. O código LaTeX é limpo removendo importações, bibliografia, tabelas e tags de citação. Como o ArXiv já é uma fonte de dados altamente curada, nenhuma filtragem e desduplicação adicionais são realizadas.

Filtragem de qualidade de texto

O MINT-1T evita usar heurísticas baseadas em modelos para filtragem de texto, seguindo práticas estabelecidas pela RefinedWeb, Dolma e FineWeb. Inicialmente, documentos que não sejam em inglês são eliminados usando o modelo de identificação de idioma do Fasttext (com um limite de confiança de 0,65). Documentos com URLs contendo substrings NSFW também são removidos para excluir conteúdo pornográfico e indesejável. Métodos de filtragem de texto do RefinedWeb são aplicados, removendo especificamente documentos com n-gramas duplicados excessivos ou aqueles identificados como de baixa qualidade usando regras do MassiveText.

Filtragem de imagem

Após a curadoria de PDFs e arquivos HTML, o MINT-1T tenta baixar todos os URLs de imagem no conjunto de dados HTML, descartando hyperlinks não recuperáveis ​​e removendo documentos sem hyperlinks de imagem válidos. Imagens menores que 150 pixels são descartadas para evitar imagens ruidosas, como logotipos e ícones, e imagens maiores que 20.000 pixels também são removidas, pois geralmente correspondem a imagens fora do tópico. Para documentos HTML, imagens com uma proporção maior que dois são removidas para filtrar imagens de baixa qualidade, como banners de propaganda. Para PDFs, o limite é ajustado para três para preservar figuras e tabelas científicas.

A figura acima representa como o MINT-1T inclui exclusivamente dados de PDFs e documentos ArXiv além de fontes HTML.

Filtragem de segurança

  • Filtragem de imagem NSFW: O MINT-1T aplica um detector de imagem NSFW a todas as imagens no conjunto de dados. Se um documento contiver uma única imagem NSFW, o documento inteiro será descartado.
  • Remoção de informações pessoalmente identificáveis: para mitigar o risco de vazamento de dados pessoais, endereços de e-mail e endereços IP nos dados de texto são anonimizados. Os e-mails são substituídos por modelos como “(electronic mail protected)” e IPs com IPs não funcionais gerados aleatoriamente.

Desduplicação

O MINT-1T realiza a deduplicação de parágrafos e textos de documentos dentro de cada snapshot do CommonCrawl e deduplicação de imagens para remover imagens repetitivas e não informativas, como ícones e logotipos. Todas as etapas de deduplicação são conduzidas separadamente para cada fonte de dados.

Deduplicação de parágrafos e documentos

Seguindo a metodologia de Dolma, o MINT-1T usa um Bloom Filter para desduplicação eficiente de texto, definindo a taxa de falsos positivos para 0,01 e desduplicando parágrafos de 13 gramas (indicados por delimitadores de nova linha dupla) de cada documento. Se mais de 80% dos parágrafos de um documento forem duplicados, o documento inteiro será descartado.

Removendo texto clichê comum

Após a desduplicação de parágrafos, o MINT-1T take away frases curtas comuns em documentos HTML, como “Ir para o conteúdo” ou “Arquivo de weblog”. Isso é feito executando a desduplicação exata de parágrafos em 2% de cada instantâneo do CommonCrawl, em linha com as práticas do CCNet, garantindo principalmente a remoção de texto comum.

A figura acima demonstra o processo de filtragem para MINT-1T e mostra como os tokens são removidos em todo o pipeline de dados para artigos HTML, PDFs e ArXiv.

Desduplicação de imagem

Dentro de cada snapshot do CommonCrawl, o MINT-1T take away imagens que ocorrem com frequência com base em hashes SHA256. Em vez de desduplicação estrita, apenas imagens que aparecem mais de dez vezes dentro de um snapshot são removidas, seguindo as práticas do Multimodal-C4. Consistente com o OBELICS, imagens repetidas dentro de um único documento são removidas, mantendo apenas a primeira ocorrência.

A infraestrutura

Durante todo o processamento de dados, o MINT-1T teve acesso a uma média de 2.350 núcleos de CPU de uma mistura de nós de 190 e 90 processadores. No complete, aproximadamente 4,2 milhões de horas de CPU foram usadas para construir esse conjunto de dados.

Comparando a composição de documentos no MINT-1T com o OBELICS

Ao avaliar a composição de conjuntos de dados intercalados, duas características principais são examinadas: a distribuição de tokens de texto por documento e o número de imagens por documento. Para esta análise, 50.000 documentos foram amostrados aleatoriamente tanto do OBELICS quanto de cada fonte de dados no MINT-1T. O tokenizador do GPT-2 foi usado para calcular o número de tokens de texto. Os outliers foram removidos excluindo documentos que estavam fora do intervalo interquartil de 1,5 para o número de tokens de texto e imagens. Conforme mostrado na figura a seguir, o subconjunto HTML do MINT-1T se alinha estreitamente com a distribuição de tokens vista no OBELICS. No entanto, documentos originados de PDFs e ArXiv tendem a ser maiores do que documentos HTML em média, destacando os benefícios de obter dados de diversas fontes. A Figura 5 examina a densidade de imagens em todos os documentos, revelando que PDFs e documentos ArXiv contêm mais imagens em comparação com documentos HTML, com amostras ArXiv sendo as mais densas em imagens.

Como diferentes fontes de dados melhoram a diversidade de documentos?

Uma motivação importante para expandir o conjunto de documentos multimodais além do HTML é a melhoria da cobertura de domínio. Para quantificar a diversidade e a profundidade dessa cobertura, um modelo de Alocação de Dirichlet Latente (LDA) foi treinado em 100.000 documentos amostrados do conjunto de dados OBELICS, o subconjunto HTML do MINT-1T e o subconjunto PDF (excluindo ArXiv) do MINT-1T para obter 200 tópicos. O GPT-4 foi então usado para classificar o conjunto de palavras para identificar os domínios dominantes – como Saúde e Medicina, Ciência, Negócios, Humanidades, História, and so forth. – com base nos domínios MMMU. A análise revela tendências distintas na distribuição de domínio:

  • OBÉLICOS: Este conjunto de dados mostra uma concentração pronunciada em “Humanidades e Ciências Sociais”. Isso pode ser atribuído ao seu processo de construção de dados, que envolve filtrar documentos que não se assemelham a artigos da Wikipédia, alterando assim potencialmente a distribuição para conhecimento mais geral e conteúdo focado em humanidades.
  • Subconjunto HTML do MINT-1T: Em contraste com o OBELICS, o subconjunto HTML do MINT-1T não é fortemente tendencioso em relação a nenhum domínio específico, sugerindo uma representação de domínio mais ampla e equilibrada.
  • Subconjunto PDF do MINT-1T: Há uma proporção maior de documentos de “Ciência e Tecnologia” dentro dos documentos PDF do MINT-1T. Essa tendência provavelmente se deve à natureza da comunicação científica, onde os PDFs são o formato preferido para compartilhar artigos de pesquisa detalhados e relatórios técnicos.

MINT-1T: Resultados e Experimentos

Para todos os experimentos, o MINT-1T treina o modelo em 50% de lotes de legendas de imagem e texto e 50% de lotes intercalados multimodais. Um máximo de 2048 tokens multimodais é amostrado de cada documento intercalado e 340 tokens de cada amostra de imagem e texto. Semelhante ao Flamingo, um token “finish” é adicionado para indicar o fim de uma sequência de imagem e texto adjacente. Durante o treinamento, 50% dos documentos intercalados de imagem única são descartados aleatoriamente para aumentar a amostragem de documentos de várias imagens. O conjunto de dados de imagem e texto é composto por uma mistura de conjuntos de dados de legendas com curadoria interna. A capacidade do modelo de raciocinar sobre sequências intercaladas multimodais é avaliada por meio de suas habilidades de aprendizado em contexto e desempenho de raciocínio de várias imagens.

A figura acima ilustra a porcentagem de documentos de cada domínio no MMMU para OBELICS e subconjuntos do MINT-1T.

Aprendizagem em contexto: Os modelos são avaliados em desempenho de aprendizagem em contexto de quatro e oito tentativas em vários benchmarks de legendas (COCO (teste Karpathy) e TextCaps (validação)) e conjuntos de dados de resposta a perguntas visuais (VQAv2 (validação), OK-VQA (validação), TextVQA (validação) e VizWiz (validação)). As demonstrações são amostradas aleatoriamente do conjunto de treinamento. As pontuações são calculadas em média em várias execuções de avaliação, com demonstrações aleatórias para levar em conta a sensibilidade aos prompts escolhidos. Prompts diferentes são ablacionados para cada tarefa para selecionar os de melhor desempenho.

Raciocínio multi-imagem: Os modelos são avaliados no MMMU (contendo perguntas de imagem única e múltipla) e no Mantis-Eval (todas as perguntas de imagem múltipla) para testar as habilidades de raciocínio de imagem múltipla além das avaliações de aprendizagem no contexto.

Treinamento em Documentos HTML

Inicialmente, a parte HTML do MINT-1T é comparada ao OBELICS, já que o OBELICS é o conjunto de dados intercalados líder anterior, também curado de documentos HTML. Dois modelos são treinados nas partes HTML do MINT-1T e OBELICS para um complete de 10B tokens multimodais. Seu desempenho de aprendizagem em contexto é avaliado. A tabela a seguir apresenta o desempenho de 4 e 8 disparos em benchmarks comuns; o modelo treinado em documentos HTML do MINT-1T tem desempenho melhor do que o OBELICS em tarefas de VQA, mas pior em benchmarks de legendas. Em média, o OBELICS tem desempenho ligeiramente melhor do que o MINT-1T (HTML).

Adicionar documentos PDF e ArXiv

Subsequentemente, o treinamento é conduzido nas fontes de dados completas do MINT-1T, com uma mistura de documentos HTML, PDF e ArXiv. Os documentos intercalados são amostrados com 50% de HTML, 45% de PDFs e 5% de ArXiv. O modelo é treinado para um complete de 10B tokens multimodais. Como visto na tabela acima, o modelo treinado na mistura de dados completa do MINT-1T supera o OBELICS e o MINT-1T (HTML) na maioria dos benchmarks de aprendizagem em contexto. Em benchmarks de raciocínio multimodal mais complexos, o modelo MINT-1T supera o OBELICS no MMMU, mas tem desempenho pior no Mantis-Eval.

Tendências refinadas

Como o desempenho do aprendizado em contexto é dimensionado com demonstrações?

O desempenho do aprendizado em contexto é avaliado quando solicitado com uma a oito demonstrações. Uma única tentativa por contagem de disparos é executada para cada benchmark de avaliação. Como visto na figura a seguir, o modelo treinado no MINT-1T supera o modelo treinado no subconjunto HTML do MINT-1T e OBELICS em todos os disparos. O modelo MINT-1T (HTML) tem um desempenho um pouco pior do que o OBELICS.

Desempenho em tarefas de legendagem e resposta visible a perguntas

A figura a seguir apresenta o desempenho médio de aprendizagem em contexto em benchmarks de legendagem e resposta visible a perguntas (VQA). O OBELICS supera todas as variantes do MINT-1T em benchmarks de legendagem de quatro tentativas e tem um desempenho um pouco pior em comparação ao MINT-1T em legendagem de oito tentativas. No entanto, o MINT-1T supera significativamente ambas as linhas de base em benchmarks VQA. O MINT-1T (HTML) também supera o OBELICS em tarefas VQA.

Desempenho em diferentes domínios

Incluir domínios diversos no MINT-1T visa melhorar a generalização do modelo. A figura anterior detalha o desempenho no MMMU para cada domínio. Exceto pelo domínio Enterprise, o MINT-1T supera o OBELICS e o MINT-1T (HTML). O aumento de desempenho nos domínios Science and Know-how para o MINT-1T é atribuído à prevalência desses domínios em documentos ArXiv e PDF.

Pensamentos finais

Neste artigo, falamos sobre o MINT-1T, o maior e mais diverso conjunto de dados de código aberto intercalado multimodal até o momento. MINT-1T: Uma escala 10x maior, incluindo um trilhão de tokens de texto e 3,4 bilhões de imagens do que os conjuntos de dados de código aberto existentes. O conjunto de dados MINT-1T também apresenta fontes nunca expostas, como arquivos PDF e artigos ArXiv. Como os conjuntos de dados intercalados multimodais não escalam facilmente, é importante que o conjunto de dados MINT-1T compartilhe o processo de curadoria de dados para que outros também possam realizar experimentos em tais variantes ricas em informações. O conjunto de dados MINT-1T demonstra que seu método; modelos LM treinados no MINT-1T são competitivos (embora um pouco) com os OBELICS de última geração anteriores.

Exit mobile version