史上最大多模态数据集MINT-1T上线

最近华盛顿大学、Salesforce Research和斯坦福大学等机构联合开源了多模态数据集MINT-1T，MINT-1T是一个包含一万亿token和34亿张图像的多模态预训练数据集，它是史上最大的同类数据集，并且比以前的开源数据集更加多样化。

MINT-1T

MINT-1T数据集包含了HTML、PDF和ArXiv等多种来源，其中HTML文档的主要来源于CommonCrawl，是一个非盈利性的组织，通过爬取互联网上的网页生成了大量的数据集，被广泛用于各种学术研究和模型训练。

HTML

1、研究人员对文档进行了数据过滤，排除了那些不包含图像或包含超过三十张图像的文档，同时剔除了那些图像URL中包含不适当子字符串（例如，logo、avatar、porn、xxx等）的文档。

2、团队采用了OBELICS的方法，通过解析WARC条目的DOM树来提取交错的多模态文档。

3、团队还对HTML文档进行了去重处理，使用了Bloom Filter技术，通过设置0.01的误报率，对13-gram段落进行去重。

PDF

研究人员首先从这些转储中提取所有PDF链接，然后尝试使用PyMuPDF 2下载和读取PDF文件。在处理的过程中，研究人员对PDF文件的大小和页数进行了限制，排除了超过50MB大或超过50页的PDF文档。这是因为这些文档通常包含大量的图像，可能会影响数据处理的效率和效果。

ArXiv

研究人员从ArXiv专业论文网站提取了大量基于LaTeX源代码的文档，包含了论文的文本内容、图像、表格、参考文献等所有元素。处理LaTeX源代码时首先需要识别图形标签，这些标签通常以includegraphics的形式出现，指示了图像在文档中的位置。通过分析这些标签，研究人员能够确定图像在文本中的相对位置，并据此将图像与文本内容进行交错，这对于保持文档的原始结构和阅读顺序至关重要。

在获取了经过初步处理的PDF、HTML等数据后，研究人员对这些数据做了进一步处理。首先使用Fasttext的语言识别模型排除了非英语文档，以确保数据集的语言一致性；其次删除了URL包含NSFW子字符串的文档，以排除不良内容。还使用了RefinedWeb的文本过滤方法，移除了包含过多重复n-gram或被识别为低质量的文档。团队在图像过滤方面尝试下载HTML数据集中的所有图像URL，丢弃了任何无法检索的链接，并移除了没有有效图像链接的文档。