字节跳动和中国科学院联合开源InfiMM-WebMath-40B

字节跳动和中国科学院的研究团队于近日发布了InfiMM-WebMath-40B数据集,该数据集专门为数学推理任务设计的大型开源多模态数据集,包含了2400万个网页、8500万个关联图片URL以及400亿个文本标记,帮助开发人员快速提升多模态模型的图文混合推理能力。

InfiMM-WebMath-40B

研究人员选择CommonCrawl作为InfiMM-WebMath-40B的主要数据来源,因为它可以定期抓取互联网上公开网页内容的巨大数据库,覆盖范围广泛且更新频繁。CommonCrawl中的数据量极其庞大,包含超过1220亿个网页,为了进一步提升数据的质量,研究人员使用了基于关键词匹配的方法,只保留那些明确提到数学、公式等特定词汇的页面,同时还通过设置一定的阈值条件进一步缩小了数据范围。

数据集的构建过程包括文本提取、语言过滤、高质量内容过滤、数据标注等。通过这些步骤,确保了数据集的质量和相关性。在模型训练方面,InfiMM-WebMath-40B数据集用于继续预训练,以增强模型在多模态设置中获取数学知识的能力。此外,还进行了指令微调,以进一步提高模型性能。

1、文本提取

使用了Python库中很好用的网页内容抓取Trafilatura作为主要抓取工具,能够有效地去除HTML标签、广告和其他非主要内容,从而提取出纯文本部分。还通过分析网页中的图像URL,提取了与数学内容相关的图像。

2、语言过滤

为了提高数据质量,研究人员实施了严格的去重、清洗策略,使用了MinHash等模糊哈希技术来识别和合并相似或重复的文档,从而减少了数据集中的冗余。同时还采用了基于规则的过滤方法,过滤掉含有不适当内容的文档。

3、数据标注

为了进一步提升数据集的质量,研究人员引入了数据标注环节。他们充分发挥大语言模型的强大能力,巧妙地利用其来全面评估每个文档的数学质量。通过精心设计特定的提示格式,可以为每个文档进行打分。这种打分机制并非随意而为,而是基于对数学内容的深入理解和严格标准,从而能够准确地筛选出高质量的数学内容。

研究人员在纯文本和多模态环境下对WebMath-40B进行了综合测试,结果显示,使用GSM8K和MMLU基准,WebMath-40B数据集显著提高了1.3B模型的性能,其中GSM8K的准确率从4.8%提升至26.1%,MMLU得分从25.6%提高至35.6%。

行业动态

OpenAI正式发布ChatGPT网络搜索功能

2024-11-1 10:00:34

行业动态

腾讯开源超大模型Hunyuan-Large

2024-11-6 9:51:53

相关推荐