IBM发布Docling模型可快速转换PDF文档格式

为了解决PDF文档转换为机器可处理的格式的这一极具挑战性的难题，IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型。该模型可将PDF文档保留全部格式的情况下快速转换成JSON、Markdown格式。

Docling模型使用了模块化设计方法，将整个PDF文档处理流程拆解为一系列连续的操作步骤，每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率，还极大增强了模型的扩展性和灵活性。在Docling架构中，PDF后端扮演着重要角色。主要负责将PDF文档解析为机器可读的格式，包括提取文本内容及其在页面上的几何坐标，以及渲染每个页面的位图图像。

1、提供了多种PDF后端选项

在Docling架构中，PDF后端扮演着重要角色。主要负责将PDF文档解析为机器可读的格式，包括提取文本内容及其在页面上的几何坐标，以及渲染每个页面的位图图像。为了应对PDF文档格式的多样性和复杂性，Docling提供了多种PDF后端选项。其中，基于qpdf库开发的自定义PDF解析器，是默认的PDF后端。为了满足不同场景的需求，还提供了基于pypdfium的PDF后端作为备选方案。

2、布局分析模型

在PDF后端完成初步解析后，布局分析模型基于RT-DETR架构，通过在DocLayNet数据集上进行再训练，能够准确地预测页面图像上各种元素的边界框和类别。使Docling能够理解文档的详细布局，包括阅读顺序、图形位置以及表格结构的恢复。

3、表格结构识别模型

表格结构识别模型TableFormer则主要用于识别表格结构，能够预测给定表格的逻辑行和列结构，并确定哪些表格单元属于列标题、行标题或表格主体。帮助Docling在处理表格时，能够应对各种复杂情况，如无边框线、空单元格、跨行或跨列的单元格等。

4、提供了可选的OCR支持

Docling提供的可选OCR支持可以进一步提升Docling的处理能力，通过集成EasyOCR这一流行的第三方OCR库，Docling能够识别和转写图像中的文字，从而扩展在文档处理方面的应用范围。

研究人员使用arXiv的3篇论文和两本IBM书总共225页搭建了一个测试数据集，以此来评估Docling的转换效率。在测试过程中，使用了两种可用的PDF后端，并分别设置了不同的线程预算，一次将线程预算固定为4，另一次固定为16，在苹果M3 Max笔记本和英特尔Xeon E5–2690平台上执行。

结果显示，Docling可以完美、快速将PDF文档转换为JSON、Markdown格式，并且能够理解页面布局、阅读顺序，定位图表并恢复表格结构，还能提取文档的元数据，例如，标题、作者、参考文献和语言等。

Finclip小程序转APP八步走！

腾讯云推出大模型APP腾讯元宝

小程序化：系统集成行业降本增效的破局思考

互联网进入存量博弈时代，小程序技术创造移动应用新机遇

字节跳动发布豆包视频生成大模型

OpenAI向ChatGPT付费用户开放高级语音模式