Page 1: 第1页同学们好，今天我们来探讨一个名为 dots.ocr 的前沿技术。首先，我们需要理解它是什么。想象一下，当我们阅读一份复杂的文档，比如一份包含图表和分栏的报告时，我们的大脑会同时做两件事：第一，识别出哪里是标题，哪里是正文，哪里是表格；第二，阅读并理解这些部分的内容。传统的计算机程序通常需要两个或多个独立的“大脑”（模型）来分别完成这两项任务。而 dots.ocr 的突破之处在于，它将这两个过程整合进一个单一的、统一的“大脑”——即一个视觉语言模型。这个模型既能“看懂”文档的布局结构，又能“读懂”其中的文字内容，并且能以符合人类阅读习惯的顺序进行输出。更值得注意的是，它是在一个相对小巧的17亿参数量的语言模型基础上实现的，这在效率上具有显著优势。 Page 2: 第2页 dots.ocr 的卓越性主要建立在四大支柱之上。第一，是其强大的性能。在公认的行业基准测试 OmniDocBench 上，它在文本、表格处理和阅读顺序还原等关键任务上都达到了顶尖水平。第二，是其广泛的多语言支持。它不仅能处理主流语言，在处理资源较少的稀有语言文档时，同样表现出色。第三，是其统一简洁的架构。传统的文档解析方法，好比一个庞大的工厂流水线，每个工位（模型）只负责一道工序。而 dots.ocr 则更像一位技艺精湛的瑞士钟表匠，仅凭一个模型，通过变换指令（提示词），就能独立完成所有任务，既高效又优雅。最后，第四点，是其高效快速的性能。由于其模型基础相对紧凑，它的运行速度远超许多基于更大模型的系统，这在实际应用中至关重要。 Page 3: 第3页这张图表直观地展示了 dots.ocr 与其他主流模型在端到端评测中的性能对比。我们可以将这理解为一场包含了英语、中文和多语言三个赛道的“铁人三项”。蓝色、橙色和黄色条柱分别代表了各个模型在这些赛道上的得分。请注意观察最右侧的 dots.ocr，它不仅在英语（EN）项目中取得了最高分，在中文（ZH）和多语言（Multilingual）项目中也保持了极具竞争力的顶尖水平。相比之下，其他一些模型可能在某一单项上表现优异，但在其他项目上则出现明显短板。这种全面且均衡的强大性能，正是 dots.ocr 的核心优势所在。 Page 4: 第4页现在，我们深入分析第一个重要的评测基准——OmniDocBench。这个基准好比一场针对文档理解能力的“学术能力评估测试”，全面考察模型在各项任务上的表现。在这个表格中，我们关注三个关键指标：“Overall Edit”代表总体编辑距离，越低说明结果越接近完美；“Table TEDS”是表格树编辑距离，越高说明表格结构解析越准确；“Read Order Edit”是阅读顺序编辑距离，同样是越低越好。我们将 dots.ocr 与代表性的流水线工具（PPStruct-V3）以及顶尖的通用视觉语言模型（如Gemini 2.5 Pro）进行比较。数据清晰地表明，dots.ocr 在所有这三项关键指标上均取得了最优成绩。这证明了它作为专家模型的精确性与卓越性能。 Page 5: 第5页接下来，我们聚焦于文本识别这一核心能力。此处的评测，可以看作是让模型去阅读九种不同类型的文档——书籍、幻灯片、财务报告、学术论文等等，然后评估其识别内容的准确率。表格中的数值是编辑距离，代表了识别结果与原文的差异程度，因此数值越低，性能越好。我们节选了其中几种有代表性的文档类型进行对比。可以看到，无论是面对结构规整的书籍，还是格式严谨的财报与论文，dots.ocr 的错误率几乎在所有类别中都保持最低。这充分说明，它的识别能力并非只针对特定类型的文档，而是具有非常强大的泛化能力，能够稳定、准确地处理多种多样的现实世界文档。 Page 6: 第6页为了严格检验模型在多语言环境下的“实战”能力，研究团队构建了一个专门的测试集，名为 dots.ocr-bench。您可以把它想象成一个“联合国”级别的文档库，包含了来自100个不同语种的近1500份文档。这对于任何模型来说都是一个严峻的考验。评测结果非常清晰：无论是总体错误率、纯文本识别错误率，还是表格解析准确率，dots.ocr 都以显著的优势领先于包括 Gemini 2.5 Pro 在内的其他强大模型。特别是在文本识别上，它的错误率（0.075）远低于对手，这证明了其在处理全球多样化语言文档方面的卓越性能和鲁棒性。 Page 7: 第7页这一章节，我们来探讨一个非常有趣的问题：一个统一的、多功能的视觉语言模型，在“版面检测”这个单一、专业的任务上，能否匹敌甚至超越专门为此设计的传统模型？这就好比，一位全能的五项全能运动员，在“百米短跑”这个单项上，能否战胜专项的短跑选手？这里的 DocLayout-YOLO 就是那位“短跑选手”。评测指标是 F1 分数，越高代表检测越准。结果令人瞩目：dots.ocr 在所有项目——总体、文本、公式、表格——的检测准确率上，都全面且大幅度地超越了专门的检测模型。这个结果有力地证明了，视觉语言模型不仅能做检测，而且能做得更好，打破了“多功能必然牺牲单项精度”的传统认知。 Page 8: 第8页我们再来看最后一个基准测试集，olmOCR-bench。这个测试集模拟了许多现实世界中棘手的文档处理场景，比如扫描质量差的旧文档、排版复杂的多栏报纸，以及包含大量微小文字的页面。这就像是为模型设置了一场“障碍赛”。我们重点关注表格、多栏布局和基础识别这几项。数据显示，dots.ocr 在处理复杂的表格和多栏布局方面表现尤为突出，得分远超其他模型。在总体得分上，它也以79.1分位居榜首。这表明，dots.ocr 不仅在理想条件下的测试中表现优异，在应对真实世界中各种不完美、充满挑战的文档时，同样具备顶尖的解析能力。 Page 9: 第9页现在，我们进入实践环节，学习如何安装并运行 dots.ocr。整个过程可以概括为五个步骤，如同搭建一个工作台。首先，我们使用 Conda 创建一个独立的、干净的 Python 环境，这相当于为我们的项目准备一个专属的房间。然后，激活这个环境，即走进这个房间。第三步，从 GitHub 克隆项目仓库，这就像是把项目的全套图纸和原材料搬进房间。第四步，安装 PyTorch，这是驱动模型运行的核心引擎。最后，安装 dots.ocr 本身，完成所有组件的组装。如果在这个过程中遇到任何困难，官方还提供了一个预先配置好的 Docker 镜像，就像一个“拎包入住”的精装工作室，可以大大简化环境配置的复杂度。 Page 10: 第10页完成了环境的搭建，我们还需要获取模型的核心——它的“大脑”，也就是预训练好的模型权重文件。这好比我们已经组装好了计算机的硬件，现在需要安装操作系统和软件。操作非常简单，只需运行一个官方提供的下载脚本。你可以选择默认的下载源，或者通过添加参数，从另一个名为 modelscope 的镜像源进行下载，以备网络不佳时使用。这里有一个非常重要的注意事项，可以看作是一个临时的“施工规范”：保存模型的文件夹名称中，请不要使用句点“.”。例如，应该使用“DotsOCR”这样的名称，而不是“dots.ocr”。遵守这个规则可以避免后续部署中可能出现的问题。 Page 11: 第11页在部署模型，也就是让模型“上线服务”时，官方强烈推荐使用一个名为 vLLM 的框架。vLLM 如同一个为大型语言模型定制的高性能服务器引擎，能最大限度地发挥其推理速度。部署过程可以分为四个关键步骤。第一步是“注册”，需要让 vLLM 知道我们这个新模型的存在。第二步是设置环境变量，这相当于告诉系统去哪里寻找模型的代码文件。第三步是一个关键的技术操作，使用命令行工具在 vLLM 的启动程序中“注入”一行代码，从而在启动时加载我们的模型。最后一步，就是启动 vLLM 服务，并指定模型权重的路径。一旦服务器成功运行，它就变成了一个随时待命的、高效的文档解析服务接口。 Page 12: 第12页除了高性能的 vLLM 部署方案，我们也可以采用一种更通用、更标准的方法，即使用业界广泛应用的 Hugging Face Transformers 库。这好比，vLLM 是一辆追求极致速度的 F1 赛车，而 Transformers 库则是一辆性能可靠、适用性广的豪华轿车。虽然速度不及前者，但它在各种环境中都能良好运行。其核心逻辑分为四步：首先，加载模型和对应的处理器；其次，准备输入数据，将需要分析的图片和指令性的文字（Prompt）打包；然后，调用模型的生成函数，让模型进行“思考”并产生结果；最后，将模型输出的数字ID解码成我们能读懂的文本。完整的示例代码可以在项目中找到，它清晰地展示了这一标准流程。 Page 13: 第13页理论学习之后，我们来看如何在实践中运用 dots.ocr。项目提供了一个非常便捷的命令行工具，让我们可以像使用瑞士军刀一样，通过不同的指令来完成不同的任务。最常用的指令是进行“完全解析”，即同时完成版面检测和内容识别。如果你只想知道文档的结构，而不关心具体内容，可以使用“仅版面检测”模式。反之，如果你已经有了版面信息，或者只想提取所有文字，可以使用“仅文本识别”模式。更有趣的是“指定区域识别”功能，你可以通过提供坐标，让模型只分析图片中的特定区域，就像用放大镜精确地观察一个地方。这些灵活的指令，都是通过切换不同的“prompt”参数来实现的，充分体现了其架构的简洁性。 Page 14: 第14页当 dots.ocr 完成一次解析任务后，它会交付一份包含三项内容的“成果报告”。第一项是 `.json` 文件，我们可以将其理解为一份机器可读的、极其详尽的“结构分析图”。它用精确的数据记录了每一个版面元素的位置、类别和内容。第二项是 `.md` 文件，这是一份人类可读的“整理稿”。它将所有识别出的内容，按照正确的阅读顺序拼接起来，形成一篇干净流畅的 Markdown 格式文章。第三项是带有标注的图片文件，即在原图上绘制出所有识别到的版面框。这就像是一份“勘探标记图”，让我们能够直观地检查模型对文档结构的分析是否准确。这三份产出，分别满足了机器处理、人类阅读和人工校验的需求。 Page 15: 第15页现在，我们通过一些直观的案例来感受 dots.ocr 的强大能力。首先是处理包含复杂公式的文档，这是文档解析领域公认的一大难点。左侧是输入，一份来自物理学期刊的扫描件，具有双栏排版，并内嵌了大量复杂的数学公式。这对于模型来说，既要正确识别文本，又要理解公式的结构。右侧是 dots.ocr 的输出结果。我们可以看到，它不仅成功地将双栏内容合并为符合阅读习惯的单栏文本流，更令人印象深刻的是，它精确地识别并还原了所有的数学公式，并将其转换为标准的 LaTeX 格式。这就像一位既懂多国语言又精通数学的专业翻译，将复杂的学术文档完美地数字化了。 Page 16: 第16页除了公式，表格是另一类极具挑战性的文档元素。这张图展示了 dots.ocr 处理复杂表格的能力。左侧的原始文档是一篇医学研究报告，其中包含了带有嵌套表头（即表头分为多级）的复杂表格。这种结构对于传统 OCR 工具来说非常容易出错。再看右侧的输出结果，dots.ocr 不仅准确地定位到了表格区域，而且完美地解析了其内部的复杂结构，包括嵌套的表头和所有数据单元格，并将其转换成一个结构清晰、格式正确的 Markdown 表格。这个过程，好比一位经验丰富的数据分析师，能够快速地从杂乱的报告中提取出关键数据，并整理成规范的电子表格。 Page 17: 第17页我们之前在数据上验证了 dots.ocr 的多语言能力，现在通过一个实例来直观感受。这张图展示的是对一份藏语报纸的解析。处理藏文这样的非拉丁文字，本身就对 OCR 技术提出了很高的要求，再加上报纸的多栏复杂排版，难度更是倍增。在左侧的预览图中，我们可以看到模型已经用不同颜色的框准确地分割出了标题、文本栏和图片等不同区域。而在右侧的结果展示中，所有藏文文本都被准确地识别出来，并且按照正确的阅读顺序重新排列。这充分证明，dots.ocr 不仅认识这些文字，更理解这份报纸的排版逻辑，展现了其作为世界级“阅读家”的深厚功底。 Page 18: 第18页对于人类来说，阅读一份报纸时，我们自然知道应该先读完一栏再读下一栏，但对于计算机而言，这并非易事。这个例子就完美展示了 dots.ocr 如何解决“阅读顺序”这一难题。左图是一张典型的多栏报纸页面，模型在分析后，为每个文本块都标上了序号。这些序号代表了模型判定的阅读顺序。右图则是最终的输出结果，所有文本块被按照这个序号重新组合成了一篇连贯的、流畅的文章。这个过程，就如同将一堆打乱的拼图，按照正确的逻辑重新拼接成一幅完整的画面。这种能力对于确保数字化文档的可读性和信息完整性至关重要。 Page 19: 第19页任何技术都有其边界，坦诚地认识到局限性是科学发展的必要前提。dots.ocr 也不例外。首先，在处理结构极其复杂的表格和公式时，它的表现还未达到完美，并且目前它会忽略文档中的图片内容。其次，在某些特定条件下，解析可能会失败。例如，如果图片中的文字过于密集或分辨率过低，模型可能难以识别。此外，一长串连续的特殊符号有时也会干扰模型的判断。最后，尽管其单次推理速度很快，但对于需要同时处理成千上万份PDF的超大规模工业级应用场景，目前的版本在吞吐量上还存在优化空间。认识到这些不足，也为我们指明了未来的改进方向。 Page 20: 第20页最后，我们来展望一下 dots.ocr 的未来发展蓝图。这幅蓝图主要描绘了三个方向。第一，是“精益求精”。团队将继续致力于提升模型的核心能力，特别是表格和公式的解析精度，并使其 OCR 功能更加强大和通用。目标是打造一个更强、更快的模型。第二，是“拓展边界”。未来的目标是构建一个功能更广泛的通用感知模型，将物体检测、图像描述和文字识别等多种视觉任务整合到一个统一的框架中。这就像是从一个“文档专家”成长为一个“全能视觉顾问”。第三，是“深入理解”。未来的模型将不再仅仅是识别出“这里有张图”，而是要能理解并解析图片本身的内容。这无疑是一个激动人心的方向，也欢迎更多有志之士加入，共同推动文档智能技术的前沿探索。

Course based on GitHub - rednote-hilab/dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model