支持109种语言，百度多模态文档解析模型开源

发布时间: 2025-10-18 12:45:45 来源：中国科学报

观看：76

10月16日，百度发布并开源自研多模态文档解析模型PaddleOCR-VL。其核心模型参数仅0.9B，轻量高效，能够在极低计算开销下，精准识别文本、手写汉字、表格、公式、图表等复杂元素，支持109 种语言，覆盖中文、英语、法语、日语、俄语、阿拉伯语、西班牙语等多语场景，广泛适用于政企文档管理、知识检索、档案数字化、科研信息抽取等文档智能任务。

作为文心4.5衍生模型，PaddleOCR-VL-0.9B通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型，在精度与效率上取得了新的突破。

精度方面，PaddleOCR-VL在文本编辑距离、公式识别、表格识别、阅读顺序预测误差等方面有着出色表现，其在复杂文档、手写稿、历史档案识别等高难度场景中亦表现稳定。

推理方面，在单张A100 GPU上，PaddleOCR-VL每秒可处理1881个Tokens，推理速度较现有模型有翻倍性能的提升。

据介绍，区别于传统OCR仅能逐行识别文字，PaddleOCR-VL能够读懂、理解复杂版面结构，精准提取财报表格、数学公式、课堂手写笔记等多元信息，并在识别后自动还原符合人类阅读习惯的阅读顺序，精准区分标题、正文、图片与图注，确保信息无遗漏、逻辑不混乱。

另据了解，在架构上，PaddleOCR-VL 创新性地采用两阶段架构：第一阶段由PP-DocLayoutV2 模型负责版面检测与阅读顺序预测；第二阶段由PaddleOCR-VL-0.9B识别并结构化输出文字、表格、公式、图表等元素。相较端到端方案，能够在复杂版面中更稳定、更高效，有效避免多模态模型常见的幻觉与错位问题。

人类蛋白质KRAS（蓝色）与其伴侣之一RAF1（黄色）相互作用的三维图。图片来源：西班牙巴塞罗那基因组调控中心科技日报北京12 2024年度中日韩前瞻计划项目指南 “中日韩前瞻计划”（A3 Foresight Program）是国家自然科学基金委员会（NSFC）与日本学 12月15日至16日，国家自然科学基金委员会管理科学部主办、首都经济贸易大学承办的数据要素与数字经济高层研讨会在首 ■本报记者冯丽妃日本当地时间1月1日16时10分，日本西海岸石川县能登半岛发生7.6级地震，震源深度30公里。截至根据近日发表于《男科学》的一项新研究，如果丈夫在妻子怀孕前有饮酒习惯，会对胎儿发育产生负面影响。经常饮酒的男性近日，中国科学院大连化学物理研究所研究员周光远和副研究员聂赫然团队，在高性能聚酰亚胺气凝胶结构设计和研究方面取。

本文链接：支持109种语言，百度多模态文档解析模型开源http://www.sushuapos.com/show-11-27168-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：蒋荣猛：肝炎防治应打通基层“最后一公里”

下一篇： “天府智农AI大模型”在四川发布

支持109种语言，百度多模态文档解析模型开源

热门资讯

推荐资讯

科学最热文章