性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型_社区互动

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

创始人

2026-01-29 22:49:11

0次

1 月 29 日，百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构，在全球权威文档解析评测榜单 OmniDocBench V1.5 中取得全球综合性能第一成绩，整体精度达到 94.5%，超过 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。

PaddleOCR-VL-1.5 基于文心大模型进行开发，在 OmniDocBench V1.5 多个关键指标上取得领先表现。其中，表格结构理解（92.8 分）和阅读顺序预测（95.8 分）两项核心指标上均位列第一，分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中，其版面逻辑解析错误率仅为同类其他模型约一半。这表明，PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性，在合同、财报等高复杂度业务场景中拥有更高可用性。

2025 年 10 月 16 日，百度首次发布并开源 PaddleOCR-VL 模型，在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩，并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。

近半年来，全球主流模型厂商密集布局 OCR 领域。1 月 27 日，深度求索发布新一代 OCR 模型 DeepSeek-OCR-2，引入“因果流查询”机制，并将语言模型融入视觉编码，在 OmniDocBench V1.5 中实现 91.09% 精度。与此同时，Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型，行业竞争持续加剧。

业内分析认为，随着大模型加速进入金融、政务、制造等高复杂度业务流程，文档解析能力正从“能用”走向“稳定可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破，有望进一步降低产业应用门槛，推动 OCR 技术在真实生产环境中的深度落地。

目前，PaddleOCR-VL-1.5 已全面开源，开发者可通过 GitHub、Hugging Face 获取，并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用 API 接口。

在线使用/API：
https://www.paddleocr.com
开源项目地址
https://github.com/PaddlePaddle/PaddleOCR
模型下载地址：
https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

com 文档全球超越 -Pro 模型精度 PaddleOCR-VL- DeepSeek-OCR Gemini- 百度杂度 https

上一篇：上海AI实验室最新突破：让AI从无到有创造科学工具

下一篇：谷歌Chrome浏览器迎来重大Gemini AI升级

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

相关内容

热门资讯