百度开源Unlimited OCR模型:解析文档告别AI越生成越慢
创始人
2026-06-26 00:52:19
0

IT之家 6 月 25 日消息,百度于 6 月 22 日开源推出 Unlimited OCR 模型,总参数量 30 亿,推理时仅激活 5 亿参数,目标解决在解析长文档时,端到端 OCR 模型越生成越慢的问题。

IT之家注:端到端 OCR 模型是统一神经网络架构系统,融合检测图像中的文本和字符识别,摒弃了传统“先检测文字框、再单独识别”的繁琐流程,直接从输入图像映射到文本序列输出,从而减少信息丢失和计算冗余。

主流端到端 OCR 模型每生成 1 个 token,都会扩大 KV cache(键值缓存),显存占用和延迟随之上升,导致在用户的感知中,AI 解析多页文档后越生成越慢。

Unlimited OCR 延续 DeepSeek OCR 架构,保留 DeepEncoder 与 Mixture-of-Experts(混合专家,MoE)解码器。模型总参数量为 30 亿,但推理时只激活 5 亿参数。

Unlimited OCR 编码端采用两级视觉编码,并在连接阶段执行 16 倍 token 压缩,让 1024×1024 的 PDF 图像压缩为 256 个视觉 token,从源头减轻预填充负担。

训练方面,Unlimited OCR 基于 DeepSeek OCR 检查点继续训练 4000 步,冻结 DeepEncoder,只训练解码器。训练数据约 200 万份文档样本,运行在 8×16 A800 GPU 上。数据配比为单页与多页约 9:1,多页样本通过拼接构造。

基准测试显示,Unlimited OCR 在 OmniDocBench v1.5 上整体得分 93.23,高于 DeepSeek OCR 的 87.01,也高于 DeepSeek OCR 2 的 89.17。

其文本编辑距离为 0.038,公式 CDM 为 92.61,表格 TEDS 为 90.93,读序编辑距离为 0.045。在 OmniDocBench v1.6 上,模型整体得分进一步达到 93.92。

参考

相关内容

热门资讯

智能体AI如何变革芯片设计与验... 关键要点:智能体AI有望提升工程师的工作效率,加快产品上市速度,并将部分重复性工作自动化。对于芯片设...
AI时代如何守卫信息安全?石景... 比耶拍照、随手转发、下载陌生工具……这些习以为常的日常动作里,正藏着换脸诈骗、生物信息泄露、虚假信息...
AI辟谣短剧:《汛情谣言零容忍... 出品:湖北网络辟谣&极目新闻
当AI长出双手,耳畔亦有全能助... 2026年,AI产业迎来全新拐点。从对话问答到自主执行,从虚拟交互到实体落地,左手智能体思考决策,右...
百度开源Unlimited O... IT之家6月25日消息,百度于6月22日开源推出UnlimitedOCR模型,总参数量30亿,推理时...
网易有道开源Confucius... 网易有道近日发布“子曰4.0”TTS语音合成引擎Confucius4-TTS,并已将该模型全量开源。...
M-Robots社区正式启动共... 6月25日上午,2026开放原子开源生态大会在北京北人亦创国际会展中心盛大开幕。作为大会开幕式的重要...
开源鸿蒙社区底座共建研讨会成功... 2026年6月25日,由开源鸿蒙项目群工作委员会主办的“开源鸿蒙社区底座共建研讨会"在北京成功召开。...
领益智造涨10.03%,开源证... 今日领益智造(002600)涨10.03%,收盘报17.66元。2026年5月6日,开源证券研究员陈...