3B！性能直逼旗舰，百度又一新模型开源，图文视频全能解_社区互动

3B！性能直逼旗舰，百度又一新模型开源，图文视频全能解

创始人

2025-11-11 22:16:07

0次

智东西

作者 | 江宇

编辑 | 漠影

智东西11月11日报道，百度今日正式开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。

作为一款激活参数仅为3B的轻量级模型，该模型在视觉语言理解、跨模态推理和工具调用等多个方向实现能力跃升。目前，该版本在多项基准测试中表现逼近当前业界旗舰模型，实现了接近SOTA的视觉表现。

该模型基于ERNIE-4.5-VL-28B-A3B架构构建，并在中期训练阶段引入海量高质量视觉语言数据，有效提升了视觉与文本模态间的语义对齐能力。此外，该模型还通过大规模多模态强化学习优化任务执行效果，采用GSPO与IcePop策略稳定MoE结构，配合动态难度采样机制提升学习效率。

在此基础上，ERNIE-4.5-VL-28B-A3B-Thinking推出了“图像思考”等交互能力，支持图像放大、图像搜索等外部工具调用，为开发者构建具备感知与执行能力的多模态智能体提供了能力支撑。

一、“图像思考”能力释放交互潜力，定位与工具调用机制双升级

为进一步拓展模型在真实场景下的多模态交互能力，ERNIE-4.5-VL-28B-A3B-Thinking新增“图像思考”机制，支持用户在图像上进行自由放大缩小的焦点切换，并结合图像搜索等工具快速获取上下文信息。该能力尤其适用于处理长尾视觉知识、图像细节识别等任务。

同时，为响应开发者社区对“空间定位”能力的反馈，该模型在指令遵循性与定位触发机制上也进行了增强。用户可更灵活地控制模型触发视觉定位功能，在图像理解任务中实现语义到坐标的直接转换。

ERNIE-4.5-VL-28B-A3B-Thinking的工具调用能力也同步升级，支持在不确定图像环境下动态决策是否调用外部辅助工具，实现更高效的信息获取链条。此能力是构建多模态智能体的关键组成部分。

二、图像理解+定位+搜索+推理，完成多种复杂视觉难题

在官方展示的多个实际案例中，ERNIE-4.5-VL-28B-A3B-Thinking均展现出其图像解析与思维能力。

案例一：在一个涉及图表阅读的场景中，该模型成功解析出复杂公共交通图表中不同时间段的客流高峰，推理出避开高峰的出行策略。

案例二：在STEM题目中，该模型可根据拍照上传的电学题，识别电路结构并准确计算等效电阻结果。

案例三：在视觉定位任务中，该模型能够识别图中穿西装并佩戴礼帽的多位人物，并将其定位信息通过边界框形式可视化输出，实现从语义描述到图像坐标的转化。

▲测试图（上）和该模型执行视觉定位任务后输出的可视化展示图（下）。

案例四：配合“图像思考”能力，该模型在图像细节部分实现缩放聚焦。

案例五：在图片中识别出隐藏的IP角色或对象特征，进而调用图像搜索工具获取补充信息。

案例六：在视频理解部分，该模型具备在广告视频中定位不同时段内容变化的能力，可辅助关键片段抽取与内容分析。

这些案例覆盖了图表解析、学科解题、人物定位、图像检索与视频分析等不同类型的任务，呈现出该模型在图文结合、视觉推理及工具配合等方面的基础能力。

整体来看，ERNIE-4.5-VL-28B-A3B-Thinking在多个复杂视觉任务中完成度较高，为评估其在真实场景下的多模态适应性提供了初步参考。

结语：激活参数3B，落地复杂任务链

随着ERNIE-4.5-VL-28B-A3B-Thinking的开源，百度进一步丰富了其多模态模型体系中的应用层模块，为开发者提供了兼具计算效率与推理能力的开源模型选项。

在不依赖大规模激活参数的前提下，该模型已能覆盖图表解析、拍题解答、人物定位、视频分析等多个复杂场景，为多模态智能体的认知与执行提供了可落地的能力支撑。

未来，随着相关工具链与模型能力不断完善，这类具备“图像思考”能力的轻量模型，或将在真实环境中承担更多感知、判断与交互任务。

能力视觉图文旗舰模型定位图像任务全能案例模态

上一篇：外企看中国丨从产品创新到标准共建德国营养品牌inne持续深化本土协同战略

下一篇：天猫双11打响AI提效战

3B！性能直逼旗舰，百度又一新模型开源，图文视频全能解

相关内容

热门资讯