3B!性能直逼旗舰,百度又一新模型开源,图文视频全能解
创始人
2025-11-11 22:16:07
0

智东西

作者 | 江宇

编辑 | 漠影

智东西11月11日报道,百度今日正式开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking

作为一款激活参数仅为3B的轻量级模型,该模型在视觉语言理解、跨模态推理和工具调用等多个方向实现能力跃升。目前,该版本在多项基准测试中表现逼近当前业界旗舰模型,实现了接近SOTA的视觉表现

该模型基于ERNIE-4.5-VL-28B-A3B架构构建,并在中期训练阶段引入海量高质量视觉语言数据,有效提升了视觉与文本模态间的语义对齐能力。此外,该模型还通过大规模多模态强化学习优化任务执行效果,采用GSPO与IcePop策略稳定MoE结构,配合动态难度采样机制提升学习效率。

在此基础上,ERNIE-4.5-VL-28B-A3B-Thinking推出了“图像思考”等交互能力,支持图像放大、图像搜索等外部工具调用,为开发者构建具备感知与执行能力的多模态智能体提供了能力支撑。

一、“图像思考”能力释放交互潜力,定位与工具调用机制双升级

为进一步拓展模型在真实场景下的多模态交互能力,ERNIE-4.5-VL-28B-A3B-Thinking新增“图像思考”机制,支持用户在图像上进行自由放大缩小的焦点切换,并结合图像搜索等工具快速获取上下文信息。该能力尤其适用于处理长尾视觉知识、图像细节识别等任务。

同时,为响应开发者社区对“空间定位”能力的反馈,该模型在指令遵循性与定位触发机制上也进行了增强。用户可更灵活地控制模型触发视觉定位功能,在图像理解任务中实现语义到坐标的直接转换。

ERNIE-4.5-VL-28B-A3B-Thinking的工具调用能力也同步升级,支持在不确定图像环境下动态决策是否调用外部辅助工具,实现更高效的信息获取链条。此能力是构建多模态智能体的关键组成部分。

二、图像理解+定位+搜索+推理,完成多种复杂视觉难题

在官方展示的多个实际案例中,ERNIE-4.5-VL-28B-A3B-Thinking均展现出其图像解析与思维能力。

案例一:在一个涉及图表阅读的场景中,该模型成功解析出复杂公共交通图表中不同时间段的客流高峰,推理出避开高峰的出行策略。

案例二:在STEM题目中,该模型可根据拍照上传的电学题识别电路结构并准确计算等效电阻结果

案例三:在视觉定位任务中,该模型能够识别图中穿西装并佩戴礼帽的多位人物,并将其定位信息通过边界框形式可视化输出,实现从语义描述到图像坐标的转化

▲测试图(上)和该模型执行视觉定位任务后输出的可视化展示图(下)。

案例四:配合“图像思考”能力,该模型在图像细节部分实现缩放聚焦

案例五:在图片中识别出隐藏的IP角色或对象特征,进而调用图像搜索工具获取补充信息

案例六:在视频理解部分,该模型具备在广告视频中定位不同时段内容变化的能力可辅助关键片段抽取与内容分析

这些案例覆盖了图表解析、学科解题、人物定位、图像检索与视频分析等不同类型的任务,呈现出该模型在图文结合、视觉推理及工具配合等方面的基础能力。

整体来看,ERNIE-4.5-VL-28B-A3B-Thinking在多个复杂视觉任务中完成度较高,为评估其在真实场景下的多模态适应性提供了初步参考。

结语:激活参数3B,落地复杂任务链

随着ERNIE-4.5-VL-28B-A3B-Thinking的开源,百度进一步丰富了其多模态模型体系中的应用层模块,为开发者提供了兼具计算效率与推理能力的开源模型选项。

在不依赖大规模激活参数的前提下,该模型已能覆盖图表解析、拍题解答、人物定位、视频分析等多个复杂场景,为多模态智能体的认知与执行提供了可落地的能力支撑。

未来,随着相关工具链与模型能力不断完善,这类具备“图像思考”能力的轻量模型,或将在真实环境中承担更多感知、判断与交互任务。

相关内容