智东西
作者 | 江宇
编辑 | 漠影
智东西11月11日报道,百度今日正式开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。
作为一款激活参数仅为3B的轻量级模型,该模型在视觉语言理解、跨模态推理和工具调用等多个方向实现能力跃升。目前,该版本在多项基准测试中表现逼近当前业界旗舰模型,实现了接近SOTA的视觉表现。
该模型基于ERNIE-4.5-VL-28B-A3B架构构建,并在中期训练阶段引入海量高质量视觉语言数据,有效提升了视觉与文本模态间的语义对齐能力。此外,该模型还通过大规模多模态强化学习优化任务执行效果,采用GSPO与IcePop策略稳定MoE结构,配合动态难度采样机制提升学习效率。
在此基础上,ERNIE-4.5-VL-28B-A3B-Thinking推出了“图像思考”等交互能力,支持图像放大、图像搜索等外部工具调用,为开发者构建具备感知与执行能力的多模态智能体提供了能力支撑。
一、“图像思考”能力释放交互潜力,定位与工具调用机制双升级
为进一步拓展模型在真实场景下的多模态交互能力,ERNIE-4.5-VL-28B-A3B-Thinking新增“图像思考”机制,支持用户在图像上进行自由放大缩小的焦点切换,并结合图像搜索等工具快速获取上下文信息。该能力尤其适用于处理长尾视觉知识、图像细节识别等任务。
同时,为响应开发者社区对“空间定位”能力的反馈,该模型在指令遵循性与定位触发机制上也进行了增强。用户可更灵活地控制模型触发视觉定位功能,在图像理解任务中实现语义到坐标的直接转换。
ERNIE-4.5-VL-28B-A3B-Thinking的工具调用能力也同步升级,支持在不确定图像环境下动态决策是否调用外部辅助工具,实现更高效的信息获取链条。此能力是构建多模态智能体的关键组成部分。
二、图像理解+定位+搜索+推理,完成多种复杂视觉难题
在官方展示的多个实际案例中,ERNIE-4.5-VL-28B-A3B-Thinking均展现出其图像解析与思维能力。
案例一:在一个涉及图表阅读的场景中,该模型成功解析出复杂公共交通图表中不同时间段的客流高峰,推理出避开高峰的出行策略。
案例二:在STEM题目中,该模型可根据拍照上传的电学题,识别电路结构并准确计算等效电阻结果。
案例三:在视觉定位任务中,该模型能够识别图中穿西装并佩戴礼帽的多位人物,并将其定位信息通过边界框形式可视化输出,实现从语义描述到图像坐标的转化。
▲测试图(上)和该模型执行视觉定位任务后输出的可视化展示图(下)。
案例四:配合“图像思考”能力,该模型在图像细节部分实现缩放聚焦。
案例五:在图片中识别出隐藏的IP角色或对象特征,进而调用图像搜索工具获取补充信息。
案例六:在视频理解部分,该模型具备在广告视频中定位不同时段内容变化的能力,可辅助关键片段抽取与内容分析。
这些案例覆盖了图表解析、学科解题、人物定位、图像检索与视频分析等不同类型的任务,呈现出该模型在图文结合、视觉推理及工具配合等方面的基础能力。
整体来看,ERNIE-4.5-VL-28B-A3B-Thinking在多个复杂视觉任务中完成度较高,为评估其在真实场景下的多模态适应性提供了初步参考。
结语:激活参数3B,落地复杂任务链
随着ERNIE-4.5-VL-28B-A3B-Thinking的开源,百度进一步丰富了其多模态模型体系中的应用层模块,为开发者提供了兼具计算效率与推理能力的开源模型选项。
在不依赖大规模激活参数的前提下,该模型已能覆盖图表解析、拍题解答、人物定位、视频分析等多个复杂场景,为多模态智能体的认知与执行提供了可落地的能力支撑。
未来,随着相关工具链与模型能力不断完善,这类具备“图像思考”能力的轻量模型,或将在真实环境中承担更多感知、判断与交互任务。