图片由AI生成
商汤正式开源多模态自主推理模型SenseNova-MARS(8B/32B双版本)。这是商汤首个支持动态视觉推理和图文搜索深度融合的Agentic VLM模型,能自己规划步骤、调用工具,搞定复杂任务,让AI具备“执行能力”。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA成绩,超越了Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大领域领跑。
在MMSearch榜单(图文搜索核心评测)中,模型以74.27分登顶,超过GPT-5.2(66.08分);HR-MMSearch(高清细节搜索评测)中以54.43分领先,拉开与闭源模型的差距。图片来源:SenseNova-MARS技术报告
简单理解,该模型解决的问题有二:“查遍全网”的知识密集型任务,“火眼金睛”的细粒度视觉分析。
SenseNova-MARS能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。
市面上一些AI的工具调用,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务会束手无策。
而SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。
图片来源:SenseNova-MARS技术报告
同时,SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。
图片来源:SenseNova-MARS技术报告
此外,SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。
拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,实现工作效率提升。
之所以能够实现上述能力,SenseNova-MARS采用了“因材施教”的训练方法。
第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。
用筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。
第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。
这种基于双阶段归一化的优雅机制,有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而解决了跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练,AI不仅学会了用工具,更培养“工具使用直觉”——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持Hugging Face直接下载。(作者|李程程,编辑|李玉鹏)