商汤开源Agentic VLM模型,超越Gemini-3-Pro
创始人
2026-01-30 14:48:01
0

图片由AI生成

商汤正式开源多模态自主推理模型SenseNova-MARS(8B/32B双版本)。这是商汤首个支持动态视觉推理和图文搜索深度融合的Agentic VLM模型,能自己规划步骤、调用工具,搞定复杂任务,让AI具备“执行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA成绩,超越了Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大领域领跑。

在MMSearch榜单(图文搜索核心评测)中,模型以74.27分登顶,超过GPT-5.2(66.08分);HR-MMSearch(高清细节搜索评测)中以54.43分领先,拉开与闭源模型的差距。图片来源:SenseNova-MARS技术报告

简单理解,该模型解决的问题有二:“查遍全网”的知识密集型任务,“火眼金睛”的细粒度视觉分析。

SenseNova-MARS能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。

市面上一些AI的工具调用,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务会束手无策。

而SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

图片来源:SenseNova-MARS技术报告

同时,SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。

图片来源:SenseNova-MARS技术报告

此外,SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。

拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,实现工作效率提升。

  • 图像裁剪:聚焦图片上的微小细节,包括占比不到5%的细节——比如赛车手衣服上的微小Logo、赛事照片里观众席的标语,可通过裁剪放大清晰分析。
  • 图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。
  • 文本搜索:抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据。

之所以能够实现上述能力,SenseNova-MARS采用了“因材施教”的训练方法。

第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。

用筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。

第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。

这种基于双阶段归一化的优雅机制,有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练,AI不仅学会了用工具,更培养“工具使用直觉”——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。

商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持Hugging Face直接下载。(作者|李程程,编辑|李玉鹏)

相关内容