AI落地物理世界的第一引擎，vivo已先机在握_社区互动

AI落地物理世界的第一引擎，vivo已先机在握

创始人

2026-03-28 19:52:13

0次

► 文观察者网吕栋

大模型“月更”时代已经到来，春晚舞台上机器人开始打醉拳、翻跟斗，OpenClaw更是在极短时间内引发“养虾狂欢”......AI似乎已不再是实验室里的代码游戏，而是一种正在渗透进日常生活的真实力量。

但细究之下，一个显著的悖论也逐渐浮出水面：大模型能在几秒钟内写出媲美莎士比亚的十四行诗，却无法感知世界的温度；能画出堪比梵高的星夜画作，却无法预判一杯水即将从桌边滑落。

数字世界的认知能力在飞涨，物理世界的感知能力却几乎空白。这道横亘在数字与物理之间的鸿沟，正在成为AI走向现实世界最难突破的天花板。

“AI正处在从被动执行到主动感知、理解的关键转折点。”vivo总裁、首席运营官、vivo中央研究院院长胡柏山在博鳌亚洲论坛2026年年会上指出，AI要从虚拟世界走进现实，必须建立自己的感知体系，才能“看见”物理世界，而vivo 认为，影像是感知的基础。

在行业争相追逐大模型参数的喧嚣中，vivo选择了一条看似慢，但更稳、更长远的路：为AI构建完整的感知体系。这不是保守，而是对AI落地物理世界的深层预判：算力会被同质化，感知才是下一代智能的分水岭。

手机，将从工具迈向感知枢纽

每一次技术革命，最终都是通过消费终端完成对大众生活的渗透。

个人电脑让普通人用上了计算能力，智能手机让移动互联网装进了数十亿人的口袋。即便在最新一轮以人工智能为核心的技术革命中，这个规律依然没有改变。

“没有哪个设备比手机离人更近，一天24小时在身边，随时随地，包括生态都和手机关联，周边设备、平板等。”胡柏山给出一个明确判断：手机，是AI落地的“第一现场”。这个判断背后有三个支撑点：最广泛的触达力、全天候的交互能力、全场景的覆盖能力。

相比之下，无论是AR眼镜、智能音箱，还是正在兴起的人形机器人，目前都难以在覆盖广度、使用频次和场景完整性上与手机匹敌。胡柏山认为：未来十年，智能手机依然会是人机交互的主导载体。那时，手机将不仅是通讯工具，它将成为物理世界的感知枢纽，更是每个人的数字大脑。

这个判断并非空穴来风。当下众多科技巨头虽然都在布局下一代终端，但迄今为止，没有任何一个设备能像手机一样，同时具备高普及率、高黏性和高完整度的生态能力。

vivo的务实在于：与其坐等某个“颠覆性终端”横空出世，不如先在既有终端上完成最扎实的AI落地。因为真正的变革往往不是轰轰烈烈的宣言，而是润物细无声的渗透。

这也解释了为什么vivo要在长达十年的时间里持续投入AI，它不是在做短期风口上的赌博，而是在围绕手机这一核心载体，持续构建从底层到应用落地的全链条能力。当行业还在争论“AI手机”如何定义时，vivo已逐步将AI能力沉淀为手机的日常体验。

感知，才是AI时代的护城河

如果说手机是AI落地的“第一现场”，那么什么才是AI真正理解物理世界的“第一能力”？

当前的大模型无疑是专家，也是大师。OpenAI的GPT系列、谷歌的Gemini、微软的Copilot，在语言理解、内容生成、逻辑推理上不断刷新上限。但胡柏山在演讲中提出了一个核心观点：没有感知能力，AI就像是困在黑屋子里的“大师”，算力再强，也看不见咫尺之外的世界。

这句话值得反复咀嚼。

算力层面的竞争，本质上是资本和工程能力的竞争。更大规模的参数、更多的训练数据、更先进的芯片，这些固然可以构筑短期的技术壁垒，但长期来看，算力一定会走向同质化。真正能让一个智能设备“懂你”的，是它对这个世界的感知能力。

而感知能力的关键，在于影像。

影像技术通过光学系统、成像处理、空间计算等全链路能力，完成了物理世界的数字化投射与三维场景重建。它是AI看懂物理世界、理解真实场景，进而感知情绪、预测行动的基础。

“在物理世界，没有影像，AI是失明的天才；没有AI，影像是沉默的记录。当两者相遇，天才有了眼睛，记录有了灵魂。”胡柏山认为，当前的大模型利用的是过去积累的数字资产，但这些资产并不能解决我们对当前物理世界认知的能力。

一个直观的对比是：当前的大模型能写出关于“猫”的百科式描述，却无法理解猫在沙发上跳跃的可能轨迹，无法预判它下一秒可能打翻水杯的关联，更无法感知它此刻慵懒的情绪。

原因很简单，AI没有“看见”。

这似乎也解释了为什么苹果要持续投入计算摄影和空间感知，为什么谷歌会在Gemini模型基础上，疯狂尝试“智能体视觉”，为什么微软和OpenAI正在探索将视觉能力作为下一代多模态模型的核心方向。因为他们可能也意识到了：AI下半场的决胜点，在于对物理世界的感知与理解。

而感知体系的建立，影像是最自然的入口。

胡柏山在演讲中分享的两个真实故事，让这个技术判断有了人性的温度。宝哥带着导盲犬阿尔法和一部vivo手机环游中国，“vivo看见”帮他记住了每个人的样子；诺子站在冰岛的冰河湖旁，手机里的AI为她描述湖面漂浮的冰块、拍照的游客和远处飞过的海鸟。

这是影像感知世界最美好的表达，也是为什么vivo要把影像拔高到决定AI未来的战略高度，因为只有看见世界，才能改变世界。

“影像＋AI”，vivo将构建完整感知体系

战略判断之后，就是落地路径。

基于“影像+AI”的双核驱动，vivo正在构建一套完整的感知体系。胡柏山在演讲中明确了两个方向：重塑手机，和智及万物。

先看第一个方向：重塑手机。

这还只是起点。未来vivo折叠旗舰X Fold系列将重点布局办公、出行Agent，开会时默默记录，出差时主动规划航班、天气、酒店；性能旗舰iQOO系列则聚焦游戏Agent，自动优化性能、录制高光时刻。

胡柏山判断，手机将从现在的Smart Phone进化为Agent Phone。它不再是被动等待指令的工具，而是一个能看见、能思考、能行动的“数字伙伴”。从vivo目前透露的AI Agent规划，我们可以看到vivo正在用AI放大手机的差异化体验，在未来，这些可以记住每一个用户个性化特征和习惯的Agent，会和留住记忆的影像一起，组成每个人专属的“数字DNA”。

“要把手机变成增量市场，手机整个体验必须要有很大的突破和变化才行。所以，从Smart phone变成Agent phone，就是要把存量市场变成增量市场，但是在增量市场里面我们还是要继续把影像、游戏作为长板。”胡柏山说道。

再看第二个方向：智及万物。

去年，vivo成立了机器人Lab。很多人好奇：一家手机厂商为什么要做机器人和混合现实头显？胡柏山的回答是：回归本原——视觉是所有智能设备最自然的第一感知方式。

vivo将资源投入到三个核心的HUB型产品：手机、头显、机器人，并以此为基础将“影像+AI”的能力普及万物。手机是感知源头，端侧记住每一个用户的个性化特征与习惯；MR头显是空间计算的训练场，通过vivo Vision构建空间感知，理解空间结构、几何关系；而家庭机器人作为智能的终极形态，将汇聚感知并作用于物理世界。

这种策略背后其实是一种务实的技术哲学。感知体系的构建不是一蹴而就的，它需要从最基础的场景开始，逐步积累能力、扩展边界。vivo的目标是，从手机到头显，从穿戴设备到家庭机器人，所有设备将共享同一个“视觉+大脑”，共同实现对物理世界的精准感知与交互。

这与亚马逊构建Alexa生态的逻辑有异曲同工之处，从一个核心场景（智能音箱）出发，逐步扩展到数十种设备形态，最终形成一个无处不在的智能服务体系。不同之处在于，vivo已在影像赛道握住了先机，而影像天然具有更强的感知属性和更丰富的场景延展性。

迈向“数字DNA”时代，人始终是主角

当影像的感知能力与AI大脑深度融合，并延展到手机、MR头显、机器人等“万物”之中，最终会为人类社会孕育出什么？

胡柏山给出一个极具想象力的答案：未来的人们，将拥有两个生命——一个物理生命，会老去；一个数字生命，可传承。影像留住记忆，AI懂你习惯——两者的融合，将写下属于每个人的“数字DNA”。

今天，我们手机里的照片和视频，承载了每个人一生中最真实的记忆；运行在设备里的AI Agent，在你的同意下，每天都在默默学习你的生活习惯、偏好、社交关系。当这两者交织融合，就形成了一份独一无二、带有你浓厚个人印记的数据资产。

而vivo也构建了自己的技术伦理和不可逾越的底线——以芯片级安全架构，守护用户隐私安全。这份最懂用户的“数字DNA”，完全属于用户，也只属于用户。“懂用户、知人心，但不越边界。”胡柏山说道。

站在2026年的路口，AI技术革命带来了无限的想象空间。但胡柏山在演讲的最后，将视角拉回到了最根本的原点：AI时代真正的主角，从来不是手机、眼镜、机器人，或其他任何形态的终端，而是生活里每一个鲜活的人。

去年在博鳌论坛，他曾说：“科技的高度，终须回归人的尺度。”今年，这句话变得前所未有的重要。当科技赋予AI“眼睛”，让AI与这个世界进行“对视”时，它看到的不应只是矩阵、空间，更应看到温度与情感，人性与情绪。

回到最初的问题：当AI被困在“黑屋子”里，谁将为它打开那扇窗？

vivo的答案是——影像。但影像不是目的，感知才是；感知不是终点，人始终是起点。在这场AI与物理世界的深情“对视”中，技术的终极使命不是替代人，而是理解人、陪伴人、成就人。

能力引擎在握手机物理 OpenClaw 模型 vivo 柏山世界原创新闻胡柏山影像

上一篇：上海时装定制节启幕：AI科技助力，定制也能“云量体”

下一篇：原创 AI 人才大迁徙！华为王云鹤离职创业，OpenAI关停 Sora

AI落地物理世界的第一引擎，vivo已先机在握

相关内容

热门资讯