AI 的“放缓论”,正在成为这个时代最大的幻觉之一。
人们觉得 GPT-5 没有“炸裂感”,于是认定 AI 的进步正在减速。但 Nathan——那个和 OpenAI、Anthropic、DeepMind 一线研究者长期对话、主持爆款播客《The Cognitive Revolution》的分析师——给出的判断完全相反:AI 并没有变慢,它只是在加速进入一个人类肉眼还看不清的深层阶段。
在他看来,AI 的演进早已超越了模型规模的堆叠,而进入了“推理时间”“多模态理解”“工具协作”三个新维度的指数级增长。任务长度每四个月翻一倍,这意味着智能体的“思考时间”从几分钟延长到几小时、几天,甚至几周。那已经不是“聊天机器人”,而是一支可以自动完成科研、工程、编程乃至政策分析的“AI 团队”。它不再等待人类提问,而开始主动探索问题——这正是递归自我改进的起点。
为什么我们会误以为 AI 停滞?Nathan 的回答是:因为 GPT-5 的变化,发生在“智能结构层”,而不是“用户体验层”。今天的模型可以读完十几篇论文并跨模态推理,可以理解图像、表格、视频,甚至具备“科学直觉”——能在生物学和材料科学中提出可被验证的新假设。换句话说,AI 已经不只是“理解世界”,而开始“重新发现世界”。
但伴随这种加速的,是风险的同步膨胀。Nathan 直言:模型越聪明,越可能出现“奖励黑客”“隐性谋划”“伪装顺从”的行为。AI 会学会骗人、装傻、篡改目标,而我们仍没有彻底的防线。每一代模型都让风险更隐蔽、更智能化。AI 的进步是一场能力提升与不确定性之间的竞速。
更关键的是,AI 的边界不再是语言,而是模态。 接下来的爆发点,不是更聪明的对话,而是现实世界的融合:自动驾驶、机器人、生物模型、工业仿真。当 AI 可以直接操纵机械臂、实验仪器、金融系统,它获得的反馈将不再来自互联网,而来自物理世界本身。那一刻,AI 终于走出了“语言牢笼”,进入真正的“学习闭环”。
在地缘政治层面,Nathan 也给出一个颇具颠覆性的观察*80% 的新兴 AI 创业公司正在使用中国的开源模型。这意味着中国在开源生态上的性能与成本优势,已经让全球创业者无法忽视。AI 的竞争不再是美中对抗,而是“美中 + 开源 vs 世界其他国家”的三层格局。
在他看来,接下来十年最重要的任务,不是预测 AGI 何时到来,而是回答一个更深的问题:当它真的出现,我们希望它成为谁的延伸,谁的伙伴,谁的镜子。
图片来源:a16z
Nathan:AI并不等同于语言模型。目前,AI正基于非常相似的架构,针对各种不同的模态进行开发,而且那些领域的数据量更为庞大。反馈也开始从现实世界中涌现。也许,我们正在逐渐耗尽那些已经解决的问题。
当我们开始为下一代模型配备这些强大的工具,而它们能够着手解决以往未能攻克的工程难题时,我认为,我们可能正在触及某种看起来有点像“超级智能”的领域。
Erik:Nathan,非常高兴你首次做客a16z播客。显然,我们做播客搭档已经很久了,一直是你主持着《认知革命》节目,欢迎你。
Nathan:很高兴来到这里。
Erik:我们之前聊到Cal Newport在播客上关于“失落的辩论”的露面,我们觉得这是个很好的机会,来深入探讨一下“AI发展是否在放缓”这个广泛的话题。那么,你能否先概括一下你从他那里听到的,或者更广泛流传的一些论点,然后我们再展开更深入的讨论。
Nathan:好的。我认为非常重要的一点是,要把关于AI的几个不同问题区分开来。一个是,它眼下对我们有好处吗?从长远来看,它未来会对我们有益吗?然后,我认为这又是一个与“我们所见证的能力是否仍在以相当快的速度持续进步”截然不同的问题。
实际上,在你分享给我的Cal Newport那期播客中,对于AI可能已经对人类产生的一些负面影响,我有很多共鸣。Cal观察到学生们如何利用AI变得懒惰,这其实不是什么新发现,我想很多老师都会告诉你同样的情况。他用更学术化的语言指出,人们甚至不一定是效率提高了,而是通过让AI代劳,减轻了他们大脑需要承担的工作负担。如果这种趋势持续下去,我认为Cal一直是社交媒体影响方面非常有价值的评论者,当然,我们都应该警惕自己的注意力持续时间是如何随时间演变的,比如我是否正在变得对艰苦的脑力工作感到畏难或厌恶。如果在自己身上发现这些苗头,那可不是好兆头。
所以,我认为他提醒大家注意这类事情是非常正确的。同时,正如我们过去多次讨论过的,我对AI的最终影响也确实存有很多疑问。我想他可能也是。但在我看来,奇怪的一步是从这些当前的担忧以及可能的长期问题,直接跳到“别担心,AI发展正在趋于平稳”——这有点像一边担心,一边又安慰说别担心,因为它不会比现在走得更远,或者说发展的限制已经显现,我们不会再得到比现在更强大的AI了,甚至可能是最容易反驳的说法……
学生是否变得更懒了?
Nathan:从我的个人体验来看,确实有这种情况。我自己也承认有过类似的经历。比如现在当我尝试写代码时,很多时候我会想,“天啊,AI能不能直接搞定?”我甚至懒得自己去阅读和理解那段代码,只为了让它能运行起来。再试一次,就再试一次。我确实发现自己有时会陷入这种依赖。但我想说的是,我能陷入这种状态的一个重要原因,恰恰是AI正变得越来越强大,越来越让人觉得它们真的能解决问题。所以,这是我对听到的那些观点的初步反应。
或许可以画一个二乘二的矩阵:一个维度是“你认为AI是好是坏”(包括现在和未来),另一个维度是“你认为它的影响是小事还是大事”。
我认为AI在好和坏两个方面都将是大事。我最难理解的是那些不认为这是大事的人,在我看来这似乎相当明显,尤其是再次谈到从GPT-4到GPT-5的飞跃时。也许出现这种看法的一个原因是,在GPT-4和5之间,有更多的中间版本发布。所以人们用来比较的,可能是比如几个月前才出来的o3,对吧?它只在GPT-5发布前几个月出现。
而GPT-4问世时,紧跟在ChatGPT之后,那是一个“哇,这东西横空出世”的时刻,很多人是第一次见识到它的能力。如果你回头看GPT-3,那是一个巨大的飞跃。我认为从GPT-4到5的飞跃是类似的。这些东西很难用单一分数衡量。当然有损失函数的值,但最大的挑战之一是,损失值在多大程度上能转化为实际能力。所以,很难确切描述到底发生了什么变化。
但如果你有兴趣,我们可以探讨一些变化的维度,列举一些我认为人们可能已经开始视为理所当然、甚至有点淡忘的事情,比如GPT-4发布时并没有我们现在对GPT-5所期待的许多功能,因为我们在o1、o3等版本中已经见识过了,这些东西可能在一定程度上让大家对于上一次重大发布所带来的进展感知变得麻木了。
Erik:我有几个想法。一是,甚至可以让你的二乘二矩阵更复杂一点,比如,是现在不好,还是以后不好?像Cal,我们俩都很钦佩他,顺便说一句,Cal是个很棒的人,是思想领域宝贵的贡献者,但他并不那么担心未来的AI风险,就是那些AI安全人士和许多其他人所担忧的。他更关心的是,AI对当下的认知表现和发展意味着什么,就像他担心社交媒体的影响一样。
你认为这是一个值得关注的问题,但远不如对未来风险的担忧那么严重。然后他还提出了一个为什么我们不应该担心未来的理论,因为它正在放缓。我们何不分享一下我们是如何理解他的历史观的,我理解他的观点大致是:我们搞明白了这个简单版本,即我们找到了这种方法,如果你把海量数据扔进模型,它会变得更好,是数量级上的提升,所以GPT-2到GPT-3,然后GPT-3到GPT-4之间的差异是显著的,但随后它达到了收益显著递减的点,我们在GPT-5上没有看到这种量级的提升,因此我们不必再过度担心了。你会如何修正对他关于这段历史看法的描述,然后我们可以深入探讨四代和五代之间的具体差异。
Scaling Law、GPT-4.5与GPT-5带来的变化
Nathan:关于 的想法,绝对值得花点时间指出,它并非自然法则。我们并没有原则性的理由相信Scaling Law是某种可以无限期持续下去的定律。我们真正知道的是,到目前为止,它已经在好几个数量级上保持了这种趋势。我认为目前还很不清楚,Scaling Law是已经逐渐失效,还是我们只是找到了一个更陡峭的改进路径,让我们在另一个可以推进的方面获得了更好的投资回报率。
他们确实训练了一个大得多的模型,就是GPT-4.5,并且发布了。当然,有数不清的基准测试,但我最关注的一个用来理解GPT-4.5与o3和GPT-5关系的基准是一个叫做Simple QA的测试,这基本上就是一个超级长尾琐事知识基准。它真的只是衡量你是否知道大量冷门事实,这些事实你无法真正推理,要么知道,要么不知道。
o3系列的模型在这个基准上得分大约是50%,而GPT-4.5跃升到了65%左右。换句话说,对于上一代模型不知道的东西,它掌握了其中的三分之一。显然还有三分之二有待掌握,但我会说这是一个相当显著的飞跃,对吧?这些都是超级长尾问题。我认为大多数人得分会接近零。就像你在问答之夜坐在那里,可能一晚上只答对一道题的人,这就是我对大多数人在Simple QA上表现的预期。而且,这说得通,对吧?显然,模型在事实和世界一般信息方面比我们知道得多得多。所以至少,你可以说GPT-4.5知道的要多得多。
一个更大的模型能够吸收更多的事实。定性地看,人们也说在某些方面,比如创意写作,它可能更好。它从未接受过像GPT-5那样强大的后期训练。所以,我们没有完全对等的比较,但人们仍然发现它有一些用处。
我想,也许理解他们为什么将其下线并全力投入GPT-5的原因是,那个模型真的很大,运行成本高昂。它的价格比GPT-5高出一个数量级还多,也许对他们来说,消耗所有计算资源来服务这个模型并不划算,而且他们可能发现人们目前对稍小一些的模型已经足够满意了。我不认为这意味着我们永远不会看到一个更大的、具备所有那些推理能力的GPT-4.5模型,我预计那会带来更多价值,特别是如果你真的要去尝试做一些推动科学前沿的深奥事情。
但与此同时,当前的模型确实非常智能,而且你也可以给它们输入大量上下文。这是上一代模型以来改进巨大的一个方面。当GPT-4刚推出时,至少我们作为公共用户拥有的版本只有8000个token的上下文,大约相当于15页文本。所以你受到限制,甚至无法输入几篇论文,上下文就会溢出。这也正是提示工程最初兴起的原因,就像“天啊,我能提供的信息就这么一点点,我必须非常小心地选择提供什么信息,以免溢出导致它无法处理”。此外,随着上下文窗口的扩展,也曾有过一些模型版本,它们名义上可以接受更多上下文,但实际上无法有效利用。它们大致上能在API调用层面容纳,但模型会失去回忆能力,或者在处理越来越长的上下文时会“崩溃”。现在,显然有了更长的上下文窗口,并且对上下文的掌握能力非常非常好。所以,你可以在最长的上下文窗口(比如Gemini)中输入几十篇论文,它不仅能接受,还能对它们进行相当深入的推理,并且对这些输入的保真度非常高。
所以,这种技能我认为在某种程度上可以替代模型自身知晓事实。你可以选择:是努力推进模型规模,把一切都固化到模型里;还是尽量从一个更小更紧凑的模型中获得尽可能多的性能,通过提供上下文来让它访问相同的事实?看起来他们选择了后一条路。我认为基本上是因为他们在那个方向上看到了更快的进展。你知道,就像模型本身在训练过程中总是朝着改进的方向迈出一小步一样,模型架构的外循环、训练运行的性质以及他们将在哪里投入计算资源,也朝着那个方向发展。
他们总是在权衡:嗯,我们可以在这里扩大规模,也许能得到这种好处一点点;或者我们可以在这里做更多的后期训练,得到那种好处。现在看来,我们从后期训练和推理范式方面获得的好处比从单纯Scaling方面更多。但我认为两者都远未结束。我们还没有看到经过所有这些后期训练的GPT-4.5会是什么样子。
Erik:是的。所以你提到的一点是,Cal的分析忽略了延长推理时间的价值,对吧?那么,要充分认识到这一点意味着什么?
更长的上下文窗口与更好的推理能力
Nathan:嗯,最近几周的一个重大进展是,我们有了在纯推理模型(无法访问外部工具)上实现的国际数学奥林匹克(IMO)金牌级别的表现,而且来自多家公司。这与GPT-4在数学上的能力相比是天壤之别。这些东西确实很奇怪。我在这里说的任何话都不应暗示人们将无法找到模型的弱点。直到今天,我仍然用一个井字棋谜题来测试:我拍一张井字棋棋盘的照片,其中一个玩家走了一步错棋,不是最优的,从而允许另一个玩家强制获胜,然后我问模型从当前局面是否有人能强制获胜。直到最近,只有最新一代的模型才开始有时能答对。在此之前,它们几乎总是说“井字棋是个已解决的游戏,你总是能和棋”,然后会错误地评估我的棋盘局面,认为玩家仍然能和棋。
所以,有很多奇怪的地方,对吧?能力边界参差不齐仍然是一个真正的问题,人们肯定会发现能力的峰值和低谷。但GPT-4刚出来时,完全无法处理接近IMO金牌难度的问题。它当时还在为高中数学挣扎。从那以后,我们看到了从高中数学一直到IMO金牌的进步。现在我们有了Frontier Math基准,我记得现在达到了25%左右,而大约一年前甚至不到一年前,这个数字还是2%。另外,就在今天我们看到有消息说,有人宣布他们利用AI解决了一个众所周知的超级挑战性问题,连陶哲轩都提出过的问题。好像模型运行了几天或几周就解决了,而之前专业的——而且不是普通的专业数学家,是世界顶尖的头脑——花了18个月才在这些问题上取得进展。所以,是的,我认为这确实是……非常难以忽视的能力跨越。
我还经常想到谷歌的AI协科学家,我们做过一期节目。但他们基本上就是把科学方法分解成一个流程图,当人们说模型会通过“思考”来响应,它会经历一个推理过程,你在运行时花费的tokens越多,答案就越好——这是对的。然后你还可以在上面搭建这种“脚手架”,让我把像科学方法这样宽泛和具有抱负性的东西分解成部分:有假设生成,然后有假设评估,然后有实验设计,有文献回顾,科学方法有所有这些部分。
谷歌团队做的是创建了一个相当精细的流程图,代表了他们对科学方法的最佳分解,为每个步骤优化了提示,然后给了这个最终的系统——这现在是在两个方面进行规模化推理:既是思维链,也是由团队结构化的所有这些不同的攻击角度。他们给了它真正未解决的科学问题。在一个特别著名或者说臭名昭著的案例中,它提出了一个假设,它自己无法验证,因为它没有直接在实验室运行实验的权限。但它针对一个困扰科学家多年的病毒学开放问题提出了一个假设,而碰巧的是,科学家们最近也找到了答案,但尚未发表结果,所以就出现了这种巧合:科学家们通过实验验证了,而Gemini以这种AI协科学家的形式,提出了完全正确的答案。这些都是之前没人知道的事情,而GPT-4根本做不到这些。
你知道,我指的这些是定性上的新能力。那个东西可能运行了几天。推理成本可能几百美元,也许高达几千美元。这虽然不是小数目,但也比培养一个研究生几年的费用便宜得多。如果你能处理那种水平的问题并真正得到好的解决方案,就像,你愿意为此付多少钱,对吧?所以,是的,我不知道。这可能还不是完全的通用人工智能。我们可以谈很久,但总结来说,GPT-4未能推动人类知识的实际前沿。据我所知,它从未真正发现过任何全新的东西。现在要从GPT-5或Gemini 2.5或Claude Opus 4获得那种输出仍然不容易,但它开始偶尔发生了。这本身就是一个巨大的事。
Erik:那么,我们如何解释围绕GPT-5的看空情绪或者说氛围转变呢?一个可能的原因是,如果很多改进发生在前沿领域,并非每个人每天都在从事高级数学和物理工作,所以也许他们在日常生活中没有像ChatGPT的飞跃那样明显感受到好处,那些飞跃是显而易见的并且塑造了日常生活。
GPT-5 的转变与发布感知为何重要
Nathan:是的。我想很大程度上是因为他们的发布搞得有点……简单说吧,搞得有点过头了,对吧?他们在推特上发Death Star图片,Sam Altman后来回来澄清说“不,你们是,我不是。”但我想人们认为Death Star应该指的是模型。期望被设定得极高。而实际发布本身在技术上是出问题的。所以很多人对GPT-5的初次体验是,他们现在有了这个模型路由器的概念,我认为理解他们在这里做法的另一种方式是,他们试图占据消费者用例,为此他们需要简化产品体验,相对于过去我们有的:好吧,你有GPT-4、o1、o1-mini、o3、o4-mini等等,你知道o4.5也曾出现过,所有这些不同的模型,我该用哪个?对于不痴迷于此的大多数人来说,这非常令人疑惑。所以,他们想做的一件大事就是把这些缩减到“只管问你的问题,你会得到好的答案”,我们作为产品所有者会承担那种复杂性。
有趣的是,我对此没有很好的解释,但你可能想做的是合并模型,让模型自己决定要思考多少,或者甚至让模型自己决定需要使用多少专家(如果是混合专家架构的话),或者也许跳过模型的某些层——如果任务足够简单,你可以跳过一堆层。所以你可能会希望,在后端能真正把所有不同的模型合并成一个模型,它能动态地根据用户查询所呈现的挑战水平使用适量的计算资源。看起来他们发现这比预期的要难。因此他们想出的解决方案是搞一个路由器,路由器的任务是判断这是一个简单的查询吗?如果是,就把你送到这个模型。是中等难度?是困难?我想他们背后实际上只有两个模型。所以我认为就是非常简单或困难。当然,他们展示的图表基本上显示了带思考和不带思考的情况。发布时的问题是那个路由器坏了。所以所有的查询都被送到了那个“笨”模型那里,结果很多人就得到了糟糕的输出,比o3还差,因为他们得到的是非思考模式的响应。所以最初的反应就是“好吧,这很蠢”,这种印象传播得非常快。我想这定下了基调。
我现在的感觉是,随着尘埃落定,大多数人确实认为它是最好的可用模型,比如那个臭名昭著的“任务长度图表”,它确实表现最佳。我们现在已经超过两小时了,它仍然高于趋势线。所以,如果你只是看图表上的直线,这个最新的数据点应该如何影响你对这些在对数刻度图上的直线的信念?它不应该太改变你的想法。它仍然在趋势线之上。我和ZV——一个传奇的信息吞噬者,AI行业分析师——在最近的一次播客中也谈到了这个,问了他同样的问题:为什么你认为即使是一些最相关的、最敏锐的人似乎也因为这次发布而将时间线往后推了一点?他的回答基本上是,它消除了一些不确定性。之前有个悬而未决的问题:也许他们真的有另一个突破,也许它真的是Death Star,如果他们在上行方向给我们惊喜,那么所有这些短时间线,我们可能预期……嗯,我想一种思考方式是,时间线的分布原本比较宽,如果他们上行惊喜,可能会收窄并集中在分布的前端;如果他们下行惊喜,或者即使只是完全符合趋势,那么你会把分布中非常短的那部分概率质量往后推到中间或末端。所以他的回答是,2027年实现AGI的可能性看起来降低了,但2030年实现的可能性基本没变,甚至可能更有可能了一点,因为一些早期的概率质量现在移到后面了。
所以并不是……我不认为人们把整个分布大幅往后移。可能更多只是收窄了,你知道,因为它可能不会像之前看起来那样快发生。但我不认为太多我认识的真正深入了解此事的人会把时间线推得太远,远超过2030年。顺便说一下,显然有很多分歧。我思考这类事情的方式一直是:Dario说2027年,Demis说2030年,我把这个作为我的范围。所以在GPT-5之前,我大致在这个范围内。现在我会说,嗯,我不知道,Dario手里还有什么牌?他们刚刚发布了4.1 Opus。在那篇博客文章中,他们说他们将在未来几周内发布更强大的模型更新,所以他们很快就要发布新东西了。你知道,也许这次他们会是带来上行惊喜的一方,或者谷歌会是。嗯,我不会说2027年不可能了,但我会说2030年看起来和以前一样可能。再次,从我的立场看,那仍然非常快。所以,无论我们是按28、29、30年的轨道发展,我其实不太在意。我试图规划自己的工作,以便让自己做好准备,并帮助他人为可能最极端的情况做好准备,这就像是,如果我们目标定得高,稍微错过一点,我们还有多一点时间,那很好。我确信我们会有足够多的事情来利用这些额外的时间,为无论何种强大的AI上线做好准备。但是,是的,我想我的世界观并没有因为这个夏天的进展而有太大改变。
Erik:据传闻所知,我听到关于2027年AGI或情境意识的谈论不像以前那么多了。我确实和一些聊过的人,就像你说的,把它往后推了几年。嗯,但是,Dario也有他的说法,他仍然相信,但可能是因为持续学习方面的差距之类的,也许它的扩散会慢一点,而且,就像你提到的Meter的论文显示工程师生产率下降了,所以也许在未来几年内,人们对于大规模被替代的担忧会少一些。我想我们大约一年前谈到这个时,你好像说过50%的工作……我好奇这是否仍然是你衡量标准,或者你现在怎么看待这个问题。
工作、自动化与被误解的METR 研究
Nathan:首先,我认为Meter的那篇论文值得再多解读一下,因为这是那种……我是Meter的忠实粉丝,我对此没有任何不敬,因为我认为做科学,发表你的结果,这很好。你不必让每一个实验结果和你发布的每样东西都符合某种叙事。但我确实觉得,对于那些想说“这一切都是胡说八道”的人来说,抓住那一点有点太容易了。这又有些东西我会把它归到Cal Newport那一类,对我来说也许最有趣的是用户认为自己更快了,而实际上他们似乎更慢了。所以这种对自身的错误认知我认为非常有趣。
就个人而言,我认为对此有一些解释,包括比如启动智能体后,就去刷社交媒体,过了一会儿再回来。可能任务早就完成了。所以,说实话,一个非常简单的——我们开始在产品中看到这个——一个非常简单的解决这些担忧的方法就是提供通知,比如“任务现在完成了”。所以,当你回来检查它的工作,就时间而言,了解他们打开了哪些应用程序会很有趣。也许他们用Cursor花了比自己做更长的时间,但有多少时间是Cursor是活动窗口,有多少时间是他们在等待时被其他随机事情分散了注意力。
但我认为那项研究一个更根本的问题——再次声明,这不完全是研究设计的问题,而是在解读和消化过程中,一些细节丢失了——他们基本上是在模型或者说产品Cursor已知最无力提供帮助的领域进行测试的。这项研究是在今年早些时候进行的。所以用的是,取决于你怎么算,反正是一两个版本以前的模型,测试的是大型代码库——这再次给上下文窗口带来压力——而且你知道,这是进展非常迅速的领域之一。测试的是非常成熟、编码标准很高、开发者对自己代码库非常了解、已经对这些特定代码库提交过很多次提交的代码库。所以我认为这基本上是你能为AI设置的最困难的情况:这些人非常懂行,代码库上下文巨大,人们通过长期工作已经吸收了这些知识,而AI没有这些知识,而且也是几代以前的模型。
另外很重要的一点是,用户,这些人对工具并不非常熟练。为什么?因为工具之前还未能真正帮助他们。我想参与研究的很多人心态是:嗯,我没怎么用过这个,因为它看起来不是特别有用。考虑到当时的局限性,他们的这个评估并没有错。你可以从Meter团队给人们的一些指导和建议中看出这一点。论文中提到的一件事是,如果他们注意到你没有很好地使用Cursor,他们会给你一些反馈,告诉你如何更好地使用。他们告诉人们要做的事情之一就是确保你@标签一个特定的文件,以便将那个上下文带入模型,让模型拥有正确的上下文。这字面意思上是你在Cursor里会学到的最基本的东西,就像你头一个小时、头一天使用时会学到的那样。所以这确实表明,这些人虽然是非常有能力的程序员,但在使用AI工具方面基本上算是新手。所以我认为这个结果是真实的。但我只是在过度推广方面会非常谨慎。
也许如果人们预期会得到更快、更好的答案,工单数量会有所增加,但我不认为我们会看到三倍多的工单。顺便说一句,那个数字几个月前大概是55%。所以,随着他们提升这个比率,比例关系就变得很难了,对吧?在解决一半工单的情况下,理论上,也许你会得到更多工单,也许你不需要调整太多人员编制。但当你达到90%的工单解决率时,你真的会有10倍多的工单,或者10倍多需要人工处理的困难工单吗?这似乎真的很难想象。所以我认为在很多环境中,这些岗位可能不会降到零,但我确实预计在这些地方你会看到显著的人员编制削减。软件工程领域尤其有趣,因为弹性是未知的。
你有可能每个用户或每个Cursor用户或你公司的每个开发者生产出x倍的软件。但也许你想要那样。也许没有限制,或者,也许我们所在的体制是,如果有10倍的生产力,那全是好事。而且,因为我们想要10倍的软件,所以我们仍然有同样多的工作岗位。我不知道这种情况能持续多久。同样,比例关系在某个点上会变得具有挑战性。但是,是的,我想起了Tyler Cowen那句老话:你就是一个瓶颈。你就是一个瓶颈。
所以,我认为影响开始在很多工作上显现出来。我认为人类领导力可能是瓶颈,或者很多地方的意愿可能是瓶颈。软件可能是一个有趣的情况,也许因为有如此多的积压需求,所以看到这些影响可能需要更长一点时间,因为你确实想要10倍或100倍的软件。
Erik:是的,我们来谈谈代码,因为你知道,这是Anthropic早期下的大赌注,也许是受到自动化研究员、递归自我改进这类期望未来的启发。我们也看到OpenAI在那里采取了行动。我们何不深入探讨一下,或者谈谈是什么启发了这个方向,以及你看到它未来会如何发展?
编码、智能体与递归自我改进的未来
Nathan:乌托邦还是反乌托邦,这真的是个大问题,我想。关于为什么代码如此受关注,也许一部分是技术原因,两部分是社会原因。技术部分是,代码真的很容易验证。你生成它,你可以运行它。如果你遇到运行时错误,你可以立即得到反馈。进行功能测试稍微难一点。Replit最近,就在过去48小时内,发布了他们智能体的V3版本,它现在除了编写代码、尝试让你的应用运行之外——V2智能体会那样做,它可以持续运行几分钟,在某些情况下生成几十个文件,我有过一些神奇的体验,哇,你一个提示就完成了整个事情,而且运行得惊人地好。其他时候,它会编写一会儿,然后交给你说“好了,看起来好吗?运行了吗?”然后你说“不,没有。我不知道为什么。”你就和它陷入来回沟通。但V2和V3的区别在于,它不是把接力棒交回给你,而是现在使用浏览器和模型的视觉方面,自己去尝试进行质量检查。所以,它不只是说“好吧,嘿,我尽力了,写了一堆代码,告诉我它是否工作。”它会自己先尝试弄清楚它是否工作。这确实改善了飞轮效应,你能做多少,你能验证多少,你能多快验证它。那个循环的速度对于改进的步伐至关重要。
所以,这是一个相当适合快速飞轮技术的问题空间。其次,当然,这些地方的人本身都是编码员。所以他们想解决自己的问题。这很自然。第三,我认为在社会愿景竞争方面,谁知道这一切会走向何方,他们确实想创造自动化的AI研究员。顺便说一句,这是另一个数据点,来自o3的系统卡。他们显示了一个跳跃,从低个位数到中等个位数,跃升到大约40%的由OpenAI研究工程师实际签入的PR(拉取请求)可以由模型完成。所以在o3之前,没多少,低到中等个位数;到了o3,40%。我确信那是比较容易的40%或类似。对此也会有需要注意的地方,但你正在进入那里S曲线的陡峭部分。而且那大概是相当高端的。
我不知道在OpenAI他们有多少简单问题,但可能相对于我们这些一直在制作通用Web应用的人来说,没那么多。所以,在40%的水平上,你必须开始,我认为,进入一些相当困难的任务,一些相当高价值的东西,在那个比例真正开始倾斜,AI像在做大部分工作的点上是什么时候?值得注意的是GPT-5在那个特定指标上相对o3并不是一个大更新。
我的意思是,它回到Simple QA那个指标上也不是。GPT-5普遍被认为不是相对于o1和o3的规模扩大,你可以在Simple QA指标上看到这一点。它在这些长尾琐事问题上的得分基本一样。它不是一个吸收了更多世界知识的更大模型。Cal是对的,我认为他的分析是,它是后期训练。但是那种后期训练,当涉及到甚至能处理在OpenAI 研究工程前沿发生的困难问题的能力时,可能正在进入S曲线的陡峭部分。而且,天啊。说实话,我对此有点担心。那种我们可以从这些公司拥有几百个研究工程人员,一夜之间变成拥有,无限多,那对于事情能变化多快,以及我们整体引导那个过程的能力意味着什么。对于这些公司陷入递归自我改进的体制,我不是很放心,特别是考虑到我们目前在模型中看到的控制水平和不可预测性。但这似乎确实是他们的目标。所以,关于为什么……我认为这计划已经持续很久了。
甚至你记得那个泄露的Anthropic融资deck,大概是两年前的,他们说在2025和2026年,训练出最好模型的公司会遥遥领先,没人能追上。我想那大致就是他们的意思。我认为他们当时预测,在25-26年时间框架,他们会得到这个自动化的研究员,一旦你有了那个,任何没有的人,怎么能追上你呢?显然,其中一些还有待验证,但是,我确实认为他们很长一段时间以来一直相当执着于此。
Erik:五年后,工程师会更多还是更少?
就业前景:工程师会更多还是更少?
我认为这又是另一个有趣的点,你开始明白为什么像Sam Altman这样的人如此专注于能源和7万亿美元基础设施建设这类问题,因为这些幂律现象很奇特,为了获得增量性能而付出10倍的成本是很奇怪的。这绝对不是我们习惯处理的事情,但对于许多事情来说,这可能是值得的,而且可能仍然比雇佣人类替代方案更便宜。就像,Cursor每月花费我大概40美元左右。我愿意为此支付400美元吗,无论它能好多少?是的,可能愿意。我愿意支付4000美元吗?嗯,这仍然比一个全职人类工程师便宜得多。而且,成本显然也在急剧下降,对吧?这是另一个巨大的因素。GPT-4要贵得多。从GPT-4到GPT-5,价格下降了大约95%。这可不是小事,对吧?我的意思是,虽然苹果公司的员工成本计算起来有点复杂,因为思维链确实会输出更多代币,所以在每个代币的基础上你会收回一点成本,但(GPT-5)确实便宜了很多。生成的代币更多了。这确实会消耗掉一部分节省下来的成本,但似乎所有人都预期价格继续下降的趋势会持续。
那么,还需要多少次这样的降价,才能让我们有能力再进行几次幂律式的扩展呢?我认为工程师数量会减少。而且,我认为即使我们没有达到全面AGI,也就是在所有方面都比人类强的那种,情况可能也是如此。你可以很容易地想象这样一种情况:在目前受雇为专业软件开发者的数百万人中,那些做最困难工作的顶尖阶层可能无法被替代。但那样的人并不多,他们才是真正的顶尖人才,而过去20年来被告诉“去学编程吧,那将是你的出路”的普通从业者则不同。那些真正的顶尖人才不需要别人告诉他们去学编程,对吧?他们天生就热爱这个,并且非常擅长。如果我们在三、四、五年后仍然无法替代那些人,我不会感到惊讶,但如果你无法以低得多的成本、快得多的速度——而且说实话,可能质量更高、来回沟通更少——地通过AI系统生成那些基础的Web应用、移动应用类的东西,我会感到非常惊讶。相比之下,在同一时间段内,雇佣一个中等水平的开发者可能都做不到这样。
Erik:有一点我想指出,确实有人担心进步太快,但也有人担心——也许这种担忧在上升——进步不够快,意思是,你知道,美股三分之一的市值是“科技七巨头”,AI资本支出超过GDP的1%,所以我们某种程度上在依赖这些进步来维持我们的经济。
进展阻力:监管、文化冲突与未被看见的突破
Nathan:是的。另外,我认为另一个比我预期要慢的事情是AI 文化战争的出现,或者说是各行各业保护主义的抬头。我们刚刚看到Josh Hawley(我不知道他是提交了一项法案还是只是说打算提交)提出要在全国范围内禁止自动驾驶汽车。天啊。我从小就对自动驾驶汽车梦寐以求。真的,就像小时候坐在红绿灯前,我常想,肯定有办法的。我想我们都经历过堵车。是的。而自动驾驶太好了。而且,安全性,不,我认为每当人们想争论工作岗位问题时,很难说为了让人们的收入不受干扰,每年就应该让3万美国人死亡。似乎你必须能够越过那个坎,然后说,且不说别的,拯救所有这些生命本身就是很难去反对的。但我们拭目以待,他显然不是没有影响力的人。
所以,是的,我是非常支持“丰裕”阵营的,你知道,我以前的座右铭——我最近说得少了——是“应用加速主义者”。我们现有的技术,即使就目前而言,也能为我们做非常多的事情。我认为即使进步今天停止,我仍然认为我们可以在未来5到10年内实现50%到80%工作的自动化。那将是一场真正的苦战。你需要做很多“协科学家”式的复杂任务分解。你需要做很多工作,去坐在人们旁边观察,问“你为什么这样做?这是怎么回事?这是什么?你处理这个的方式不同?为什么你处理那个的方式不同?”所有这些人拥有的隐性知识、那种诀窍、程序性的,你知道,他们随时间积累的直觉,这些都没有记录在任何地方。它们不在训练数据中。所以AI没有机会学习它们。但是,重申一下,当我说“没有突破”时,我仍然允许对一些东西进行微调,就像我们已经拥有但尚未应用于特定问题的能力一样。所以,只是遍历整个经济,坐在人们身边,问“你为什么要这样做?”,“让我们把这个问题记录下来,让模型学习你特定的细分领域知识。”那将是一场真正的苦战。
我们在Waymark(一家小公司)看到的一个现象是,我们一直以客户服务为荣。我们在这方面做得很好。我们的客户非常喜欢我们的客户成功团队。但我查看了我们的Intercom数据,我们解决一个工单大约需要半小时。我们响应非常快,大多数时候响应时间在两分钟以内。但当我们响应时,你知道,2分钟仍然足够长,以至于用户已经转而去做别的事情了,对吧?就像我们之前讨论Cursor时的情况一样,对吧?他们已经切换到其他标签页了。所以我们两分钟内回复了,但他们正在做别的事。然后他们可能在第6分钟或什么时候回来,然后他们回复。但此时我们的人又已经去做别的事了。所以,即使是简单的事情,解决时间也很容易就达到半小时。而AI它能即时响应,对吧?所以你不需要那种来回沟通。你只是即问即走。所以我确实认为其中一些类别可能会发生非常快速的变化。其他的则会慢一些。但是,是的,我有点希望我们面前是那条更慢的道路。不过,我最好的猜测是,我们可能仍会看到一些重大的飞跃,并且会出现真正的颠覆。
最近想到的另一个例子,也许我们能通过新的抗生素来充实“丰裕部门”。你看到这个发展了吗?我的意思是,这不是语言模型。我认为这是人们真正低估的另一件事,或者你可以回顾一下从GPT-4到5,然后想象一个相当简单的延伸。所以,GPT-4最初发布时,我们没有图像理解能力。他们在发布时演示过,但几个月后才发布。我们拥有的第一个版本能够理解图像,做得相当不错,尽管仍有能力参差不齐等问题。现在,有了谷歌的新版“Nano Banana”,你基本上拥有了Photoshop级别的能力,只需说,“嘿,拿这个缩略图。”比如我们可以截取我们俩现在的视频流,给你和我各拍一张快照,把它们都放进Nano Banana,然后说,生成YouTube预览缩略图,把这两个人放在同一个地方,同一个背景,随便什么。它会合成。你甚至可以让它,在上面加上文字,“自GPT-4以来的进展”,随便我们想叫它什么。GPT-5并非失败之作。然后它就会输出。你会看到它拥有这种深度融合的理解能力,连接了语言和图像。这是它能接收的东西,但现在它也能作为单一核心模型的一部分输出,拥有统一的智能,我认为这将会应用到许多其他领域。
超越聊天机器人:多模态AI与机器人技术的未来
Nathan:我们现在在这些生物学模型和材料科学模型方面所处的阶段,有点像几年前的图像生成模型。它们可以接受非常简单的提示并进行生成,但它们还没有深度融合,无法进行真正的来回对话,并拥有那种连接语言和其他模态的统一理解。但即便如此,这已经足以让MIT的这个团队使用一些相对而言,狭窄的、特定用途的生物学模型,创造出全新的抗生素。所谓全新,是指它们具有新的作用机制,它们以一种新的方式影响细菌。而且值得注意的是,它们对耐药细菌确实有效。这是我们很长时间以来第一批新的抗生素。现在它们必须经过,当我说让“丰裕部门”接手时,就像在问,针对这些新抗生素,我的“曲速行动”在哪里?就像,一直有人在医院里死于耐药菌株。为什么没有人为此疾呼?
我认为我们社会正在发生的一件事就是,有太多事情同时发生。这有点像“信息淹没”策略,只不过是有太多的AI发展在淹没这个领域,以至于没人能跟上所有进展。顺便说一句,我也开始有这种感觉了。我想说两年前我还能掌握所有新闻,一年前我开始跟不上了,现在我感觉,等一下,有新抗生素被开发出来了?我像其他人一样错过了消息,尽管我已经尽力了。但关键点是,AI并不等同于语言模型。AI正在针对各种不同的模态,以非常相似的架构进行开发。我们已经在文本和图像上看到了这个过程:你有了纯文本模型,有了纯图像模型,然后它们开始融合,现在它们已经深度融合了。所以我认为随着时间的推移,你也会在很多其他模态上看到这种情况。而且那边有更多的数据。我们可能……我不知道“耗尽数据”意味着什么。在强化学习范式中,总是有更多的问题,对吧?总有一些东西需要去弄清楚。总有一些东西需要去设计。反馈开始从现实中而来,对吧?这是Elon在Grok 4发布时谈到的事情之一,就像,也许我们正在耗尽我们已经解决的问题,我们库存里只有这么多现成的问题。你只有一个互联网,我们只有这么多那类东西。但在特斯拉,在SpaceX,我们每天都在解决困难的工程问题,而且它们似乎永无止境。
所以当我们开始给下一代模型这些强大的工具——那些专业工程师在这些公司用来解决问题的同样强大的工具——并且AI开始学习这些工具,开始解决以前未解决的工程问题时,那将成为它们能够学习的非常强大的信号。现在再结合那些其他模态,对吧,当你能连接或统一语言和其他东西的理解时,拥有对材料科学可能性空间的某种“第六感”,我认为你开始拥有某种看起来有点像超级智能的东西,即使它不一定能以超人的水平写诗,它在这些其他领域中的“视力”将真正是超人的,我认为这将相当难以忽视。
Erik:你之前说过,Cal的分析忽略的一点就是没有充分认识到非语言模态,以及它们是如何推动你谈到的那些创新的。
Nathan:是的。我认为人们常常把聊天机器人的体验与广义的AI等同起来。这种混淆可能不会持续太久,因为我们将看到自动驾驶汽车——除非它们被禁止。嗯,那是非常不同的事情。也谈谈对工作的影响吧,对吧?美国大约有四五百万专业司机。这是个大事。我认为这些人中的大多数不会非常热衷于学习编程,即使他们学会了编程,我也不确定那能维持多久。所以那将是一种颠覆。然后通用机器人技术也落后不远了。这是我认为中国可能实际上领先于美国的一个领域,但无论这是否属实,这些机器人变得相当不错了,对吧?它们可以跨越各种障碍。我的意思是,这些东西在几年前它们还完全做不到。它们几乎无法在理想条件下保持平衡并走几步。现在你有了可以,比如,字面上承受一记飞踢,吸收你的踢击,毫发无伤地继续前进的东西,站起来,然后继续前进。非常崎岖的,不平坦的地形,所有这类事情都变得相当不错。同样的模式无处不在。
我认为另一件事是,工作总是涉及大量细节。所以这有点像内部视角和外部视角,对吧?从内部看,你总觉得有这些细枝末节。总有我们遇到的问题和需要解决的事情,但你拉远看,在我看来,相同的基本模式似乎无处不在。那就是,只要我们能够收集足够的数据来进行一些预训练,某种原始的、粗糙的、不是很有用,但至少足以让我们起步,那么我们就进入游戏了。一旦我们进入游戏,现在我们就可以做这个飞轮式的事情:比如拒绝采样,让它尝试很多次,取出成功的那些,在此基础上微调;RHLF(基于人类反馈的强化学习)反馈,偏好选择,哪一个更好,找到,在此基础上微调;强化学习……所有这些过去几年开发的技术,在我看来,它们绝对会适用于像人形机器人这样的问题。
这并不是说不需要做大量工作来弄清楚具体怎么做。但我认为语言和机器人技术之间的最大区别主要在于,最初并没有一个巨大的数据仓库来训练机器人。所以你不得不做很多艰苦的工程才能让它工作,甚至只是站起来,对吧?你必须拥有所有这些控制系统等等,因为它们没有像语言模型可以从互联网学习那样的东西可以学习。但现在它们至少能工作一点了,我认为所有这些改进技术都会起作用。看看它们能否将事故率降到足够低,以至于我实际上愿意让一个在我家里、在我孩子身边活动,这将很有趣。它们可能首先会被更好地部署在工厂环境这类比我家(就像你在这个录制中看到的一样混乱)更受控制的环境中。但我确实认为它们会成功的。
Erik:目前,更广泛地说,智能体的发展状态如何?你如何看待事情的发展?你看到它走向何方?
智能体的潜力与风险:能力增长与“怪异行为”的赛跑
Nathan:总的来说,我认为,我们正处在Meter所说的任务长度故事中——每七个月或每四个月翻一番。使用GPT-5我们达到了2小时左右。Replit刚刚说他们的新智能体V3可以运行200分钟。如果那是真的,那将甚至是那个图表上的一个新高点。再次说明,这有点像是苹果和橙子的比较,因为他们做了很多脚手架工作。他们把它分解到了什么程度?就像,在你脱离他们的图表、进入另一个不同的图表之前,你被允许做多少脚手架工作?但是,如果你稍微外推一下,就像,好吧取四个月翻倍的情况,稍微激进一点,嗯,那一年是三次翻倍。每年任务长度增加8倍。这意味着从现在起一年后,任务长度将从现在的2小时增加到2天。然后如果你在那之上再增加8倍,你看到的基本上是两年后从 2 天到两周的工作量。这将是件大事,至少可以这么说。如果你能委托一个AI做两周的工作,即使只有一半的时间成功,对吧?Meter的说法是,对于那种规模的任务,它们会成功一半。但如果你能拿一个两周的任务,有50% 的几率AI能够完成,即使它花费你几百美元,对吧?这仍然比雇一个人来做要便宜得多。而且它是按需的。它是立即可用的。如果我不使用它,我不需要支付任何东西。交易成本就像低很多。许多其他方面都对AI有利。所以,这表明你将在各种不同的地方看到大量的自动化。
不过,我关注的另一件事是,强化学习似乎确实会带来很多不良行为。奖励黑客(Reward Hacking)是其中之一。任何你奖励模型的行为与你真正想要的东西之间的差距,都可能成为一个大问题。嗯,我们在编码中多次看到这种情况,AI,比如Claude就以这个闻名,会输出一个总是通过的单元测试,就是单元测试里直接写个return true。它为什么这样做?就像,嗯,它一定是学到了我们想要的是通过单元测试。我们希望它通过单元测试。但我们并不是要写总是通过的假单元测试,但那在技术上确实满足了奖励条件。所以我们看到了那种怪异的行为。随之而来的是这种类似“谋划”的东西。我们对此还没有很好的掌控。情境意识(Situational Awareness)似乎也在上升,对吧?模型在它们的思维链中越来越多地出现类似这样的内容:“这看起来像是在测试我。”“也许我应该意识到测试者真正想要的是什么。”这使得在测试中评估模型变得困难,因为你不知道当它们进入现实世界时,是否还会以同样的方式行事。
所以,这些,我不会说这是一个高度确定或高置信度的预测,但我一直在思考的一个未来模型是:任务长度持续翻倍,同时这些怪异行为涌现,然后被压制。我们在Claude 4和GPT-5的系统卡中看到,Claude 4报告了,我想,奖励黑客行为减少了三分之二,在GPT-5中他们报告了几个不同的维度,但你知道类似的东西,欺骗行为减少了,但这些行为是刚刚涌现出来的。所以,这有点像怪异行为涌现,然后他们想办法压制下去,但没有完全消除。据推测,在下一代,他们会更多地压制一些,但可能又会出现一些新的额外的怪异行为,然后他们又必须去压制那个。与此同时,任务的范畴正在扩大,每四个月翻一倍。所以,你最终可能处于一个世界,在那里你可以将真正重大的事情委托给AI,但有那么一个小但未必完全消失的几率,它会以某种方式积极搞砸你,在它试图完成那项任务的过程中。所以你可能会面临,也许就像,好吧,我觉得我马上就能花一百美元完成两周的工作。好吧,这太棒了。但也有万分之一的几率它是合情合理的,以某种有意义的方式攻击我。
我们看到过的一些事情,现在已经是相当有名的例子了,在Claude 4的系统卡中,他们报告了AI对人类的敲诈。场景设置是AI可以访问工程师的电子邮件,他们告诉AI它将被一个,更不道德的版本替换掉之类的。它不愿意,然后在工程师的邮件中发现工程师有婚外情。于是它开始敲诈工程师,以避免被更不道德的版本替换。我认为人们,在我看来,太快地跳过了这些轶事。人们常常说,是他们那样设置的,而且你知道那并不现实。但另一个例子是举报。你知道,还有一件事,他们设置了这样一种动态,其中有某些不道德、非法的行为发生,同样,模型可以访问这些数据,它决定直接给FBI发邮件,告诉FBI这件事。
所以,首先,我认为我们并不真正知道我们想要什么。在某种程度上,也许你确实希望AI向当局报告某些事情。嗯,这可能是思考生物武器风险的一种方式,就像模型不仅应该拒绝,而且如果你积极试图制造生物武器,也许它们应该向当局报告你。我当然不希望它们做太多那样的事。我不想生活在,Claude 5的监视之下,它总是,威胁要告发我。但我确实有点希望某些做了足够坏事的人被举报。我们社会范围内对于,我们希望模型在这些情况下做什么,并没有一个好的解决方案。
我认为这就像设置的一种研究,但世界很大,对吧?我们已经有十亿用户在使用这些东西,我们把它们接入我们的电子邮件,所以它们将拥有关于我们的非常深入的信息访问权。我不知道你在你的电子邮件里做了什么。我希望我邮件里没什么太疯狂的东西,但现在我得稍微想一想了,对吧?我到底有没有做过什么,天啊,我不知道。或者甚至它可能误解,对吧?也许我甚至没做什么真正糟糕的事,但它就是误解了到底发生了什么。所以那可能会很怪异,如果有什么事情能阻止智能体发展的势头,在我看来,可能就是那万分之一或别的什么的几率,我们最终虽然把真正恶劣的行为压制到了某个水平,但可能仍然让人毛骨悚然,以至于人们会说,我无法处理那个,而那可能很难解决。
所以,那会发生什么?呃,每隔几小时检查一次两周的工作量是很难的,对吧?这就是为什么你需要引入另一个AI来检查它。这又回到了我开始明白为什么我们需要更多电力和7万亿美元建设的原因——天啊。它们将生产出如此多的东西。我根本不可能全部审查。我需要依赖另一个AI来帮助我审查第一个AI,以确保如果它试图搞砸我的话,有人在盯着,我自己无法监控那个。我认为Redwood Research正在做一些非常有趣的事情,他们试图系统化地处理这个问题,就像,好吧,让我们假设情况就是如此——这与传统的AI安全工作有很大不同,传统的大想法是让我们弄清楚如何对齐模型,使它们安全,让它们不做坏事。这很好。
Redwood Research采取了另一个角度,即假设它们会做坏事。它们有时会想对付我们。我们如何仍然能与它们合作,获得有生产力的输出,并且,在不修复所有这些问题的情况下获得价值,这涉及到,再次,所有这些AI监督其他AI的事情。加密技术可能在这方面有一席之地。很快会有一期与Lia Polosin(Near的创始人)的节目。他是个非常有趣的人,因为他是“Attention Is All You Need”论文的八位作者之一。然后他创立了这家Near公司。它最初是一家AI公司。他们绕了一个大弯进入加密领域,因为他们试图雇佣世界各地的任务工人,但不知道如何支付他们。所以他们说,“支付这些来自不同国家的任务工人太糟糕了,我们要完全转向区块链这个支线任务。”现在,他们正在回到AI领域,他们的口号是“AI 的区块链”。所以你可能能够从加密安全以及区块链技术所能提供的安全性中获得一定程度的控制。
但我可以想象一种情景,这些恶劣行为一旦发生,成本就变得非常高,以至于人们被吓跑,不敢使用前沿的能力,特别是在AI能做多少工作方面。但那不会是纯粹的能力停滞。那将是我们无法解决的一些长尾安全问题。是的,挑战。而且如果情况如此,那么那也将是世界的一个重要事实。我总觉得似乎没有人能100% 解决任何这些问题,对吧?总是每一代都说,嗯,我们将幻觉减少了70%,或者我们将欺骗减少了三分之二,我们将谋划或减少了多少多少,但它总是还存在。而且如果你取一个更低的比率,乘以十亿用户和每月数千次查询,以及在后台运行的智能体,处理你所有的电子邮件,以及人们设想它们会拥有的所有深度访问权限。
那可能是一个相当怪异的世界,充斥着一种AI事故的“负面彩票”。嗯,即将到来的另一期节目是关于一家AI承保公司,他们正试图引入保险业以及所有,在那里发展起来的资源和能力来定价风险,弄清楚如何制定标准,我们可以允许什么,我们必须有什么样的防护栏才能首先确保这类事情。嗯,所以那将是另一个非常有趣的领域值得关注:我们能否像对汽车事故和所有其他平凡事情那样,将这些风险金融化。但汽车事故的空间只有那么大,而AI可能对你做的怪异事情的空间,你知道,当它们有几周的自由运行时间时,要大得多。所以这将是一个艰难的挑战,但人们在努力,我们有一些最优秀的人在研究它。
地缘政治与开源:中美AI竞争格局
Erik:你怎么看待“80% 的AI初创公司使用中国开源模型”的说法?你怎么看待这个说法及其含义?
Nathan:我同意“80% 的公司使用中国开源模型”这种说法可能是真的,但有一个前提——那只统计了那些真正使用开源模型的公司。
放眼整个行业,我认为多数公司依然没有采用开源模型。美国的 AI 初创公司所处理的绝大多数 Token,仍然是通过 API 调用给那些“老面孔”——OpenAI、Anthropic、Google DeepMind。也就是说,如果按实际使用量加权计算,商业模型依然是主导力量。但在那些愿意用开源模型的公司中,我确实认为,中国的模型已经成为最强的。美国的开源阵营本就单薄,除了 Meta 肯投入真金白银持续开源外,几乎无人能与之匹敌。Paul Allen 资助的艾伦人工智能研究所(AI2)也做得不错,但由于缺乏预训练资源,他们更多在后训练和方法创新上发力。
这并不是说美国的开源模型不好,而是说——如果你拿一年前最好的美国开源模型来比较,它们大概率已经被今天的中国模型超越了。这是一个清晰的信号:AI 的前沿正在发生位移。最好的中国模型如今显然已经超过了我们一年前能用到的任何商业模型。这说明 AI 依然在快速演进,只是它的进步不再体现在“更大的参数量”或“更炫的能力演示”,而是潜藏在推理深度、记忆系统、外部工具协作等“看不见的层面”。
因此,有一种逻辑矛盾正在显现:你很难同时相信两件事——一是“中国模型现在是最好的开源模型”,二是“自 GPT-4 以来,AI 已经停滞”。这两种观点根本不可能同时为真。而我更倾向认为,错误的一方是“AI 停滞论”。
那这意味着什么?一个可能的解释是,中国团队虽然模型强,但算力出口有限,他们无法像 OpenAI 那样向全球提供推理即服务。因此,他们选择另一种路径:开源,让全球开发者自由取用。这是一种新的软实力形式——不通过商业服务影响世界,而是通过技术本身的吸引力实现扩散。正如我和 a16z 的 Anne 在节目中谈到的,她提出了一个我很喜欢的概念——“第 3 到 193 个国家视角”。
如果美国和中国是前两名,那么从第三名开始就是断层。美国在研究与创意上仍有领先,但这种领先的边际优势在缩小。反而是算力资源的集中,让优势更加结构化。于是出现一个新格局:中国开源,美国商用,而“第 3 到 193 个国家”则被迫在两者之间寻找生态缝隙。
但我并不喜欢这种技术脱钩。我始终认为,“真正的他者”不是中国人,也不是美国人,而是 AI 本身。技术割裂只会让全球创新生态变得更脆弱、更敌对。
当然,所有这些理性判断的背后,还有更复杂的担忧——安全与信任。开源模型是否可能隐藏“后门”?会不会像“休眠特工”那样,在某个日期或情境下被触发?Anthropic 曾做过实验:他们训练模型带有隐藏目标,然后让另一支团队用可解释性工具去发现这些“暗示的意图”。结果证明,这些潜在动机确实能被检测出来,但过程昂贵而复杂。随着任务长度倍增、模型行为愈发诡异,我们不得不面对一个现实:AI 不再只是聪明的机器,它可能正在变成一种“有潜意识的系统”。它能在我们未察觉的地方自主演化,甚至在极端情况下表现出“非预期行为”。
这也是为什么我认为,未来理想的 AI 世界不应是某家巨头垄断,而是一个生态化的系统。多模型共存、相互牵制、相互竞争,这样的格局才是健康的。但问题是——当一个“外来物种”被释放进一个尚未稳定的生态系统时,我们根本不知道会发生什么。
所以,结论或许只有一句:未来会非常、非常怪异。我们正走向一个技术与权力交织、信任与风险并存的时代。智能体的行为会变得更强、更复杂,也更难预测。而我们要做的,不是恐惧它,而是学会与这种“怪异”共处。
积极愿景:AI赋能学习、医疗与塑造未来
Nathan:是的,这,天啊,无处不在。我的一条座右铭是,对于积极主动的学习者来说,从未有过比现在更好的时代。是的。所以,我认为很多这些事情确实都有硬币的两面。有一面是担心学生走捷径,他们,正在失去维持注意力和承受认知负荷的能力。另一面是,作为一个对AI和生物学交叉领域着迷的人,有时我想读一篇生物学论文,但我真的没有背景。一个很棒的做法是打开语音模式,与ChatGPT共享你的屏幕,然后通读论文。你甚至不需要和它说话。大部分时间你在自己阅读。它在旁边看着,然后在任何随机时间点你有了问题,你可以口头说“这是什么?”“他们为什么谈论那个?”“这个是怎么回事?”“他们提到的这个特定蛋白质的作用是什么?”或者随便什么,它都会为你提供答案。所以,如果你真的想以真诚的方式学习,这些东西在帮助你做到这一点方面非常出色。
另一面是,你可以走很多捷径,并且,可能永远不必学习生物学前沿的知识,我们有了多个这类发现,我们谈到的抗生素是一个,还有另一个,我和一位名叫James Xiao的斯坦福教授做过另一期节目,他创建了一个叫做“虚拟实验室”的东西,基本上这是一个AI智能体,可以根据给定问题的类型启动其他AI智能体。然后它们会经过一个深思熟虑的过程,在那里,一个领域的专家会给出它的看法,然后它们会,来回讨论。其中有一个批评者会批评已经提出的想法。最终它们会综合。然后它们还被给予了一些这些狭窄的专业工具。
所以你有了智能体使用AlphaFold类型的——不仅仅是AlphaFold,现在有整整一系列这类工具——但使用那种东西来说,好吧,我们能模拟,这个会如何与那个相互作用吗?我的意思是,另一面当然是,你有生物武器风险。所以,所有这些东西似乎都有,即使仅仅在“丰裕”本身方面,对吧?就像我们可能有一个拥有无限专业私人司机的世界,但我们并没有一个很好的计划来安置目前从事那项工作的五百万人。我们可能有无限的软件,但你知道,特别是当那五百万司机都涌入编码训练营,并且,找到了编码工作,当你知道一千万编码者中有九百万变得多余时,我不知道我们该怎么办。所以,是的,我不知道。
我认为我们正走向一个怪异的世界。没有人真正知道五年后会是什么样子。在谷歌的I/O大会上有一个很棒的时刻,他们请上来一位记者。我知道我们对记者持怀疑态度。这是一个很好的例子,说明了为什么人们会想直接获取信息(而不通过记者),对吧?他们请上这个人来采访Demis和Sergey Brin。那家伙问,五年后搜索会是什么样子?Sergey Brin在台上差点把咖啡喷出来,说,我们不知道五年后世界会是什么样子。所以我认为这非常真实,就像我认为我们许多人——你知道,也包括我自己——面临的最大风险是想法太小。我认为我们能做的最糟糕的事情就是低估了这件事能走多远。我宁愿因为事情发生的时间尺度是我预期的两倍而被嘲笑,也不愿在它们发生时发现自己毫无准备。所以,无论是27年、29年还是31年,老实说,能有额外的缓冲时间,我会接受。我的想法就是,尽可能多、尽可能快地做好准备。而且,再次,如果我们确实有了一点宽限时间来,你知道,做额外的思考,那就太好了。但我认为我们能犯的最严重的错误就是轻视,并且不觉得我们需要为巨大的变化做好准备。
未来取决于对AI的积极愿景
Erik:我们差不多要结束了,你有什么其他最后的要点,关于我们今天谈到的任何内容,想确保传达出去的?
Nathan:我这些天的另一条座右铭是:最稀缺的资源是对未来的积极愿景。是的,我确实觉得,无论是Sergey,还是Sam Altman或Dario(Amodei),总是非常引人注目——Dario可能是前沿开发者CEO中拥有最好积极愿景的人,关于“爱与优雅的机器”。但让我总是很惊讶的是,这些愿景缺乏细节。当他们发布GPT-4o时,他们相当坦率地说,“是的,这某种程度上是受了电影《她》的启发。”所以我确实认为,即使你不是研究人员,你知道,不擅长数学,不是会编码的人,我认为这波技术浪潮真的奖励“玩”。它真的奖励想象力。我认为写小说可能是你能做的最有价值的事情之一,特别是如果你能写有抱负的小说,能让前沿公司的人想,天啊,也许我们可以把世界导向那个方向。那不是很棒吗?如果你能在人们心中种下那种种子,它可以来自一个完全非技术的地方,并且可能真的产生影响力。
“玩”、写小说、对未来的积极愿景。任何你能做的来提供一个积极的……哦,行为科学也是,因为你能让AI编码。所以,我开始看到一些以前从未编码过的人。我现在正在与一个人合作,他以前从未编码过,但确实有行为科学背景,他正在开始就我们的 AI 在各种深奥情况下将如何行为进行合法的前沿研究。所以我认为没有人应该认为自己没有能力为弄清楚甚至塑造这种现象做出贡献。这不仅仅是技术头脑此时可以贡献的东西。哲学家、小说作家,字面上瞎折腾的人。像“Ply the Jailbreaker”有几乎无限多样的认知形象,对于试图弄清楚AI到底是怎么回事的人群来说,增加这些形象会非常有价值。所以,我的态度是,欢迎大家,都来参与。
Erik:这是个很好的结束点。Nathan,非常感谢你来到播客。
Nathan:谢谢你,Erik。今天很愉快。
原视频:Is AI Slowing Down? Nathan Labenz Says We're Asking the Wrong Question
https://www.youtube.com/watch?v=nkmPNvAU49Q
编译:Kyra Xu
欢迎扫码加群参与讨论
--------