一段时间来,大模型都在学写代码。OpenAI的代码生成工具GPT-5.3-Codex(也称为Codex),专注于编程的高效性;Anthropic的代码生成工具Claude Code,注重安全性和可靠性;DeepMind的代码生成工具 AlphaCode则擅长处理算法类编程任务。
还有那么多的事需要AI来做,为什么它们都在写代码,而且看谁写得更好、更快?特别是对于因人工智能安全而生的Anthropic,写代码和AI安全有什么关系?是不是初心已变?这些是值得思考的。
从Claude Code创始人Boris Cherny最近的访谈记录,可以看出AI大模型学写代码,本质上是在抢安全 AGI 的赛道。对 Anthropic 来说,Boris认为押注“编程”这条路,是通往安全 AGI 的路径之一。
目前,AI安全与风险主要有三大类:
1. 提示注入,自然语言有话术,在提示注入与检测方面,AI终究难于超越人类;
2.越狱,内在价值对齐机制被突破,被诱导做坏事;
3.模型的不可解释,导致漏洞高居,黑盒攻击一直存在。
从RLHF到RLAIF,从人类价值示例到人类定价值规则(宪法),再到大模型输入输出的内容安全监测,都是试图在自然语言层面解决AI安全。但自然语言模糊,表面顺从,实际上不服从,大模型难以在可用性和安全性之间取得平衡。
既然如此,就需要将安全的逻辑往下沉,这些大模型便就抓住了代码层。因为代码是刚性的,对错明确,规则明确。
所以,Anthropic等现在做的事是,先教模型精通写代码,再让模型用代码监督自己,最终实现AGI自动遵守代码话的安全宪法,即代码能力+宪法AI实现安全可控的人工智能。
从软件工程从业人员来看,模型会写代码,会自主沟通,使用工具,甚至已经开始学会使用电脑了,莫非这些大模型是要替代替代编程开发人员了。但从Anthropic的长远目标来看,编程不是终点,是通往安全 AGI 的必经之路。Boris也承认这是意外,但是对于其他大模型也许是醉翁之意呀。
尽管Boris在AI安全上思路清晰,但实际上通过用代码来表示用户问题、解决用户问题的路子并不通畅。因为,人类价值观模糊、矛盾、多元;价值观难以代码化,人类的“公平、正义、善意” → 无统一标准、随文化/场景/人变化,这些都与代码必须唯一、无歧义、可校验的本质相违背。总之,人工智能安全路漫漫。
关注复旦大学IntBigData: