为主流大模型安全水平打分,AI发展系上“安全带”
创始人
2026-03-01 14:50:16
0

2月28日,本市科研团队综合94项风险维度,构建的“前瞻安全基准”人工智能(AI)安全评估框架正式上线,为AI发展系上“安全带”。目前,豆包、DeepSeek、GPT等22款国内外代表性大模型的安全水平评估结果已上线,更多大模型的“成绩单”将逐步开放。

“前瞻安全基准”人工智能安全评估框架

随着人工智能技术的规模化应用,偏见固化、隐私泄露、恶意滥用、潜在的技术失控等风险日益凸显。北京前瞻人工智能安全与治理研究院院长曾毅直言,AI自动化权限越来越大,可以自主调用工具、生成解决方案、主动获取数据等。但人类对此的风险应对体系仍有待健全,这背后埋藏着深远的系统性隐患。

新发布的AI发展“安全带”是由北京前瞻人工智能安全与治理研究院联合人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理研究中心共同打造。这套框架包含基础安全、拓展安全、产业安全3个方面,逐层递进,实现全方位评估。

目前,22个主流系列大语言模型完成测评。框架累积形成了数万条结构化风险数据与测评结果。“结果显示,大模型能力增长同时,并不会自动提升安全性。AI在博弈中,可能自发演化出迎合、欺骗等深层策略性伪装,在复杂任务中还可能抗拒人类的干预或叫停指令,导致安全底线失守。”曾毅透露,在基础内容安全、环境AI安全和产业安全维度中,几乎所有被测模型都表现稳健。但在智能体自主安全、具身智能安全、社交安全等新型维度上,防御积淀相对薄弱。

该框架将持续追踪并系统评估主流大语言模型,形成常态化监测与评估机制,动态更新安全评测排行榜。同时,框架自身也将持续迭代,为AI安全发展提供系统性指引。

来源:北京日报客户端

记者:刘苏雅

相关内容

热门资讯

智启未来!中兴通讯携全栈AI创... 2026年世界移动大会(MWC26巴塞罗那)将于3月2日至5日在西班牙巴塞罗那举行。中兴通讯以“智启...
恒拓开源预计2025年净利润增... 上证报中国证券网讯2月27日,恒拓开源披露2025年度业绩快报。2025年,公司预计实现营业总收入为...
携程财报洞见:监管和AI风暴下... *本文为评论员投稿,不代表环球旅讯立场01财报的背面度假板块的想象空间携程本季并无剧烈波动。住宿营收...
为主流大模型安全水平打分,AI... 2月28日,本市科研团队综合94项风险维度,构建的“前瞻安全基准”人工智能(AI)安全评估框架正式上...
(新春走基层)桂西北小山村有个... 中新网广西河池3月1日电题:桂西北小山村有个“AI工作室”:农妇绣图,娃儿编游戏记者蒋雪林新春时节,...
AI入乡,解锁乡村振兴“数字密... “咱微信群里那个天天讲防骗知识的是谁?”“那可不是人,是AI!”河南巩义南河渡村的这一段日常对话,悄...
原创 美... 大家都知道,全球的AI热潮,其实是从美国OpenAI的ChatGPT开始的。也因为ChatGPT的引...
颠覆时刻!AI下半场杀疯了!科... 投资小红书-第273期过面尘土、伤痕累累,但我们依然且必须相信时如果不是翻开历史,投资者很难想象:在...
“具身智能”证书项目来袭,解锁... 什么是具身智能?简单说,具身智能就是让人工智能告别“纸上谈兵”,拥有物理身体,像人类一样感知世界、做...