MiniMax宣布开源面向Coding Agent的新评测集
创始人
2026-01-15 07:48:18
0

1月14日,MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示,基于该评测集,其针对现有的开源闭源模型进行了广泛的评估,并发现一些很有启发性的实验结果:所有模型的Check-level 准确率(CSR)可以达到80%+,但Instance-level成功率(ISR)只有10%-30%;绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降;现阶段模型表现普遍未能达到生产级要求,过程合规仍是盲区;开源模型正在快速追赶闭源模型。

相关内容

热门资讯

腾讯云“AI+融合创新”济南交... 4月17日,2026腾讯云AI+融合创新交流会在济南成功举办。大会汇聚政企学研各界代表,紧扣人工智能...
AI睡眠耳机、互动毛绒玩具 智... AI睡眠耳机、互动毛绒玩具智能好物带动科技消费市场升温今年一季度,我国社会消费品零售总额127695...
Claude Design上线... IT之家4月18日消息,Anthropic昨日(4月17日)发布博文,宣布推出ClaudeDesig...
喊了这么久AI+营销,哪些品牌... 谈到汽车广告,你想到的是哪个画面?是一个自信的成功人士,在城区穿梭,霓虹灯光打在玻璃上,也打在副驾爱...
浙江:用好AI,全力确保安全平... 浙江已于4月15日进入汛期。记者从4月17日召开的浙江省防汛防台抗旱工作新闻发布会上获悉,今年浙江气...
被AI改变的春招季 4月11日,江苏省淮安市2026届高校毕业生教育及综合类春季校园招聘会在淮阴师范学院举行,AI面试舱...
开源安全工具 Trivy 遭供... 一款被广泛使用的开源漏洞扫描工具Trivy最近发生了一起重大安全事件,暴露了软件供应链中的关键风险。...
Qwen3.6-35B-A3B... 4月17日,昨晚,千问3.6系列中等尺寸模型Qwen3.6-35B-A3B模型正式开源。官方表示,该...
原创 苹... 近日,苹果iOS26.5和macOSTahoe26.5首个测试版正式推送,带来SiriAI升级、跨平...
跌幅榜丨同类跌幅最小!港股通科... 4月13日,港股通科技ETF前海开源(159135)报收0.812元,收跌1.46%,成交金额104...