DeepSeek新动向:MODEL1代码现端倪,新架构或融合最新成果2月见分晓
创始人
2026-01-22 22:19:08
0

近日,科技领域关于DeepSeek的动态引发广泛关注。有消息指出,DeepSeek计划在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,该模型在写代码能力方面将有显著提升。

在DeepSeek-R1发布一周年之际,开发者在GitHub上有了新发现。DeepSeek更新了一系列FlashMLA代码,在横跨114个文件中,有28处提到了未知的“MODEL1”大模型标识符。这一标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中并列或区别提及,引发了开发者的深入探究。

通过对代码上下文的分析,开发者推测“MODEL1”很可能代表一个采用全新架构的模型。它与“V32”在关键技术上存在明显差异,具体体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。这些差异暗示新架构或许在内存优化和计算效率方面进行了专门的设计。

值得一提的是,此前DeepSeek研究团队已陆续发布了两篇技术论文。一篇介绍了名为“优化残差连接(mHC)”的新训练方法,另一篇则阐述了一种受生物学启发的“AI记忆模块(Engram)”。这两项成果的公布,不禁让外界猜测,DeepSeek正在开发的新模型很可能会整合这些最新的研究成果,从而带来更强大的性能表现。

相关内容

热门资讯

京东“AI终端新物种”大赛来了... 今年3月,一场聚焦AI硬件的创新盛典即将启幕。由宿迁市人民政府与京东联合主办,宿豫区人民政府、京东J...
多模态AI自动化复杂金融工作流... 金融领域正通过采用强大的多模态AI框架来实现复杂工作流程的自动化。从非结构化文档中提取文本一直是开发...
美股AI应用软件股集体走强 Braze涨近21%,Cloudflare涨超5%,Roblox、SoundHoundAI、Redd...
OpenAI突然宣布关闭AI视... OpenAI周二突然宣布将"告别"其AI视频生成器Sora。这一决定距离该公司高调推出独立应用仅六个...
KEEP(03650.HK)实... 3月25日,运动科技公司Keep(03650)公布了截至2025年12月31日的2025全年财报。报...
原创 京... 日前,京东媒体沟通会召开,会上,京东展示了其在大模型、数字人、AI硬件及企业级解决方案上的最新布局。...
延江股份首板涨停 开源证券西安... 3月25日,延江股份股价表现强势,于早盘封住涨停板。盘后数据显示,该股因日涨幅达到15%登上龙虎榜。...
antiX Linux 26发... antiXLinux是Debian13的极度精简版本,提供多种初始化系统选择和超轻量级图形界面。这使...
开源证券给予药明康德"... 每经AI快讯,开源证券3月25日发布研报称,给予药明康德(603259.SH,最新价:94.02元)...
打车这件事,被千问用 AI 重... 马年春节,「千问帮我」变成了一种新年俗。5520万杯奶茶、66倍的电影票订单、机票单周暴涨540%—...