智谱联合华为开源图像生成模型 GLM-Image
创始人
2026-01-14 09:46:16
0

21世纪经济报道记者孔海丽

1月13日,智谱联合华为开源新一代图像生成模型GLM-Image,在科普插画、多格图画、社交媒体图文、商业海报、写实摄影等方面均可落地。

图片由GLM-Image生成

GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型,全流程均在昇腾Atlas 800T A2设备上完成,验证了在国产全栈算力底座上训练前沿模型的可行性。

依托昇腾NPU和昇思MindSpore AI框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,智谱自研了模型训练套件,全面优化数据预处理、预训练、SFT和后训练的端到端流程。通过动态图的多级流水优化机制,将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈;通过多流并行策略,通信和计算互掩,打破文本梯度同步、图像特征广播等操作的通信墙,极致优化性能;使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,同步提升训练的稳定性和性能。

近期,以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成,进化为兼具世界知识与推理能力的认知型生成,这些模型在海报、PPT、科普图等知识密集型场景及高保真细节呈现上表现较好。

据了解,GLM-Image采用自主创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合,API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新。

GLM-Image所涉及的“自回归”架构利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;“扩散解码器”则配合Glyph Encoder的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。

相关内容

热门资讯

腾讯云“AI+融合创新”济南交... 4月17日,2026腾讯云AI+融合创新交流会在济南成功举办。大会汇聚政企学研各界代表,紧扣人工智能...
AI睡眠耳机、互动毛绒玩具 智... AI睡眠耳机、互动毛绒玩具智能好物带动科技消费市场升温今年一季度,我国社会消费品零售总额127695...
Claude Design上线... IT之家4月18日消息,Anthropic昨日(4月17日)发布博文,宣布推出ClaudeDesig...
喊了这么久AI+营销,哪些品牌... 谈到汽车广告,你想到的是哪个画面?是一个自信的成功人士,在城区穿梭,霓虹灯光打在玻璃上,也打在副驾爱...
浙江:用好AI,全力确保安全平... 浙江已于4月15日进入汛期。记者从4月17日召开的浙江省防汛防台抗旱工作新闻发布会上获悉,今年浙江气...
被AI改变的春招季 4月11日,江苏省淮安市2026届高校毕业生教育及综合类春季校园招聘会在淮阴师范学院举行,AI面试舱...
开源安全工具 Trivy 遭供... 一款被广泛使用的开源漏洞扫描工具Trivy最近发生了一起重大安全事件,暴露了软件供应链中的关键风险。...
Qwen3.6-35B-A3B... 4月17日,昨晚,千问3.6系列中等尺寸模型Qwen3.6-35B-A3B模型正式开源。官方表示,该...
原创 苹... 近日,苹果iOS26.5和macOSTahoe26.5首个测试版正式推送,带来SiriAI升级、跨平...
跌幅榜丨同类跌幅最小!港股通科... 4月13日,港股通科技ETF前海开源(159135)报收0.812元,收跌1.46%,成交金额104...