通义发布并开源首个支持影视级多场景配音的多模态大模型
创始人
2026-03-17 17:19:09
0

3月16日,通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型 Fun-CineForge。此外,还配套开放了高质量数据集的构建方法。通过“数据 + 模型”的一体化设计,Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。

据介绍,Fun-CineForge 首先构建了一套自动化的数据集生产流程,可以将原始影视素材转化为结构化多模态数据。

该流程包括人声分离、文本转录、长视频分段、音视频联合说话人分离等,其中,基于通用大模型思维链的双向矫正机制,大幅降低了转录文本和说话人分离结果的错误率。

相关内容

热门资讯

Facebook Market... Meta公司为FacebookMarketplace平台推出了多项全新的AI驱动工具,旨在提升用户在...
阿里AI战略升级,林俊旸离场并... 3月16日,阿里巴巴正式成立AlibabaTokenHub(ATH)事业群,由阿里巴巴CEO吴泳铭直...
阿里巴巴成立Alibaba T... 央广网3月16日消息(记者殷雨婷)3月16日,阿里巴巴正式成立AlibabaTokenHub(ATH...
批量制造的“AI霸总”,掏空中... 快速生长的AI“爱情”流水线。听筒Tech(ID:tingtongtech)原创文|陈珂编|饶言在这...
量化派在AI领域又现重大动作 3月13日晚间,量化派(02685.HK)发布公告,宣布委任香港大学计算机系徐东教授为公司首席科学家...
该有评价AI好坏的标准了 2026年AWE(家电及消费电子博览会)上,遍地都是机器人和各类AI硬件。会跳舞还会刺绣的机器人;可...
工业AI智能体龙头思谋科技递表... 思谋科技在港交所提交上市申请,联席保荐人为摩根士丹利、中金公司和德意志银行。思谋科技是一家全球领先的...