阿里开源音频生成模型,能看懂画面为视频配音

科技IT
2025 07-02 01:25:08
分享

7月1日消息,阿里通义实验室开源了旗下首个音频生成模型ThinkSound,该模型首次将CoT(Chain-of-Thought,思维链)应用到音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的高保真音频。目前,ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源,开发者可免费下载和体验。

《阿里开源音频生成模型,能看懂画面为视频配音》

阿里开源音频生成模型ThinkSound

视频生成音频(V2A)技术是多媒体编辑和视频内容创作领域最重要的技术之一,但该技术的发展速度仍存在诸多技术挑战,例如业界现有的V2A技术仍缺乏对视觉对应声学细节的深入理解,导致生成的音频较为通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

为了解决现有视频转音频技术难以捕捉画面中动态细节和时序的难题,通义团队首次将思维链推理引入多模态大模型,可以模仿人类音效师的多阶段创作流程,实现对视觉事件与相应声音之间深度关联的精准建模,例如先分析视觉动态、再推断声学属性,最后按照时间顺序合成与环境相符的音效。不仅如此,该团队还构建了首个带思维链标注的音频数据集AudioCoT,该数据集融合了2531.8小时的多源异构数据,让模型在音频生成与编辑任务时做到“知其然、知其所以然”。

在开源的VGGSound测试集上,ThinkSound的核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升。例如,在openl3空间中Fréchet 距离(FD)上,ThinkSound 相比 MMAudio的43.26 降至34.56(越低越好),接近真实音频分布的相似度提高了20%以上;在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了1.52和1.32的成绩,均为同类模型最佳。

《阿里开源音频生成模型,能看懂画面为视频配音》

在开源的VGGSound测试集上,ThinkSound多项核心指标位居第一

在MovieGen Audio Bench测试集上,ThinkSound的表现大幅领先Meta推出的音频生成模型Movie Gen Audio,展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。

《阿里开源音频生成模型,能看懂画面为视频配音》

ThinkSound大幅领先Meta旗下Movie Gen Audio

目前,通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型,全面覆盖语音合成、音频生成、音频理解等场景。

开源地址:
https://github.com/liuhuadai/ThinkSound
https://huggingface.co/liuhuadai/ThinkSound
https://www.modelscope.cn/studios/AudioGeneral/ThinkSound

  • About
  • Latest Posts
阿里开源音频生成模型,能看懂画面为视频配音插图3Latest posts by mingzhi (see all)
  • 西门子EDA推新解决方案,助力简化复杂3D IC的设计与分析流程 – 2025年7月1日
  • 阿里开源音频生成模型,能看懂画面为视频配音 – 2025年7月1日
  • 派拓网络:将应用安全预算用在“刀刃”上,平台化策略成为投资回报最大化的关键 – 2025年7月1日

The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。