作者:李亚洲
近日,来自 Fraunhofer IDMT、Tampere University of Technology 与蒙特利尔大学的 Yoshua Bengio 等人在 arXiv 上提交了一篇论文,提出跳过使用泛化维纳滤波器进行后处理的步骤,转而使用循环推断算法和稀疏变换步骤进行歌唱语音分离,效果优于之前基于深度学习的方法。这篇论文已经提交至 ICASSP 2018。论文:Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask
论文链接:https://arxiv.org/abs/1711.01437v1on-line demo 地址:https://js-mim.github.io/mss_pytorch/GitHub 地址:https://github.com/Js-Mim/mss_pytorch摘要:基于深度学习的歌唱语音分离依赖于时频掩码(time-frequency masking)。在很多情况中,掩码过程(masking process)不是一个可学习的函数,也无法封装进深度学习优化中。这造成的结果就是,大部分现有方法依赖于使用泛化维纳滤波器(generalized Wiener filtering)进行后处理。我们的研究提出一种方法,在训练过程中学习和优化源依赖掩码(source-dependent mask),无需上述后处理步骤。我们引入了一种循环推断算法、一种稀疏变换步骤用于改善掩码生成流程,以及一个学得的去噪滤波器。实验结果证明,与之前单声道歌唱语音分离的顶尖方法相比,该方法使信号失真比(signal to distortion ratio)提高了 0.49 dB,信号干扰比(signal interference ratio)提高了 0.30 dB。
图 1:方法图示。
表 1:几种方法的中值信号失真比(SDR)和信号干扰比(SIR)(单位为 dB)。下划线为我们提出的方法。值越高效果越好。
结论
本论文中,Bengio 等人展示了一种用于歌唱语音分离的方法,无需使用泛化维纳滤波器进行后处理。研究人员向跳过滤波的连接 [12] 引入了稀疏变换,效果优于使用泛化维纳滤波器的方法。此外,实验证明引入的循环推断算法(recurrent inference algorithm)在单声道语音分离中取得了顶尖的结果。实验结果证明这些扩展优于之前用于歌唱语音分离的深度学习方法。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- openEuler开源五年树立新里程碑,累计装机量突破1000万
- 创想 华彩新程!2024柯尼卡美能达媒体沟通会焕新增长之道
- 操作系统大会2024即将在京召开,见证openEuler发展新里程
- Gartner:AI引领欧洲IT支出激增,2025年将支出1.28万亿美元
- IDC:中国数字化转型支出五年复合增长率约为15.6% 高于全球整体增速
- 2028年中国数字化转型总体市场规模将超7300亿美元
- 诺基亚源代码疑遭黑客IntelBroker盗窃,公司确认已展开调查
- 携手SUSE,共驭变革之风:踏上共创数字未来之旅
- Gartner:预计2025年全球IT支出达到5.74万亿美元 同比增长9.3%
- 被联想海外起诉专利侵权 中兴通讯回应
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。