数据开源 | 高质量双工自然对话中文语音数据集,引领AI实时交互新体验

在快速发展的人工智能领域,技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景,人机交互正经历着前所未有的深刻变革。传统的训练数据已难以适应当前的需求,现代交互要求系统不仅能理解语言的上下文,还需快速识别用户的需求并作出恰当反馈。

在此背景下,晴数智慧联合中国科学院声学研究所,共同开源了“双工自然对话语音数据集_中文”,为语音对话模型提供更加真实、细腻的训练数据。通过对每位说话者语音的独立分析,该数据集让语音对话模型能够洞察对话中的上下文变化、语调起伏以及情感波动,从而生成更加自然、准确的回应。同时,双工分离数据让端到端模型的构建更为精准,反馈速度更快。

AI实时交互新体验" alt="数据开源 " 高质量双工自然对话中文语音数据集,引领AI实时交互新体验" loading="lazy"/>

数据集描述

晴数智慧开发的多通道自然对话语音数据集,旨在解决当前语音对话模型面临的两大问题:一是如何在复杂对话环境中准确捕捉并区分每位说话者的语音信息;二是如何使AI模型更好地理解并适应自然对话中的打断、交互等动态过程。

数据开源

上图为双工语音交互模型架构图。双工语音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了传统单工语音交互模型一问一答的僵化响应模式,实现了同步听说以及在交互过程中自然的打断与插话。然而,这些模型的训练高度依赖双工自然对话语音数据。而此类数据的稀缺,尤其是在中文领域,严重限制了上述模型的性能提升。

为解决这些问题,我们采取了创新的数据采集与处理策略。首先,通过独立采集每位说话者的音轨,并单独对每个说话人做分类标注,完整的保留了对话过程中自然的打断,交互等过程。其次,通过将每位说话者的音频分离,我们能够提供更清晰、更精准的训练数据,使模型更专注于理解和响应自然说话的交互过程。

为了让大家更直观地了解我们的多通道数据,我们特别选取了5小时的对话内容作为本次开源数据集。本数据可以用于模型的微调或者测试使用(非商用)。

数据开源

数据集优势与亮点

自然度:捕捉真实场景下的自然对话,确保数据的高度自然流畅;

领域多样性:覆盖多个行业与话题,满足跨领域应用需求;

地域多样性:融入不同地域的语音特征,增强模型的泛化能力;

副语言标签:特别标注副语言信息,如语气、停顿等,为深度情感分析与交互体验升级提供有力支持。

除了中文双工对话数据开源之外,我们同样开源了英语双工对话数据,对英语双工数据感兴趣的朋友,欢迎通过以下链接下载并使用,探索更多可能~

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )