晴数智慧语音合成数据集助力中国Voice Engine语音大模型乘风破浪

近日,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。

除了语音合成之外,Voice Engine还能提供视频翻译功能,可以将一种视频语音无差别的翻译成多国语言。此外,OpenAI首席技术官Mira Murati在前不久接受的采访时表示,未来Sora生成的视频会带声音的,很可能为其提供声音的就是Voice Engine。

我们可以期待voice engine在未来将有广阔的应用场景,包括:配合Sora视频生成的功能,为视频配音,赋能内容创作、教育和娱乐等领域;支持语音交互的个人智能助理。这类个人助理它不同于简单的语音合成或者语音识别,而是根据用户的输入进行语音的响应:用户可以通过文本、语音来输入,然后服务直接用语音回复结果。

从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!同时,在自然对话中,标准反应间隔时间约为300毫秒。如果这是一个语音端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!

所以,语音端到端技术,将从根本上优化人工智能和人类对话的效果和响应速度,成为未来AIoT的标配。在这项技术中,高质量的语音数据将是决胜关键。

晴数智慧在去年全球首发了中文高质量复刻数据集,得到了广大企业的认可。今年我们再接再厉,为中国大模型落地各行业、并适配各地交流的刚需,再次首发“多方言超拟人语音合成大模型数据集”,助力中国Voice Engine语音大模型乘风破浪!

多方言超拟人语音合成大模型数据集具备48k高采样率,安静环境采集,方言语种多样,声音来源丰富,筛选来自不同地区、年龄、性别、社会背景人员录制以确保声音多样化。自由对话风格具有高表现力和情感色彩,能够使语音合成模型生成出方言语音更加生动、自然。主题丰富多样,涵盖了日常生活中的各种场景和话题,为精准、自然的语音生成提供了强有力的数据支持。

image.png

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )