雷锋网消息,今天百度研究院官网更新了一条新闻,但显示需要密码方可查看内容。
文章标题为《Protected: Deep Speaker: an End-to-End System for Large-Scale Speaker Recognition》。从标题上看, Deep Speaker 应该是百度即将发布的新一代语音识别技术,且为一个端到端大规模识别系统。
雷锋网第一时间联系了百度 AI 研究院的相关人士,对方表示本次更新为百度美国研究院发起,据他了解,“主要是声纹识别方向的进展”。
据百度美国研究院的消息透露,这一内容将在北京时间凌晨公布。
声纹识别是语音识别里一个比较窄的分支,通过对一种或多种语音信号的特征分析达到对未知声音辨别的目的,也就是说,可以通过声纹技术判断某句话是否为某个人所说。声纹识别的理论基础在于每个声音都有自己的特征,并能对不同的声源进行有效区分。
目前,声纹识别的任务主要有两种,一是声纹确认技术,即比对两份样本是否为同一人所说;另一个则是声纹识别技术,即判断某句话是样本库中的哪个人所说的。
今年年初,百度小度在“最强大脑”中也展示了采用声纹识别技术,从一群唱歌的参与者中找到拥有说某句话(样本为一段简短的通话)的那个人。百度官方在接受采访时,也指出本次节目的声纹识别难度比一般的声纹识别要难,主要采用的是“声学特征提取”与“说话人特征提取”两种方式,并用“DNN-ivector”及基于端到端深度学习的说话人信息提取算法进行训练和鉴别。
此前雷锋网(公众号:雷锋网)曾经报道过百度在语音技术上的进展。语音识别层面上,百度早在2010年就已经进行智能语音及相关技术研发。并从2012年开始逐步采用 DNN、Sequence Discriminative Training(序列区分度训练)、 LSTM 模型、CTC 及 Deep CNN 等神经网络进行语音的相关研究。在语音识别领域,百度相继于 2014 年及2015 年年底发布了 Deep Speech 和Deep Speech 2,并凭借深度语音识别技术于2016 年入选 MIT 十大突破技术。基于 Deep Speech 2 ,2017年百度推出了一款基于人工智能的转录应用 SwiftScribe。而在语音合成上,百度于今年正式推出 Deep Voice,一个实时语音合成的神经网络系统。
那么,本次如此神秘的 Deep Speaker 到底有哪些重大的更新,它又可能在哪些方面有所突破?雷锋网将会及时跟进消息。
- Meta Orion 豪门梦碎:最强版本2027亮相,眼镜内置摄像头,AR眼镜新时代何时开启?
- 苹果在中国市场遭遇重大挫折:2024年第四季度销量大跌18%,被华为和小米超越
- 跨生态互联新篇章:绿米Aqara Matter高阶桥接功能引领智能家居新潮流
- 极空间NAS新功能曝光:文档同步2.0、多端播放器,办公利器升级版等你来体验
- 国产NAS系统飞牛私有云fnOS升级,新增虚拟机功能,数据管理更高效
- 小米路由器BE6500 Pro升级新固件,新增与Home Assistant深度整合,本地控制更便捷
- 智能洗地机器人新品发布:萤石推出全新视觉洗地机器人 RX30 Max,全面升级吸、拖、洗功能,全天候洁净守护
- 复古风尚与未来科技融合,Rogbid SR09智能钛合金戒指,59.99美元,探索未来生活新体验
- TCL雷鸟鹤6 Mini LED电视震撼登场:4K 144Hz+352分区背光,最低仅需2599元,颠覆视觉体验
- 智能门锁市场风云变幻:2024年销量下滑,小米领跑线上,行业面临挑战与机遇
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。