随着城市的快速发展,噪音作为“看不见的污染”,正持续地“入侵”着现代城市生活。不过,这一难题,现已在众多场景中,被思必驰新一代的智能降噪技术所攻破。
自研算法,兼顾噪音抑制和保真性
语音识别近年来有了极大的发展,但在当前,它还没有达到“一套技术打遍天下”的状态。作为一个强场景化的技术,语音识别在诸多真实应用场景中,仍然存在着“最后一公里”的问题。
这其中,特定场景的噪声,就是一个非常大的干扰因素,会使得通用系统识别准确率的急剧下降。可以说,降噪是对话式人工智能技术在实际应用中所要解决的首要问题。
传统的噪音抑制方法,只能作用于某些固定的稳态噪音,如空调等电器的运转声,通过寻找连续的背景音,预估噪声的基线,然后将其过滤掉。
而动态噪音,如开关门声、汽车喇叭声、尖叫声、宠物叫声等,和人的语音出现频率重叠时,传统方法就无法很好的抑制。深度神经网络(DNN)则在这一领域表现出了强大的优势。近几年来,深度学习方法取得飞速发展,更强大的深度神经网络被应用于语音识别,包括卷积神经网络(CNN)等。
传统降噪结合AI降噪,兼顾降噪效果与人声保真度
思必驰的智能降噪技术采用的是“两者兼融”的方式——传统分离结合深度学习方案,可以兼顾传统信号处理的保真性和深度学习的非稳态噪声抑制能力,即在很好的去除非稳态噪声的同时保证语音的较小失真,听感更自然。
在深度学习的神经网络结构方面,思必驰也与传统的语音模型仅使用1至2层卷积层不同。思必驰采用的是自研的极深卷积神经网络模型(VDCNN),该模型通过堆叠较小的卷积层和池化层,将语音模型中的卷积层的深度提高到了10层以上。利用小卷积核更加精细的局部刻画能力和频率不变性描述,能够更好地在语音模型的内部实现了声学自动降噪的能力。
原始音频
降噪音频
因地“治噪”,清晰悦耳体验即时赋予
思必驰算法模型的应用,使得系统巨大的性能提升。不过技术的价值,仍需要实际应用来检验和证明。目前,声学模型已覆盖家居环境、车载环境、卖场商场环境、公共交通环境以及办公环境等数十个典型场景,在诸多智能终端产品中大展拳脚。
会议场景
思必驰智能降噪技术基于上千小时会议场景噪声模型学习和研究,能够有效抑制会议室多种背景噪音,包括稳态噪声、动态噪声,例如空调声、电脑运转声、键盘敲击声鼠标点击声、椅子拉动声、脚步声、开关门声、翻书声、鼓掌声等等。
搭载该技术的思必驰会议魔方M1,能够保留还原出干净的语音原声,有效避免远程会议时与会人员被杂音干扰。针对在远程会议中经常听到的通话回声,严重时会听到刺耳的啸叫声等设备自噪声,会议魔方M1采用麦克风扬声器分离式设计,并内置业内领先的智能回音消除技术(AEC),能够有效地消除通话中产生的回音,线性回声消除ERL≥35dB,总体回声抑制能力≥60dB。
城市交通场景
城市交通是噪声污染的主要来源。在地铁、机场、驾车、骑行等具体环境中,所面临的噪声挑战各不相同。其中,难度最大的当属骑行过程中智能穿戴产品的降噪,一方面面临马路上的常规噪声干扰,另一方面是风噪的影响,两者都会对语音的质量造成较大影响。
针对风噪问题,思必驰耳机方案结合入耳麦的物理防风特性,配合深度学习降噪,有效地抑制了风噪带来的影响,同时具备降噪深度高、鲁棒性强、稳定性佳等优势。哪怕是在开窗行驶的汽车中等噪声环境下,通话对象也能清楚地听到用户的说话内容。
商场、餐厅场景
商场、卖场、餐厅等环境,是又一个富有挑战性的降噪场景,因为其噪声的来源较多,噪声类型非常丰富,而且噪声比较大,约70分贝以上。
在上述场景中,服务人员可通过佩戴蓝牙耳麦、智能录音工牌等拾音设备与客户交谈,将所交流的信息提取以进一步提升服务质量、驱动业务创新,让AI辅助服务行业数字化升级。
医疗场景
医疗场景的应用,面临着器械噪声、候诊人群话语声等背景噪声,不过思必驰技术团队表示,这其中最为难处理的是核磁共振检查时的设备本身的自噪音,信噪比极低。
做过核磁共振检查的人都知道,核磁共振设备运转时发出的噪音非常高,这使得医疗人员与病患在检查时存在极大的沟通困难。针对这一场景的降噪方案,能够有效帮助医疗人员指导病患配合检查,提高检查效率。
(以上场景降噪效果,可关注思必驰关微信公众号,查阅本篇内容聆听对比)
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )