引言:AIoT,用技术改变生活!
若说当今时代的关键词,“AIoT”当之无愧。“AIoT”也就是“AI+IoT”,指的是人工智能技术与物联网在实际应用中的落地融合。目前,越来越多的行业及应用将AI与IoT结合到了一起,AIoT已经成为各大传统行业智能化升级的最佳通道,也是未来物联网发展的必然趋势。
作为人工智能应用最成熟的技术之一,智能语音技术在AIoT领域应用十分广泛。B 端的医疗、教育行业;C 端的智能手机、智能家居、智能穿戴设备中智能语音技术的新赋能,都让我们都看到了这项新技术给我们生活带来的巨大改变。
根据中投顾问发布的《 2018-2022 年中国智能语音行业深度调研及投资前景预测报告》显示,智能语音应用将是人工智能发展的重点方向。
目前,国家正在加快人工智能的产业布局,发布多项利好政策促进人工智能产业发展;5G时代的来临更是为人工智能的发展培育了一片物联网沃土。我们可以预见,智能语音作为下一代人机交互的新入口,将率先在这片人工智能的沃土上生根发力,推动整个产业的茁壮成长。
中国企业在智能语音领域表现突出,创新创业日益活跃,还有搜狗智能语音等一批龙头企业加速成长,在国际上获得广泛关注和认可。
目前智能语音在语音拾取、语音分析和语义理解等核心技术环节取得了多项重大突破,智能语音技术已经呈现一种整体的解决方案。
在声音处理的整体解决方案中第一步也是最关键的一步——
如何将人的声音传达至机器,让机器“听到”、“听清”且“听懂”?
“听到”和“听清”在技术上又是如何实现?
相关技术上现在有哪些难点和突破?......
基于对人工智能行业的智能语音技术发展现状的好奇,国内多家知名科技媒体一同来到中国领先消费类芯片原厂炬芯科技,一起探索新时代智能语音技术将给我们的生活带来什么改变!
炬芯技术市场专家陶永耀应邀接受了媒体的群访,为大家一一解开关于智能语音技术的奥秘以及AIoT行业发展的种种疑惑。
陶永耀技术市场专家
炬芯“技术劳模”,对声音技术有着独特的见解,深受行业人士认可。
为帮助大家理解,陶永耀先就声音的工作原理以及智能语音技术中的关键:声音前处理技术做了简单的科普。我们也一起来学习下吧!
声音的工作原理
△语音处理数据流
声音应用的三个主要场景:
▪声音的传输,例如打电话,通过声音传输,让通话功能实现;
▪声音的存储,例如录音、播放CD等等;
▪声音的识别,就是语音交互体验
而声音的前处理技术和声音的后处理技术就是上述场景实现的关键。
声音的后处理技术,是声音经过存储之后进行播放的同时处理。是对音源例如MP3等媒体解码播放的声音进音效增强处理。(例如虚拟重低音、环绕立体声、高音增强、EQ等等。)
声音的前处理技术,是声音没有进入传输、没有存储之前的处理。声音前处理目的,就是让声音的存储、传输效率更高,识别率更好。(例如回声消除、降噪、声音活动检测等等。)
炬芯在过去三十多年,一直在进行声音的处理工作,例如MP3(声音的后处理技术)、录音笔等声音的保留、存储(声音的前处理),声音的麦克风识别,声音的回声消除及降噪(声音的前处理)、后期的音效增强(声音的后处理技术)等等。
智能语音终端设备关键——声音前处理技术
声音前处理技术其实是解决机器“听到”和“听清”两件事,从而达到“听懂”的目的。
声音的“听到”主要依托的是麦克风。主要形式为单个麦克风或麦克风阵列(多个麦克风按照一定规则排列,在特定空间对声音进行获取和处理)。
而基于麦克风的语音信号处理算法则是让声音“听懂”的关键。麦克风+算法,在不同的环境下排列组合,最终达到“听到”和“听懂”。
我们可以根据距离,将声音的前处理分为分为远场拾音(3到5米)和近场拾音(1米内)。
近场拾音,一般采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,语音助手的识别率就会直线下降,单麦克风的局限就凸显了出来。
远场拾音,由于距离、噪声、混响等因素,远场拾音多采用多麦克风阵列,并且和远场语音识别算法相匹配。
通过陶永耀对声音工作原理及声音前处理技术的重点讲解,对声音技术有进一步了解,众媒体纷纷对炬芯的技术发展进一步提出疑问,我们也将相关热门问题及回答罗列出来和大家一起分享!
Q:
炬芯在声音前处理方面都有哪些独家优势?
A:
炬芯的主要优势在于我们一直在做系统集成SoC,芯片硬件技术跟软件技术能够完美结合。凭借多年的经验,炬芯在声音采集的精度、速度上有很好的基础,并且通过声音处理算法硬件化等方式,能够将芯片的功耗和性价比维持在行业领先位置。
Q:
炬芯在声音前处理技术上已经覆盖了哪些行业及落地了哪类产品?
A:
我们现在主要的产品包括儿童录音笔、故事机、蓝牙音箱等等。在技术方面,主要包含了声音的降噪、回声消除技术、抗混响技术、在线语音识别。
同时,炬芯也在拓展一些新领域,例如智能家居和智能家电领域。在这个方向上炬芯会更多的关注离线识别技术(离线语音技术可以避免在线技术网络不稳定、联网难、人的隐私被曝光等问题;并在较短反应时间内实现家电的控制。)。
最近炬芯在推广的智能耳穿戴产品,就融合了离线和在线的语音识别功能。我们可以通过有限的命令词条实现一些命令控制,也可以通过手机和云上识别,去实现一些语义理解命令。离在线结合的识别技术,将是未来技术发展的一个重要方向。
Q:
在未来,声音前处理技术还有哪些难点需要攻克?
A:
第一,如何让机器听懂是我们在技术上需要持续关注的问题。让机器听最大的难点在于机器的识别率和误识别率,这两个比率也是未来需要不断地持续发展提高的。需要特别指出的是:机器的识别率和误识别率即听对听错的概率相互之间还存在互相制约平衡的关系。
第二,是在拾取声音的环境方面。声音的拾取除了受自己的回声和环境混响影响,还受环境中各类的噪声影响。各种稳态和非稳态的噪声都需要我们通过声音前处理技术进行处理。如何处理各种稳态的噪声和非稳态的噪声也将是未来需要持续关注的技术难点。
Q:
对于 AIoT 的发展趋势和相关的行业机会怎么看?
A:
AIoT是必然的发展趋势,而技术又是一个长期的研发和投入的过程。在技术的发展过程当中,我们发现强人工智能落地是一场持久战,但弱人工智能,在某些场景下能够切实解决人们的一些需求。因此,当一些适应场景的AI市场机会出现时,我们也需要把握住市场机会。
AIoT是一场持久战,短期、长期的技术研发及市场收益,需要我们不断的平衡与发展。
想了解更多精彩采访内容,请点击下方采访视频!
众所周知,炬芯科技多年来一直为无线音频及智能耳穿戴、智能多媒体、智慧计算及物联网等产品领域提供专业芯片及完整解决方案。尤其在声音领域,炬芯已经推出了众多音频和智能机器人等方案,在语音交互体验方面已经处于行业领先地位,落地产品深受国内外品牌商的青睐。
因为炬芯在“声音”领域持续耕耘,二十多年的技术积累以及与高要求品牌商深度合作的实战经验,让炬芯在行业一直处于领先地位。
AIoT,新时代将至,炬芯将持续不断的追求技术上的深耕发展,用更好的技术带给人们更美好的生活体验!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。