语音输入技术的未来是什么样的?将会经历4个阶段

2016年10月18日晚,老罗在上海梅赛德斯-奔驰文化中心发布了新的旗舰手机——M1,在这场发布会,除了老罗的脱口秀和手机外,另一个让人印象深刻的情节是,讯飞输入法在其中的植入。当晚,当老罗用讯飞输入法在写字板上输入文字,同时文字以几乎100%的正确率出现时,全场一阵欢呼。随后当老罗问起:现场有谁不知道讯飞输入法时,全场至少一半人举起了手。

有人说锤子这场发布会最大的受益者是讯飞输入法,这个说法不无道理,因为借助老罗的影响力,语音输入法的价值第一次被更多人认识到。

语音输入法是一个输入法,但本质属于人工智能的范畴,语音技术不只是输入文字,最终将是根据人类的语音指示帮助人类处理任务,完成人类指令的智能。

11月22日,百度语音开放平台三周年主题活动在北京召开,寻空受百家号镀金计划X百度语音邀请参与了这次活动。“百度大脑”的负责人吴恩达在这次大会公开宣布开放四大语音技术——情感合成、远场方案、唤醒二期、长语音方案,为开发者提供免费接入入口。从发布会来看,百度并不是要推广百度语音技术和输入法这么简单,更是让语音技术作为“百度大脑”的组成部分,成为百度人工智能战略的先行军。

从现场吴恩达的演讲和我个人对语音技术的经验来看,语音输入法的未来有4个阶段。

第一阶段:代替打字的语音输入。这是语音输入法的最基本功能,市面上不少输入法都有这个功能,但是并不是所有输入法的识别率都是一样的,其背后依托的是对于人类语言、语法以及语意的识别和分析。这个阶段产品对于语音的识别率应该说依赖于产品背后的数据和技术。

第二阶段:简单任务处理。当你对着语音软件说“明天天气怎么样?”时,语音软件会告诉你明天准确的天气信息,当你对着电视说打开CCTV5时,电视会自动跳到CCTV5,这些属于简单的任务处理。这个阶段的目标总得来说是让人类的生活更便捷。

现场爱奇艺的技术总监吴桂林打开视频应用“爱奇艺”的手机客户端,说“VIP续费”,系统便跳转到了相应的充值页。

爱奇艺的这种任务处理应该说高于“明天天气怎么样”这样的任务处理,但即便这样的任务大部分语音技术依然没有实现,比如你对着语音软件说“叫一辆从家到公司的出租车”,这样的任务并不属于特别复杂的任务,但依然没有实现。这个阶段突破并不难,在可预见的时间内一定会越来越完善。

第三阶段:物联语音。吴恩达在发布会中举了一个例子:“在智能家居的场景,我们希望未来你回家以后可以使用语音跟你的电视、遥控器、音箱、窗帘讲话,比如说希望你未来可以向你的电灯说,“电灯请打开”,它就明白你的命令,或者对遥控器说话,它就能非常方便的满足你的需求。”这个阶段我将其定义为物联语音,相对物联网来说,这些有联网属性的家居、物品全都可以与语音技术相连,并且可以通过语音来控制,同时这些家居、物品会在语音的指示下完成不那么复杂的任务。

第四阶段:物联语音+复杂任务处理。在电影《她》中,男主角在开场便演示了这种场景。他说一句“放一首伤感的歌曲”,设备便开始放(顺便说一下我用某语音助手说了同样的话,它给我的推荐中有《爸爸去哪》,并且需要自己点一下);他说浏览邮件,设备便开始自动读邮件内容;他在“浏览”新闻时,说“下一条”,设备便会自动读内容,当他听到某明星性感裸照流出时,他停下并拿出设备,设备上便是这条新闻的图片,当然男主角在听到某明星性感裸照流出时,如果戴着未来的Google glass类设备,那他就可以在眼前的屏幕上欣赏裸照,而不用拿出手机鬼鬼祟祟地欣赏了。当然电影中展示的更高级形态是虚拟的“她”,这个语音助手加情人,让男主人分不出她到底是机器还是人。

可以说到了这个阶段,语音处理就不仅是语音处理,而同样是人工智能的表现形态。我觉得这就是“百度大脑”期望的未来了。

今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果。未来,百度的船票就在这里面了。

作者微信公众号:xunkong2005

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2016-11-23
语音输入技术的未来是什么样的?将会经历4个阶段
语音技术不只是输入文字,最终将是根据人类的语音指示帮助人类处理任务,完成人类指令的智能。

长按扫码 阅读全文