原创 从万物静默到声情并茂:百度输入法的AI发声计划

原标题:从万物静默到声情并茂:百度输入法的AI发声计划

当我们讨论AI的时候,常常会将注意力放在人类未来、城市发展、经济动能等等宏大叙事上,却往往忽略了很多日常细节中AI带来的变化。比如,输入法。

输入法早已充斥在我们生活的每一个角落,如同一双虚拟的手,为每一个人延展出恢弘多彩的网络世界。

而输入法所连接的每一条评论、每一次对话、每一段博文,都或多或少有着可以被AI所改变的地方。

在今天看来,更好的智能输入法,意味着更清晰的用户剪影,更顺滑的使用体验,也意味着更多流量和交互入口,正在技术帝国中发挥越来越重要的作用。

百度高级副总裁王海峰

如今,各大输入法厂商都在暗自发力,希望掌握更强大的智能输入技术。今天刚刚亮相的百度输入法AI探索版,就把全语音引入了输入法,让我们看到了一场值得思考的输入法技术进阶感官实验。

新渴求与新方向:网上冲浪注定投入AI的怀抱?

在探讨百度输入法AI探索版之前,有必要先梳理一下,AI对输入法的改变到底能在哪些维度进行渗透。

比如我们能感受到,输入法行业之怪现象,就是我们能在网上冲浪的各个环节看到输入法工作的身影,而且每个头部产品的用户体量都不小,可仔细一想,却集体面目模糊,很少有明显的差异化,更不用提让人产生改变世界的兴奋感。

这样一个超级流量入口,在渠道成本持续增长的今天,是厂商们必须努力刷出存在感的必争之地。不能再依靠用户惯性混吃等死,但那些长期存在于全行业的问题并不能以常规方式克服:

比如文本输入,存在着输入效率低、词汇联想错误率高、功能个性化不足等种种问题,很难满足用户的体验需求。尤其是在大量老年人、儿童、残障人士涌入互联网之后,文本输入的弊端越来越清晰地显现出来。

这种情况下,我们希望语音输入承担起更多的工具角色,却又受困于识别准确率、NLP技术瓶颈的限制,需要投入很大的技术研发资源,决定了只能是少数硬核技术玩家的舞台。

另外,网络交互场景也前所未有地碎片化。比如儿童既有查阅资料的需求,也有游戏交流、视频直播的需求,如何同时满足不同人群多样化的交互场景且稳定可靠,非常有挑战性。

总的来说,输入法可以说是互联网世界的一面镜子,各种用户各种需求的痛点和问题在这里被集中投射出来。那么要刷出存在感的路径也就很清晰了,做出让绝大多数人能够无学习成本、多场景耦合的输入法产品。

要做到这一点当然很难,但幸好技术的发展也带来了很多命运的礼物,比如说——AI。

打造AI交互“样板间”:声情并茂的百度AI输入法有何不同

死磕AI的百度,这次在输入法上的体验革命,堪称决绝。最清晰地体现在,这是国内首款默认全语音输入的产品,并且把表情、肢体等互动与虚拟世界相连接,形成了一种颠覆式的交互方式。

在畅想中,用语音这种最为简单、老少皆宜的方式进行输入,无疑是学习门槛最低、群体包容性最高的方式。但在现实中,很少有厂商能够如此大刀阔斧孤注一掷。

从这个角度来看,百度输入法AI探索版,无疑为AI交互技术在输入法领域的应用打造了一个独一无二的“样板间”,让AI的作用清晰地跃然眼前。

首先是语音技术上,百度的流式截断多层注意力建模(SMLTA),解决了传统Attention模型在识别中的时延性问题,成为网络大规模在线语音实时交互的现实基础支撑。百度输入法在线语音准确率依然好于最优竞品15%。

而在一些网络连续性不太强的地方,比如海外旅游、电梯地铁隧道等离线场景中,百度持续优化的Deep Peak 2系统,也能实现精准的语音输入,高于行业平均水平35%。

AI在语音方面的另外一个比较重要的能力,就是识别算法对语音特征的精准细分。基于此,百度输入法AI探索版轻松carry中英文混杂、花式普通话、中英方言口音等障碍,大大降低了“五环外人口”网上冲浪的难度,成为目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。

另一个AI带来的突破,在于全感官的交互成为可能。网络已经成为复杂的社交功能载体,除了文字交流之外,还可能涉及直播、虚拟人像等新玩法。但在传统输入法中,这些需求几乎很难被满足。除了硬件上的诸多限制,更多需要人脸识别、图像分割、神经迁移一类的技术。百度就结合AI技术,得到了新的解决方案,推出了拍立活、秀场、凌空手写等新功能玩法。

比如可以让宠物或偶像照片,结合用户自己的动作做出相同的表情;或者是让用户自由穿越各种虚拟场景,打破次元壁;凌空手写如同隔空打怪,在空中书写也能被流畅识别,据说目前整体识别率已达到大规模应用的要求,不失为一种新的装逼神器。

AI在产业端登场之后,我们已经见证了它在众多领域提升效率的传奇故事。从百度“第一个吃螃蟹”推行全语音的举措来看,一旦冲破识别精度和语义理解的技术瓶颈,语音输入就可以凭借绝佳的技术普适性,从“常年辅助”变成“最强王者”。而在这背后,AI作为胜负手,是毋庸置疑的。

不止于输入法:AI崛起意味着什么

AI的能量正在将老人、外国人等人群无差别地引入自由输入的畅快世界,可能是科技体现出人文温度的瞬间,也是输入法从工具属性到AI连接点的自我进化。

而对于百度这样将AI作为产业抓手的企业来说,输入法也正在反哺AI,从三个角色改变技术的面貌:

1.最贴近大众的技术抓手:截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。正是大众行为的自发选择,让下一代输入法的形态呼之欲出。靠AI来协助提升输入效率甚至革新社交方式,输入法显然是最好的AI技术输出窗口和连接点。

2. 新交互技术的试验田:在越多越多企业将人脸识别作为互动新想象力的时候,选择输入法作为AR、annimoji等CV技术的输出窗口,显然成为百度技术版图中必不可少的重要补充。

3.海外市场的“春风化雨手”:出海对于大多数中国科技企业而言都是挑战,也是难题。而输入法这样的工具型产品,可以“润物细无声”地潜移默化,快速打入市场并输出技术能力,同时更好地输入和适应不同文化的知识结构。

比如百度输入法AI探索版,其日文输入法的语音识别精度目前位列行业第一,已经成为日本最大的第三方输入法产品;在印度市场的表现也很出色,语音功能的使用率达到21%。

在AI的加持下,还和Hello Kitty、小黄鸭、小王子、格林奇等全球100余个知名IP达成合作,推出了一系列IP皮肤和表情,让本地化运营如虎添翼。

不难看出,利用AI实现输入法的能力进击,虽然只是一个产品方向的小切口,却把错综复杂的技术升级、功能迭代和全球市场需求,带到了有序的新方向上,不仅仅是一项增益技术,更是产业掘金的必由之路。

而百度技能全开、先下一城,会给亟待冲出舒适区的输入法之战带来哪些震动,值得期待一下。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-01-17
原创 从万物静默到声情并茂:百度输入法的AI发声计划
今天刚刚亮相的百度输入法AI探索版,就把全语音引入了输入法,让我们看到了一场值得思考的输入法技术进阶感官实验。

长按扫码 阅读全文