语音输入请求量一年增5倍 AI如何铸就百度输入法的“增长神话”

众所周知，在每个人每天高频使用的手机应用清单中，有一个低调而重要的存在：手机输入法。赛诺不久前发布的《2018上半年中国手机输入法分析报告》显示：2018年手机输入法市场规模将突破9．8亿，环比增长22．5％，其中活跃用户占比超过54％，用户规模和数量都保持持续增长。

这并不难理解，输入法是目前人机交互最重要的入口之一。而经过二十余年发展，手机输入法在“文字键入”这条单一路径上，已几乎抵达技术演化的尽头——颇为欣喜的是，如今，在智能语音等AI技术的加持下，手机输入法这个最接地气的入口，正在摆脱文字键入的单一束缚，开拓新的发展路径，甚至在一定程度上担当着新技术“桥头堡”的使命。

譬如百度8月1日公布的2018年第二季度未经审计的财务报告显示，百度营收260亿元人民币（约合39．3亿美元），同比增长32％，净利润64亿元（约合9．67亿美元），同比增长45％。其中AI对百度业务的驱动力显著，除了DuerOS和Apollo，百度AI也为百度APP、信息流、手机输入法等移动端业务带来了高效增长，李彦宏表示，百度输入法语音输入请求量短短一年时间内成长到日均3．35亿次。相比于去年3月百度AI技术平台体系（AIG）成立时，日均语音请求量增长5倍。在我看来，这种迅猛上扬，一方面受益于百度语音识别自身体验的日趋完善；另一方面则受益于语音输入已渡过市场教育阶段，正在处于大规模爆发的风口。

而通过百度输入法的不断迭代可以发现，作为一款具备入口意义的应用，手机输入法早已不再是一个简单的“插件”，而是AI时代一款需要不断打磨用户体验的服务型产品。

效率至上

如你所知，在最新一版百度输入法中，除了支持拼音、笔画、五笔、手写和智能英文等基础功能，最关键的技术跃迁，是智能语音输入和AR表情两大全新功能的上线，这极大丰富了用户的输入体验。

先说语音。

从诺基亚到iPhone，从功能机到智能机，整个移动时代，就是一部人机交互难度不断下降，交互方式不断丰富的历史。而诚如“互联网女皇”米克尔所言：在最近数十年，人机交互每隔十年就会发生一次重大创新，语音则是当下最高效的输入方式。

在如今所有语音场景之中，大多数人最先接触到的，就是手机输入法的语音输入功能。相较于手写和拼音等传统方式，语音输入效率更高，交互方式更自然，无论是主动的技术尝鲜者，还是快节奏生活下的被动选择，这种巨大的便捷性，都让输入法从文字向语音的大规模迁徙（至少在不方便打字的情景下），成为不可逆的演化趋势。

数据也证明这一点：《2018上半年中国手机输入法分析报告》就显示，在输入方式选择上，语音输入占比已提升至41％，用户习惯日趋养成；此外，更像是某种交叉印证，最近搜狗发布的第二季度财报显示，其日均语音请求量也超3亿次（颇值得玩味的是，作为一家“非专门”做输入法的公司，百度输入法官方公布的日均语音请求量是超过3．35亿次，和搜狗不相上下）。

总之，一切都指向一点：语音正在成为更多人输入方式的必选项，且他们一旦开始用上语音，产生的黏性往往非常高，属于典型的“一旦用上就离不开”系列。

不过，语音输入的顺畅，必须拜深厚的技术功底所赐，倘若准确率不堪重用，反而会造成效率下降——所以说，“准”是语音输入最基本的素养。

令人欣喜的是，依托“百度大脑”的进化，作为百度AI技术率先落地的产品之一，百度输入法凝聚了百度深耕多年的语音、图像、NLP和知识图谱等AI能力——尤其是AI语音技术，业内皆知，目前识别率高达97％的百度语音曾入选MIT“全球十大突破技术”，并且在手机百度和百度地图等产品中早已广泛应用，而随着DuerOS朋友圈的持续扩张，也会不断“反哺”百度的语音技术，这种得天独厚的技术和生态优势，是其他公司不具备的，也势必会夯实百度输入法语音请求量的领先地位。

当然，在提高识别准确率方面，百度输入法并未停止进化脚步，最近一次重大突破，就是其搭载了百度第二代深度尖峰技术（Deep Peak2）。“DeepPeak2模型”的全称是基于LSTM和CTC的上下文无关音素组合建模，它最大的技术蜕变，就是将高频出现的音素联合在一起，形成一个音素组合体，然后将这个音素组合体视作一个基本建模单元。

这意味着，与在过往数十年业界常用的上下文相关建模方式相比，DeepPeak2能最大程度发挥神经网络模型的参数优势，大幅提升中英文，多种口音和多种风格（譬如朗读，聊天，轻声）混合输入的稳定性和准确度，目前其相对正确率较行业领先水平提升20％。另外，难能可贵的一点是，不同于一些输入法遇上“中英混输”后瞬间变成“车祸现场”，DeepPeak2同时支持中英文混合建模，让百度输入法具备了非常强大的中英文混合识别能力。

事实上，此次百度输入法的技术突破，并不令人意外。百度是中国最早通过深度学习技术在语音识别领域取得突破的公司之一，早在2012年就率先上线了基于DNN的语音识别模型。过去6年，百度语音一直没有停止进化，几乎每年都会上线新的语音识别技术——如今DeepPeak2的上线，亦是语音科技史上的一次巨大跃迁，要知道，之前国际上也曾有过类似建模方式，但却没法避免建模时出现的过拟合问题，而百度通过声学模型学习和语言信息学习相分离的特殊训练方法，将建模单元数目减少了10倍，从本质上解决过渡拟合的问题，极大提升了识别准确率，殊为不易。

而除了准确率上的不断精益，百度输入法在语音输入功能上，也不断产生惊喜。譬如，百度输入法具备轻声识别能力，无论会场还是课堂，都能降低语音输入的尴尬；它还具备语音速记功能，在这一功能的“多人模式”场景下，声纹识别技术可以自动区分发言人，大幅降低工作者后期处理的成本；除此之外，百度输入法支持中文普通话，中文粤语，英语和日语等多语种识别；且能让用户通过语音完成语音拨号和语音搜索等功能，后者尤为重要，企业基因所致，百度输入法拥有很强的搜索元素，你知道，聊天时突然出现搜索需求，是很常见的交叉应用场景，通过百度输入法自带的搜索功能，可免去切换应用带来的时间折损。

总之不难发现，在效率维度，百度正不断推陈出新，让输入法成为人们日常最值得仰仗的工具，通过不断夯实用户的语音输入习惯，延续着移动时代人机交互难度不断下降，交互方式不断丰富的历史脉络。

打磨用户体验

如果说“效率至上”是一款输入法的基本素养，那么“可玩性”——或者说愉悦感，则能进一步丰富用户体验的维度。而考虑到社交是手机输入法应用最多的场景（数据显示，社交类APP中输入法占比高达74％），百度输入法也一直在提升用户在社交场景下的愉悦感。

举个例子，百度输入法中有70％是90后，其中60％的人经常玩“斗图”。针对于此，百度手机输入法开发了AR表情功能，基于百度多模态人脸识别系统（支持104点基础模型加眼睛、嘴部、眉毛单例模型；全脸识别278点），能准确识别面部轮廓和表情，用户可制作出只属于自己的表情、感觉和动作，并直接通过输入法搜索，语音输入和键盘输入时展示出来。且受益于AR表情功能识别速度快，表情文件小等特点，用户可在聊天中轻松使用，刻画出自己在虚拟世界中的独特形象。

百度AR趣味表情

AR表情功能的上线也意味着，百度输入法是首家同时支持2D、3D表情以及通过人脸控制虚拟形象制作表情。而我相信，在可预见的未来，AI和AR等新技术对输入法产品的作用会越来越大，将会有更多新技术被添置到输入法中。在百度的带领下，作为新技术“桥头堡”的输入法，有可能进入一个更灵动的全感官输入时代。

未来由现在筑造。不难发现，依托百度强大的AI基础，无论是在“准”这个基本面上的不断深耕，输入功能的不断完善，还是可玩性和愉悦感的不断提升，都是百度在输入领域全方位了解用户需求，不断打磨用户体验的体现。这种对用户体验的打磨，也让昔日功能单一的手机输入法，具备了“语音助手”，“效率工具”和“聊天伴侣”等多重身份，并在不同用户手上，得到不同程度的释放。

正如百度高级副总裁、AI技术平台体系（AIG）总负责人王海峰所言：“AI的发展最终还是要回到‘服务用户需求’的本质，这是我们每一位人工智能从业者都需要铭记在心的。利用好人工智能来服务好我们的用户和客户，以及更好地打磨AI能力来推动各行各业的效率提升，是每一位人工智能领域从业者的期望。”

作为你我最重要的工具伴侣，手机输入法本身正在变得“复杂”，却让生活和工作变得更为简单。在我看来，这才是技术的本分。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）