原标题:人工智能时代来袭,输入法如何决胜下一个10年
近日,讯飞输入法新版本正式上线,在随声译和快捷翻译功能里增加了日译中、韩译中、泰、越、西、法、德、俄与中文互译,合计18种翻译,这也使得讯飞输入法成为中文与外语互译最多的输入法产品。
不得不说,语音输入已经越来越受欢迎。艾媒《2019-2020中国第三方手机输入法市场监测报告》显示,29%的受访者表示2019年使用语音输入的频率明显增加,是增长最快的输入方式。
面对输入方式的变迁,讯飞输入法、百度输入法、搜狗输入法三大输入法,也一直在围绕AI技术不断加码语音输入服务,使其不断实现准确率的突破,比如讯飞输入法的语音识别准确率已经高达98%。
输入法越来越智能的背后,各家的AI技术加持至为关键。而面对每天数亿次甚至数十亿次的使用需求,今天的输入法产品已经嵌满了令人意想不到的五彩黑科技。
输入法的重担
输入法越来越智能的代价,就是要背负越来越重的使命。追溯市面上几款主流输入法产品的发展历史,可以发现这些产品已经不年轻,至少都有十年或以上的产品迭代时间。以此推算,输入法产品与移动互联网的发展同步,可以说是跟着移动互联网一路走来的。
最早的输入法,不论是设备自带输入法,还是第三方输入法,功能普遍比较简单,比如只支持9键和26键键盘输入、手写输入等非智能机时代沿袭的输入方式,主要是为了满足最普遍的用户需求。
但移动社交、移动趋势的明晰,以及智能手机的普及,彻底改变了输入法产品们的发展路径。个人用户在多元场景下不断衍生出更多的输入需求,开始特别注意到输入体验的进步,希望更快和更好,比如能否根据拼音首字母快速预测想打的字。特别是在移动社交场景下,个人用户使用输入法的频率越来越高,用户对输入法体验的感知非常明显,输入法好不好用,效率高不高,用户其实心知肚明。
这让输入法的担子越来越重,原本定位于轻服务工具的输入法,不得不开始思考如何满足不同用户不同场景下的个性化需求。于是,为巨大体量的用户大规模同步提供优质的输入服务,成为输入法产品们发展的核心目标。
愈发全能的输入法
场景和需求之变,不断倒逼着输入法产品的进化,结果就是,输入法变得越来越全能,越来越精致,越来越个性。以目前的三大输入法产品为例,十年前的它们与十年后的它们,已经“判若两人”。
一方面,不断的功能增加使得产品能够适应许多输入场景。除了传统的手写和键盘输入外,三大输入法还加入了OCR扫描、智能预测/纠错等功能。其中,OCR扫描指的是用户可以通过扫描将图片或手写稿转换成文字,而智能预测功能则可以提前根据输入拼音预测用户想打的字,智能纠错则可以根据词库、语境快速纠正用户的错误。
各种功能的丰富,使得输入法可以服务于用户的全输入过程,在输入前、中、后每个环节提供对应的服务。
另一方面,产品能力的极限突破为用户带来了全面的体验。以从语音起家的讯飞输入法为例,目前讯飞输入法已经做到了一分钟400字的输入速度,以及语音识别准确率达98%的水平,也就是说整段输入的出错率非常小,为用户带来的是极速和流畅的综合输入体验。
可以说,这些功能所达到的极限颠覆了以往低效低质的输入体验,从感官上弥补了用户对输入法的体验缺乏。
黑科技成就输入法
无论是功能上的全能,还是体验上的全能,输入法产品能够实现质变,甚至能够适应一些极限和极端的输入场景,除了产品本身的创新外,不断的技术迭代是最核心的原因。用户之所以能够只花一半的时间完成整个输入过程,都依赖于输入法们背后的黑科技。
讯飞输入法可以说是“科技成就输入法”的最佳代言人。一方面,其背靠有20多年智能语音技术沉淀的科大讯飞,已有20万小时训练数据积累;另一方面,科大讯飞有太多的国际赛事顶尖荣誉,比如在2018年由国际计算语言学协会(ACL)下属组织主办的第十二届国际语义评测比赛(SemEval2018)中,科大讯飞斩获了基于常识的机器阅读理解全球第一;2018年的国际权威英文语音识别大赛“CHiME-6”中,科大讯飞包揽了两项第一名;2019年在ICDAR2019举办的场景文本视觉问答挑战赛ST-VQA中,科大讯飞包揽了三项冠军;2020年初在德国The 20BN-Jester Dataset手势识别评测中,科大讯飞以97.26%的准确率斩获冠军,且刷新了世界纪录……讯飞输入法背后的黑科技可以从四方面来看。
一、语音输入
语音输入讲究快速和准确,讯飞输入法之所以能达到一分钟400字、识别准确率98%的水平,主要在于其自研的“记忆增强的多通道全端到端语音识别框架”,这项技术简单来说就是能够完全将前端语音处理过程深度学习化,并使用深度卷积神经网络和后端识别模型进行混合训练,从而大大提高了语音识别的效率。
至于能够使用23种方言进行精准语音输入,一方面要靠通过多方言共享方式训练的Multi-lingual多语言建模技术,另一方面要靠GlobalPhone全球音素集,这项技术从声学层面的相似性来统一各方言的音素定义,使方言“语图谱”模型进一步精进,从而使得方言识别效果有效提升。多语种互译功能则对技术提出了更大的挑战性,以中英互译为例,讯飞输入法基于对抗样本训练方法提出了融合副语言特征的“高鲁棒性语音翻译技术”,并在模型中结合特定技术,有效提高了最终翻译结果。
二、拼音输入
在拼音输入上,讯飞输入法创新性引入了Encoder-Decoder框架,构建了新一代拼音识别引擎,极大简化了传统拼音识别模型,同时在Attention机制和长短期记忆网络的门控机制,以及Transformer等模块的共同作用下,长句输入识别效果有效提升,能够提前预测用户想输入的内容,还能有效实现智能纠错。
此外,这一模型由于采用的是序列建模,建模不再依赖词典,更易实现中英文混合建模,因而让讯飞输入法在中英混输上实现了非常出色混输表现。值得注意的是,不论是智能预测,还是智能纠错,背后都有可实时更新的百万词库。
三、手写输入
同样是手写,体验却完全不一样,这是因为讯飞输入法的手写识别可支持两万多类中文字符、52类英文字符、10类阿拉伯数字以及100多种特殊符号,这种超级识别能力的背后,是讯飞输入法的“HWR手写识别技术”,这项技术采用的是CNN卷积神经网络技术,可支持实时手写轨迹,边写边出字,而且单个字符识别仅需15ms,响应迅速无延迟。
四、扫描输入
扫描输入的技术支撑是计算机视觉,面对复杂的手写文字、中英混合文字,“OCR文字检测技术”可检测任意方向和形状的文字,“OCR文字识别技术”则可以有效缓解因环境问题造成的识别效果低下问题。
综上,基于AI和大数据的组合技术,如今的输入法不再死板坚硬,即使面对输入场景的复杂需求,也能够在不同语种、不同语境、不同语调下满足不同用户的需求。过去的输入法只能辅助,而现在,科技加持下的输入法,更像是一个“一站式”的输入管家。
输入法的智能普惠
黑科技成就了输入法,也成就了输入法的地位。根据相关报告提供的数据,以三大输入法为代表的第三方输入法,已经覆盖了超过90%的中国网民。
要是放大到整个输入法行业,可以说人人都是输入法的受益者,移动设备也好,个人电脑也好,日常交流必然离不开输入法的帮助。可以说,输入法已经成为一个互联网沟通的基础设施。而且值得庆幸的是,讯飞输入法等头部产品在技术上的进化,让这个基础设施不断产生质变,越来越智能。
应该说,像讯飞输入法这样始终痴迷于“科技驱动”的输入法产品,是输入法作为工具产品在价值上得到跃进式提升的关键,因为它们用技术无限拔高了输入法产品的价值上限。换言之,讯飞输入法们的“科技大法”一定程度上改善了整个互联网世界的沟通协作效率。
技术无上限,输入法产品也无上限。对9.04亿中国互联网网民而言,黑科技持续加持下的输入法工具,会继续为每个用户提供独一无二的使用体验,真正实现全方位的智能普惠。
文/刘旷公众号,ID:liukuang110
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 消息称塔塔集团将收购和硕印度iPhone代工厂60%股份 并接管日常运营
- 苹果揭秘自研芯片成功之道:领先技术与深度整合是关键
- 英伟达新一代Blackwell GPU面临过热挑战,交付延期引发市场关注
- 马斯克能否成为 AI 部部长?硅谷与白宫的联系日益紧密
- 余承东:Mate70将在26号发布,意外泄露引发关注
- 无人机“黑科技”亮相航展:全球首台低空重力测量系统引关注
- 赛力斯发布声明:未与任何伙伴联合开展人形机器人合作
- 赛力斯触及涨停,汽车整车股盘初强势拉升
- 特斯拉首次聘请品牌大使:韩国奥运射击选手金艺智
- 华为研发中心入驻上海青浦致小镇房租大涨,带动周边租房市场热潮
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。