苹果AI研究观念是如何改变的？

图片出处:Apple

作为市值超过两万亿美元、现金流领跑业界的科技巨头,苹果拥有十分雄厚的学术研究后盾。不过,在人工智能和机器学习(AI & ML)学术领域,我们更多听到的是来自谷歌、Facebook、微软、亚马逊团队的研究发布的成果和频繁在各大顶会拿奖的消息,或者在自家的发布会上给 AI技术保绝对的留C位。而苹果似乎给人一种掉队的感觉。

也正因如此,业内有一种说法认为,苹果在人工智能领域属于“后来者”。

苹果正在修正这种错觉。

苹果AI观念的改变

时至今日,AI 已经几乎成为每家科技公司吸引消费者的标配说辞,仿佛推出新产品时如果不提到机器学习或神经网络,就像在兜售手摇计算器。尽管这种做法可能导致对消费者做出过度承诺。苹果在这一点上似乎并无什么事业心:既然可以用产品本身的便利来吸引用户,为什么要给他们列数学公式和数据图表?

在2017年的一次媒体采访中,苹果 CEO 库克回应了苹果很少谈及AI以及外界不看好苹果做AI的问题。他表示:“苹果的 AI 不被看好,是因为我们不喜欢谈论并未实现的功能”。

在那次采访中,他列出了苹果公司使用机器学习技术的一个清单:对照片进行图像识别;Apple Music 能够从我们的音乐记录中学习我们的音乐偏好,以此向我们推荐相应的歌曲;甚至, iPhone 的电源管理系统也使用机器学习来研究我们的使用情况并做出相应的优化,以延长 iPhone 电池的待机时间。

其实,想想苹果在计算硬件上下的工夫——比如近期宣布由外部采购走向完全自有的A系列芯片,也可推测它要用多少AI 技术去“消耗”掉这些算力:苹果多次公布的 iOS、iPadOS 和 macOS 更新中,有许多以机器学习为核心的功能,例如 iPhone、iPad 和手表的实时翻译、健康数据收集、iPad 防误触等功能。有些功能甚至没有标识用了 AI技术,但我们可以很肯定苹果用了与之相关的技术,例如iPad的手写识别功能,它在图像识别任务方面非常出色,特别是颇有难度的中英文字符识别。

AI成果与自家产品深度绑定,但又比较“藏着掖着”,无论是产品发布会还是开发者大会,苹果都倾向于突出产品的创新,其次才是背后的AI技术。这是2018年之前的苹果典型做派。

相比之下,谷歌和 Facebook 等巨头们则是更为开放和高调的主流派,因此也吸引了更多的关注度。用库克的话来说,他们喜欢谈论还处在“未来”当中的东西。

比较显著的改变出现在2018年底前后,这家公司开始更积极介入到学术圈,包括参加和赞助各种大会,发表预印本论文,公开的研究成果也逐渐不再局限于自家产品。

发生这样变化的主要原因之一在于,那个时间段,苹果招募了多名AI大牛人物,例如 John Giannandrea 和 Ian Goodfellow(GANs之父,苹果的第一篇机器学习论文便是关于GANs,如下图)。

苹果的第一篇机器学习论文 | Apple

两人均来自谷歌AI 团队,前者是谷歌的人工智能和搜索主管,加入苹果后负责公司的人工智能战略,后者是谷歌大脑的明星研究科学家,加入苹果之后则负责机器学习小组。两人为苹果带去了积极建设AI科研社区的精神。

“(2018年底)刚加入苹果时,我去软件部门寻找做手写技术的机器学习团队,竟然没找到,”Giannandrea在一次采访中表示。

“我当时就知道,苹果在机器学习领域有太多应该做的事情,但都没有行动。在过去的2-3年里,这个现象发生了巨大改变,未来还会继续。”

目前,苹果正在人工智能领域发力,来提升其软件和硬件能力,应用的最主要产品是 FaceID 、 Siri 和自动驾驶技术。

与上述故事线平行进行的另一个线索,是苹果于2017年年中悄悄上线的官方AI博客——Apple Machine Learning Journal。

这个开设时间晚于业界大部分巨头的AI博客,自然不能和 DeepMind AI Blog 这样的老牌博客相提并论,但也是苹果为提升自身公众关注度做的努力。

真正有趣的事情还是这个博客的内容。我们能看到苹果正在尝试用AI解决哪些问题,或许下一个十年最具颠覆性的应用就藏身其中。

Apple Machine Learning Journal

苹果AI团队都在做什么研究?

Apple Machine Learning Journal的“开门之作”,是重发了一遍苹果2016年12月发布的一篇论文,内容与苹果AI研究的一个核心弱点有关:缺少数据来源。

苹果长期标榜的商业模式是“不窥探用户”、靠卖硬件盈利(近几年软硬兼顾),因而在获取大量数据的渠道上受到了限制。这项名为“Improving the Realism of Synthetic Images”的研究,便描述了一种创建可用于训练面部识别系统的图像合成方法。虽不是开创性的研究,但也象征着苹果AI研究如何响应眼前需求。

在那之后,这个博客的内容也越来越多:从图像到语音到自然语言处理,从深度强化学习到隐私计算到智能代理,Siri团队、手写识别团队、隐私团队轮番登场,覆盖的顶会也已经囊括CVPR、ACL、Interspeech、KDD。

博客的论文数量也由2017年的9篇,发展至2020年年初至今的32篇。显然,苹果的AI研究输出越来越密集。

那么,苹果的AI团队都在关心哪些AI方向?

以2020年年初至今的32篇文章为样本,18篇与语音和自然语言处理有关,占比最大。其次是机器学习方法和算法相关论文,共计10篇。余下的涉猎领域包括计算机视觉、健康、人机交互、平台和框架,以及知识库和搜索,各有1-3篇不等。有的论文还会同时涉猎多个领域。

这些论文都是预印本,以公布科研成果为主,其中不乏“造轮子”的理论研究和机器学习新框架。另一方面,一些实用性较强的技术很可能已经应用到了苹果产品中,比如 Siri 和 iOS 中。

最新的一篇是关于糖尿病的研究,被主打机器学习用于医疗健康的会议MLHC(machine learning for health care) 所接收。根据介绍,团队开发了一种预测1型糖尿病患者血糖的胰岛素动力学模型,通过引入由机器学习序列模型驱动的动力学来扩充现有的生物医学模型。

今年的5篇有趣研究

在所有 2020 年苹果技术团队发表的论文中,我们挑选了 5 篇最具有代表性和实用性的论文。

1、实时识别手写汉字

在针对手写汉字的研究中,苹果 AI 团队利用CNN神经网络模型,打造了一个汉字识别系统。它可以识别多达 3 万个手写体汉字,在多个移动设备上实时运行。

该任务的难点在于汉字书写的独特性。每个人的书写习惯不同,导致每个字都有很多样式,或许还与标准体存在较大差距。同时,AI 还要面对庞大的汉字词库,甚至还有简繁之分。这对系统的运算速度提出了很高的要求。

以书写风格为例。在现实生活中,人们习惯用简化和连笔来提高书写速度。但 AI 想要准确识别“王和五”,“的和以”之类的十分相似的连笔写法并不容易。更何况,它还要在不同语种之间切换,分辨用户写的是连笔“二”还是“Z”或“2”。

为了兼顾速度和准确度,研究团队格外注意了训练数据的收集条件,书写风格的代表性和训练技巧。比如他们特意收集了“花”字的多种写法,以训练模型学会区分不同的风格:避免把草字头错误地认成十十。

图 | 研究团队收集的“花”字写法

这些字出自不同地区,年龄,性别和教育背景的中国用户。在碰到生僻字时,有的人还会写错笔画顺序,或者是写出不协调的字体结构。这些意外情况无疑增加了模型的学习难度,但也更符合实际应用情景。

研究团队在MobileNetV2 CNN的基础上进行了优化和改良。结果显示,无论是应对3755个常用字,还是3万汉字词库,模型的准确率始终稳定在96．6%以上,而体积最大只有19MB,在移动端运行完全不成问题。

虽然研究人员没有提到该技术是否已经实装,但今年6月的WWDC上,苹果展示了iPadOS 14的实时手写识别功能,汉字识别出现在了现场演示中。或许其背后就用到了这篇论文中的技术。

2、Hey Siri关键词触发检测

如前文所说,语音识别和自然语言处理是苹果发表论文最多的领域,而Siri 必然是从中受益的产品之一。仅今年一年,就有至少3篇论文讨论的技术和模型可以应用于Siri上。

最典型的应用场景是降低唤醒词 Hey Siri(你好,Siri)的误识别率。

在一篇论文中,研究团队为服务器端的大词汇量连续语音识别(LVCSR)构建了一个 RNN 神经网络,用于后处理设备端发回的语音数据。目的是对其进行二次分析,确认用户是否真的说出了激活词。

理论上,我们可以直接改进 LVCSR,让它识别语音数据的开头是否存在激活词。但在实际操作中,LVCSR 倾向于判定开头存在激活词,效果不佳。

为此,研究团队创造了一个 1500 个参数的双向 LatticeRNN 神经网络模型,用于从统计角度推理关键词触发的概率,还要保证不能增加太多延迟。

该模型可以很好地补强 LVCSR 不足的地方。由于信息的传输有特定的方向,因此在明确给出激活词的时候,Hey 和 Siri 与执行任务的关系更加紧密(需要用到后验概率),而在误判的情况下,语音数据中各个词汇的关系很松散。

举个例子,当你让Siri查询天气时,Hey Siri 和后面的查询天气存在清晰的联系。但如果是一段电视广告,或者是发音相似的词汇激活了 Siri,那么词汇的关系大概率是随机的,找不到太大的关联。训练后的神经网络就可以利用这点来判断。

结果显示,引入双向LatticeRNN之后,误触发几率比只用LVCSR大幅下降60%。

类似的技术也可以应用在智能音箱上。在另一篇论文中,另一队研究人员就采用多任务学习策略,改进了现有的 biLSTM 模型,以提升智能音箱在不同环境下捕捉激活关键词的准确率。也许日后会在苹果升级版HomePod 上见到。

3、预测糖尿病患者血糖变化

今年8月6日,苹果AI发表了第一篇健康领域的论文,讨论如何利用机器学习模型预测1型糖尿病患者的血糖水平。这有助于制定更有效的血糖控制策略和闭环治疗方案。

由于身体无法产生足够的胰岛素,糖尿病患者必须终身依赖胰岛素治疗。但研究表明,胰岛素的注射量最好与血糖变化水平吻合,才能最大程度上发挥作用,并且避免胰岛素过多导致的低血糖等问题。

为了找到“恰到好处”的剂量,研究人员在现有的生物医学模型基础上,引入了机器学习技术,构建了一套血糖-胰岛素动态模型,可以预测1型糖尿病患者的血糖变化水平,时长最多可以达到6个小时。

他们采用的深度状态空间模型(Deep State-Space Model)可以在胰岛素敏感性,时间和血糖数据等参数之间建立动态联系。这既保证了算法的灵活性,也保证了临床上的可解释性。

在与 LSTM 和 ARMA 等基准模型对比时,该模型的预测表现超出它们30%以上,而且与胰岛素和碳水化合物形成的生理效应一致。

论文中用到的血糖变化数据收集自苹果健康套件 HealthKit ,但不清楚是不是由苹果手表完成的。最近已有多家媒体报道,苹果正在研发非侵入式血糖测量技术,还有消息人士披露,CEO 库克还亲自佩戴了原型产品。

HealthKit是苹果进军健康产业的重要基石,拓展它的能力范围,就相当于拓展未来的业务范畴。如果未来手表可以预测血糖水平,一定会成为很多糖尿病患者的福音。

4、利用GAN改进虚拟键盘滑行输入

虚拟键盘滑行输入,是苹果在 iOS13 新加入的功能,但其实很多第三方输入法早就开发了相同的功能。熟练掌握后,它可以显著提高输入速度。不过预测滑行输入的词汇更为复杂,因为滑行带有更多的不确定性。

苹果 AI 团队今年4月发表了一篇论文,讨论了使用基于 Bi-LSTM 的对抗生成网络 GAN 改进滑行输入预测。

这是一种十分新颖的解决思路。传统方法需要大量训练数据,而真实的滑行输入轨迹很难收集和注释。利用 GAN,可以模拟出更加真实的轨迹,帮助改进滑行输入法的预测模型。

研究团队首先收集了 665 名用户的真实滑动输入轨迹。他们的年龄在18-70岁之间,大约20%是左撇子。每人都被要求在6个不同布局和尺寸的屏幕上输入,最终共收集5．5万个英文单词,平均每人画出了3300条轨迹。

这些数据被用来训练GAN,同时还涉及到风格转移技术。结果显示,GAN生成的滑动轨迹的确更像真实用户的操作。

单词“Anybody”的滑行轨迹:真实用户轨迹(上),普通合成轨迹(左下),GAN生成轨迹(右下)

例如,在连接两个距离较远的字母时,人类的轨迹会出现自然的弧度,而不是一条直线。原因可能是屏幕尺寸较小,人们有时会转动手腕带动手指移动。此外,在单词结尾处,人类偶尔受惯性影响会稍微滑过一些,不会100%停留在正确的字母上。

这些小细节都被GAN捕捉到了。最终测试显示,将GAN生成的轨迹用于训练预测模型后,该模型的准确率最高提升了4．6%。

5、预测词语流行度,提高语音助手准确率

对于Siri之类的虚拟语音助手来说,当用户只给出一个名词时,往往是最困难的时刻。缺少背景资料和动词,不仅会让它不知所措,还会降低识别准确率,混淆发音相似的词。

可是在日常生活中,很多人偏偏喜欢只说一个词或者人名。通常是想查询有关该实体的基本信息,但也带着一丝考验。

苹果AI团队专门研究了这种情况。在今年5月发表的论文中,他们探索了如何提升虚拟语音助手对此类问题的应对能力。

具体来说,论文讨论了三大课题:

1．能否从虚拟助手的查询记录中预测某个词语或实体的流行度,并用预测结果改善语音识别准确率?

2．添加更多的历史数据能否改善实体流行度的预测准确度?

3．不同信号(模型特征)在相互独立的状态下能否有好的表现?

针对上述课题,研究团队首先开发了一套框架,用于在自动语音识别系统(ASR)中找出经常出现的词语主体。这实际上是对历史语音数据的的检索,因此用到了机器学习和信息检索技术。

图 | 引入机器学习模型之后,错误率有所降低

他们使用了两套机器学习模型:AdaBoost和前馈神经网络。模型本身并不复杂,但足以胜任该任务的分类器。

至于训练数据,他们收集了超过30万个不同实体名词的语音数据。论文提到它们来自“某款美国流行的语音助手”,鉴于这是苹果自家的研究团队,十有八九是来自Siri的数据。

结果显示,无论是AdaBoost和前馈神经网络,都能有效降低单词识别错误率。

历史数据越多,准确率越高,但最明显的是历史数据时长从1周增加到2周,准确率提升了20%,随后每增加1周数据,带来的提升只有1%左右。此外,表现最好的模型是将所有特征集合起来,而非独立状态。

当然,除了5篇论文,苹果还有很多论文值得一读,例如用语音数据检测用户情绪元素,创造新的问题查询分析框架Tempura,提升智能音箱的多语种处理能力等等。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）