解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

原标题：解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

很快《复联3》会上映，大伙喜闻乐见的钢铁侠又要来了。

围绕钢铁侠，有个有意思的现象值得我们开开脑洞：应该每个人都想要战甲里搭载的AI程序“贾维斯”，但所有人都在担心会不会有一天出现想要毁灭世界的AI机器人，奥创。

很多大人物，比如说霍金，都在提醒我们要警惕AI的潜在威胁。但仔细想想，贾维斯和奥创到底有什么区别呢？只是单纯的善恶之分？可善恶又由谁来分辨？

机器应该用智能服务人类，但不能有“过分的智能”，堪称AI领域的“先有鸡还是先有蛋”问题。

或许可以切换到另一种思路去思考这件事：贾维斯之所以让人喜欢，是因为他能读懂和理解钢铁侠的各种需求，令主动提供服务。也许我们在心底期待的，只是机器可以与人进行无成本的沟通与理解，而不是要拥有独立的人格与智慧。

这样的逻辑下，AI服务于人类的基本价值就落到了那个既复杂又简单的名词上：人机交互。

今天我们来探讨这个问题，是因为刚刚清华大学与阿里巴巴宣布达成战略合作，共同成立清华大学- 阿里巴巴自然交互体验联合实验室。这个实验室的目的在于探索“下一代人机交互”的未来。

据悉，双方将以“人”为中心，探索“人-机器-环境”之间的关系，让机器以更自然的方式与人类互动、服务人类。

跟众多企业与大学联合设立的实验室相比，清华大学- 阿里巴巴自然交互体验联合实验室的独特之处在于，它专注于解决一个十分急迫的问题。这个问题涉及广阔的产业与市场可能，甚至关乎于马云所说要让“机器更像机器，人更像人”的AI价值观。

让我们先从自然交互今天面临的一些问题说起。

“五感”合一：人机交互的拐角在何处？

在智能音箱“狂轰滥炸”过之后，或许很多人认为，今天的AI带来的自然交互能力已经相当成熟。但事实上，大伙可能还是有点乐观了。

当然，AI带来的语音识别、语义理解、NLP解决方案，以及花样繁多的传感与机器视觉技术，正在打开人机交互的新脑洞：过去只能通过键盘、鼠标、触屏进行命令输入的机器，正在开始以自然方式与人沟通。

比如我们已经可以语音控制音箱、电视和家居，人脸识别装置也开始普及到生活当中。

但这还远远不够。回想一下，为什么我们有时候打字说不明白的事，就想要电话沟通？有时候电话沟通也不行，必须当面谈谈才可以？

这是因为，人与人之间的交互是相当复杂的。不仅仅是语言在起作用，音色音调、表情、肢体动作，甚至一个人隐含的情绪、气势，都是人们之间进行自然交互的一部分。

但很显然，今天的AI还做不到这点。

举个例子，今天搭载语音交互的空调开始成为新时尚。用语音操纵空调当然相比遥控器方便了很多，但也无非就是换了一种遥控方式而已。消费者获得的实质价值并没有提升。但如果空调不仅能听懂你，还可以看到全家人的位置、穿了多少衣服，还可以感知到屋子里的温度、湿度，甚至每一个用户的体表温度。那么空调就可以自主分析制冷模式，给每个人提供最适合的降温方案。毕竟空调病或者冷气吹太多导致的感冒，发生几率将大大降低。

这就是给机器加上“五感”，进行多模态综合感知的魅力——机器不仅是接受遥控的一方，它可以主动理解人类，通过智能运算得出更好的主动服务方案。

此外，目前AI在处理自然交互的时候，完全依托于计算机科学的知识系统。这就导致其会忽视人类在情绪、心理甚至隐喻层面的表达需求——听起来好像有点太难为人家机器了，但是没办法，精益求精嘛……

再举个例子，人的语言中是带着各种情绪的。虽然说一样的话，但附带的情感可能完全不同。我们回家让音箱放一首歌，可能是因为我们非常开心想要来点助兴的音乐，也可能是有事不顺心，想要安慰一下自己。

假如机器可以听出来人类语言中附带的情绪，可以观察到用户是低沉还是兴奋。那么给出的服务将完全不同，一句来自机器的问候下，可能很多让人不开心的事都烟消云散了。

模态综合与心理解读，就像这两座大山一样横亘在AI自然交互的家门口，他们是问题，同时也是拐点和机会。而此次阿里与清华的合作，核心诉求正是要搬走这两尊山神。

在探索“下一代人机交互”的路上，清华与阿里巴巴将在情感认知计算、实体交互、多通道感知等领域开展研究，不但要让让机器具备听觉、视觉、触觉等综合性的“五感”，还要加强其识别理解人类情感的能力。

假如能通识五感，理解情绪的自然交互方式出现，机器智能将开启的，绝不仅仅是一扇大门。

被忽略的商业价值：“五新”增长元点藏于万物智能

去年年底的时候，我们报道过阿里巴巴十二位科学家对今年科技走势的预测。其中科学家们有一点共识非常值得注意：语音、视觉、传感连接为一体的多模态机器交互技术，将在今年催生万物智能的爆发。

几天之前，阿里在深圳云栖大会上宣布，IoT将成为继电商、金融、物流、云计算之后的第五条主赛道。显然从产业层面印证了科学家们对今年的判断。

这或许说明了，新一代的人机交互并不只是停留在实验室里。而是正在以高调姿态走入产业世界，甚至成为“五新”战略的重要支点。

举个简单的例子，我们就能看到多模态的自然交互在实际生活中多么重要。阿里有一个在地铁站进行语音识别购票的案例。其要解决的核心问题是地铁站中环境嘈杂，要准确识别到购票者语音很不容易。这就要求机器除了进行语音交互，拥有优质的声纹识别、降噪算法之外，还需要进一步确认买票人。阿里的解决方案是在售票机前加入人脸识别装置，通过人脸和唇形识别来判断究竟是谁在买票。

显然，结合了语音交互和机器视觉、人脸识别的机器智能，很简单就解决了一个生活中极重要的问题，而这个问题似乎又无法用其他方式来解决。事实上，新零售、新制造、新金融的世界中，近乎有无数场景等待着多模态交互的机器智能去攻破。

因为结合了语音、视觉、传感，甚至机器嗅觉和机器触觉的IoT设备，可以无限接近真人来为用户提供服务。在零售和金融服务中，高效的多模态交互结合综合计算、智能推荐技术，可以极大提高服务效率与商业精准度。

而制造业中让机器与人类多模态交互，达到机器像人体一样听话，那么工业效率的提升近乎是难以估计的。家庭、驾驶、城市服务等场景中，如是案例更是不胜枚举。

“五新”想要由旧变新，那么万物智能似乎是不可替代的支撑点。在阿里选择与清华共同研发下一代人机交互的时候，一盘新的商业增长棋局似乎也被阿里带到了我们面前。

机器的因果：我们到底需要AI做什么？

更进一步说，自然交互的价值也不仅仅在于商业世界。就像文章开头中描述的那样，人类最初对AI的恐惧与担忧，是萦绕在AI发展过程中永恒的达摩克利斯之剑。

到底如何达成消解恐惧与技术突破的双赢呢？从率先开展的自然交互进击中，我们似乎能读到一丝阿里的技术观：以人为本，驯服技术，让机器始终是机器。

或许我们经常会联想到AI的失控，是因为很多研究都是以技术为中心。那么随着技术的一点点拓展，很多问题也随之而来：机器道德、黑箱难题、数据灾难，等等。而假如我们以“人到底需要AI和机器来做什么”为出发点，或许就会发现整个技术逻辑在变得不同。

马云说“过去三十年我们让人像机器，接下来三十年我们让机器像人。但归根结底要让人更像人，机器更像机器”，其中隐藏的就是阿里技术逻辑的出发点和归途。

交互升级，是人类与机器相处的本源命题，从杠杆、轴承、开关，到键盘、鼠标、触屏，交互在一步步向人类舒服的姿势靠拢。而接下来，语言、手势甚至表情，当然是我们控制机器的更合理方式。

这条路上我们最终得到的，是能更好服务人类的机器，而不是人类无法理解的机器。这是一种我们很少去思考的AI观：但假如我们认真思考一下到底发展AI、探索AI是为了什么，或许答案其实很简单：为了让人类过的更好。

只要永远以人为本，机器的因果问题也就迎刃而解。或许这种技术信仰会让少部分科幻和阴谋论爱好者失望，但对于绝大多数人类来说，这是不需要选择的选择——机器会理解我们，并且我们不需要担心ta。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

下一篇