爱数智慧5周年 | 专访田彪：多模态应用做到“眼耳并用” 数据是关键

我们是最早把多模态技术融合起来，最终做成一个应用产品的团队。

要降低硬件成本，让不同用户能够使用到，从而推动技术普惠化。

多模态技术只是设备的一部分，它还要和其他技术进行融合。

如何结合行业产品的具体需求去把算法的作用发挥出来，这是落地中的一个痛点。

未来趋势上，多模态技术将从模态联合走向模态融合，进而端到端多模态。

在CNCC大会前的专访中，阿里巴巴达摩语音实验室田彪接受采访时表达的精彩观点。

第十八届中国计算机大会(CNCC 2021)将于10月28日在深圳国际会展中心举行，CNCC由中国计算机学会(CCF)主办，国家超级计算深圳中心承办(深圳云计算中心)，香港中文大学(深圳)协办，是中国计算机领域最宏大的年度盛会。

值爱数智慧五周年之际，爱数智慧借助此次CNCC大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。来自阿里巴巴达摩院语音实验室的田彪现场做《多模态语音交互的技术实践及发展趋势》的主题报告。

在论坛正式开展前，论坛主办方爱数智慧采访了田彪，以下为采访整理，希望给大家带来启发。

爱数智慧5周年

田彪：阿里巴巴达摩院语音实验室

以下为采访正文

工业应用上多模态起到“取长补短”作用

爱数智慧：现在多模态语音交互技术成为AI领域重要发展方向，您在语音信号方面有着丰富的研发经验，您认为多模态语音交互技术现在发展到哪个阶段了?为什么?

田彪：多模态语音交互并不是一个新鲜的概念，从学术界看早在七八十年代就有各种模态融合的技术尝试，比如借助视觉来提升语音交互，那时尚处在研究状态，所以不具备实用性。

从2013年开始，深度学习产生，多模态技术发生了质的提升。深度学习在视觉、语音等领域得到成功应用后，各个单独模态本身的性能都实现了质的飞跃，集大家之所长的多模态语音交互领域也逐渐进入了结合行业需求的实际应用阶段。

爱数智慧：您刚才说多模态已经研究了几十年，您觉得应用在工业界上，多模态有着怎样的趋势?

田彪：我认为多模态在具体应用中能够起到“取长补短”的作用。在一些具体的应用场景中，单模态在识别率上挑战性很大。比如我们研发的地铁语音售票机就需要其他模态相互辅助。通常情况下，远场语音交互需要唤醒词来唤醒，但是地铁环境嘈杂，远场唤醒效果会很差。如果单纯使用语音技术解决识别率，难度会非常高。我们就利用视觉技术辅助，让产品真正落地。我认为多模态的发展趋势在于，它能够解决在一些场景下，单模态难以解决的问题。

多模态应用落地获国际权威媒体盛赞

爱数智慧：根据我们的了解，您在智能车机、智能交通、智慧法院、智能办公、智能家居和智能语音芯片等语音交互技术方面有着丰富的创新算法实践，并且被集成到阿里巴巴经济体内外多项重要语音AI产品中，您能否介绍一下，您和您的团队在具体的多模态语音落地场景上，做了哪些具体的创新和尝试?

田彪：我所在的团队是「阿里巴巴达摩院语音实验室」，在轨道交通、企业办公、新零售和智能客服等领域都推出多模态相关的产品。其中，在2018年联合上海地铁与支付宝推出了可部署在嘈杂地铁站的多模态语音售票机，这在全球尚属首次，技术成果也获得了国际权威媒体《MIT Technology Review》的盛赞。

以该产品为例，我们通过引入视觉智能技术，结合人脸检测、麦克风阵列和声源定位等多模态技术，创新性的解决了传统远场语音交互中不可避免的语音唤醒难题，既保障了高噪声环境下接入语音交互的可靠性，也解决了用户学习唤醒词的高门槛问题，为AI产品真正走进千家万户的日常使用打好了技术基础。

这也意味着，我们是最早把多模态技术融合起来，最终做成一个应用产品的团队。目前在全国几十个城市地铁里投入使用的类似产品，用的都是我们的多模态技术。

爱数智慧：刚才您说的麦克风阵列、声源定位等技术，将会在CNCC论坛现场做详细的介绍吧?

田彪：对的，我会在CNCC论坛现场详细展开来讲。我们知道，传统的模态一般说的是云识别或者视觉，但是声学方面比如麦克风阵列等，在整个业界是比较匮乏的。大家都知道云识别、AI，如果提到声学、麦克风阵列、声源定位等很多人都比较陌生，因为它属于声学方面的技术，是融合在具体的产品里面的。这些技术我会在我的演讲里详细地讲一下，因为这些技术也是我们的特色。

“眼耳并用”的无人前台

爱数智慧：好的，我们期待您现场的分享。您曾参与过“钉钉智能无人前台”的产品研发工作，这一产品用到哪些多模态技术，这一技术为产品带来哪些良好的用户体验?

田彪：这个产品深度运用了刚才讲到的达摩院多项AI技术，比如远场拾音、声源定位、人脸检测与识别、语音识别和合成、自然语言理解和音视频通信等，实现“多模态交互”技术的产品化，突破了智能设备有“眼”只能看，有“耳”只能听，多感官各自独立无协同交互的技术难题。

M2S是钉钉面向企业用户推出的智能无人前台产品，基于多模态交互，设备具备能听、能说、会认人，甚至会思考的能力。这个设备非常小巧，但能够跟钉钉的整个生态和组织能力结合起来，它能够节省前台同事一半精力，实际作用还是蛮明显的。

M2S通过检测人走近的行为，自动判断身份并主动发起交互。如果是员工，自动进行人脸识别智能考勤。如果是访客，M2S将会进行智能访客接待，比如有人来访，来访人可以直接走到机器面前，说明要找某某人，机器会自动发起音视频会议，双方进行音视频通话沟通，非常便捷高效。

降低硬件成本推动技术普惠化

爱数智慧：目前多模态语音交互技术在落地应用时有哪些技术难点?

田彪：主要有两个方面，一方面用于多模态技术的设备成本比较高，当然也和算法复杂有关。比如算法对摄像头、麦克风阵列个数等输入设备都会有较高的规格要求。需要算法的提升来降低对硬件的要求，甚至复用一些整机上已有的输入设备。所以，首先要降低硬件成本，推动技术在各种产品各种场景下落地，让不同用户能够使用到，从而推动技术普惠化。

另外，算法本身也比较复杂，对芯片算力有较高要求，需要探索如何降低算法复杂度的同时持续提升性能，从而降低芯片的算法规格，推动整体硬件成本降低。

另一方面是要结合行业需求，在技术上持续提升。针对一个应用场景，多模态技术只是设备的一部分，它还要和其他技术进行融合。所以，产品开发工作并不单单在多模态语音交互技术，还涉及到怎么对接、怎么集中到一起、怎么做测试等等。这些都是产品落地过程中要做的工作。

爱数智慧：是不是不同行业，技术之间融合的难点都不一样?

田彪：对，不同行业不同场景的需求不同，类似的技术可以放在售票系统，也可以放在点餐系统，但是两个场景在技术要求上是不一样的。例如售票系统，用户只购买一张票，但是点餐系统，要应付用户购买咖啡、面包等多种商品。

算法只是技术落地中的一部分，如何结合行业产品的具体需求去把算法的作用发挥出来，这是落地中的一个痛点，甚至所需要的人力投入远大于算法研发。

多模态数据是提升模型性能的关键

爱数智慧：我们知道，多模态技术的发展当然需要大量多模态数据的支撑，您认为多模态数据在语音交互中将起到哪些积极地作用?

田彪：我觉得作用非常大。AI有三个关键要素，那就是「算法」、「算力」和「数据」，多模态AI技术也不例外，尤其是技术原型从实验室走向产业落地的过程中，在不同的场景下，通过真实采集的多模态数据，来驱动多模态深度学习模型的性能提升，这是所有产品研发中非常关键的一步。

包括我们在多模态地铁语音售票机这个项目研发中，采集了不同光照条件下的图像数据和真实场景下的语音数据，通过这些数据来提升算法和模型在噪声各异、光照各异等场景下效果。有了这些数据，使得我们最后效果达到了上线要求。

爱数智慧：对于数据量的大小以及数据的精度对识别率的影响，您是怎么看的?

田彪：数据量越大识别率也会越好。我们的产品所用数据，一般采集真实的数据，语音一般在上百个小时，图像一般在上千张，才能够使一个产品在一个具体的场景下发挥更好的状态。

数据质量的话，对于特殊场景的单模态数据，其质量要求比较高。例如标一段视频里的一段话，或者标视频里的人脸数据，涉及到多个模态。这些数据精度要求会高一些，标注难度也更高。

爱数智慧：未来多模态语音交互技术将呈现哪些演进趋势?

田彪：目前，工业上能够用得到的多模态技术，大部分属于模态联合的一个状态，即视觉处理视觉的，语音处理语音的，这与我们设想的多模态技术还存在一定差距。未来趋势上，多模态技术将从模态联合走向模态融合，进而端到端多模态。当然，这方面还需要持续的研究，从而不断地提高人机交互技术的天花板。

爱数智慧：谢谢田彪老师能和大家交流。10月28日，让我们一起期待CNCC2021《人机交互的机遇与挑战》分论坛上嘉宾们更加精彩的分享。

爱数智慧5周年

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）