7月4日- 5日,2018百度AI开发者大会在北京国家会议中心隆重举行,大会上展示了众多落地化成果。此次大会上百度首次举办AI设计论坛,百度设计体验委员会主席、百度人工智能交互设计院院长、百度用户体验中心总经理关岱松及设计团队分享了百度在AI设计和用户体验方面的经验及思考,共同交流AI智能美学及创意等方面的最前沿发展。论坛上百度与湖南大学的战略合作正式启动,整合百度在AI交互设计领域的优势和湖南大学先进的科研能力,双方将共建联合创新实验室及博士后基地,在AI设计领域进行更多更有价值的合作与探索。
DuerOS是以语音技术为基础的对话式人机交互系统。通过万物互联、本能交互、千人千面三个方面构建了人机之间的新交互模式,使得设备能够主动适应外界变化提供更好的信息服务,让人机交互像人人交互一样亲切和富有情感,打造出用户体验最舒适的人机交流方式。
以下为演讲实录:
【子轩】:大家好!我是百度体验架构师周子轩,我今天要为大家分享的主题是《智慧型人机对话设计》。
大家知道最早的人机对话设计是什么时候开始的吗?1952年,贝尔实验室刚开始研究语音合成,把阿拉伯数字对它说,它直接能转换出来。直到上周,我也都是这么认为的。
一周前的晚上,我跟小度小度说了一件事,『小度小度,你给我讲个故事』你们猜小度讲了什么?
【丽川】魔镜魔镜,告诉我,谁才是世界上最美丽的女人?
【子轩】魔镜才是最早的带屏音箱!但是魔镜从设计角度讲不够聪明,不够有智慧。皇后想听的不是还有白雪公主漂亮,而且想要有人夸她。反正小度不会这么说,
为了研究这个话题,这就是我们今天想要分享智慧型人机对话设计,下面有请皇后的扮演者百度DuerOS体验架构师张丽川。
【丽川】我是一名DuerOS的设计师,来跟大家分享最下最近几个月,我们在对话式交互上的探索。其实对话有着悠久的历史,在古代没有书本的时候,孔子等古今中外的哲学家们就是使用对话去教学和传播思想。那么我们今天致敬经典,用对话形式来讲一讲智慧型人机对话设计。
【子轩】丽川,你能说说DuerOS是什么吗?
【丽川】DuerOS是一个搭建在AI浩瀚的技术上、以对话为统一用户入口的、能实现承接多种第三方功能的系统级产品。
【子轩】那就是说,变得简单了,唤醒它,然后等待你的需求。但是还是不够智慧,魔镜至少还能告诉我……
【丽川】没错,魔镜其实是一个比较会读心的设备。因为,语音并不等于对话。发出声音其实只是其中的第一步,还需要对环境场景上下文的理解,充分获取显性和隐性的表达,和对人心理互动的把握,从而才能建立起良好的对话关系。
作为DuerOS的设计师,在领落到对话式人机交互的深意后,把更真实的自然还给用户,把推理运算、归纳演绎等高级综合能力装在设备里。让人感受到与ta互动的对象,不仅仅是一个联网的智能设备,更是一个有智慧的对话对象。这就是我们提出的智慧型人机对话基本模型。
【子轩】那我想先了解下你说的环境是什么意思?
【丽川】我们想传递出的是重组人与环境的适应关系。所以,我们现在要提的一个概念是,从用户主动设置到环境主动调整。首先,现在感应设备技术已经升级到一定程度,已经可以检测距离、光线、音量、人脸、动作、温度、湿度等等。通过感应器采集过来的信息形成信息空间,他是除了人类社会和物理空间之外的第三空间。国务院下发的《新一代人工智能发展规划》中也强调了这一空间的建设和使用。回归到家居环境,DuerOS和万物对话,我们拥有关于一个环境里的各方面信息,这些正是可以让环境适应适应人的基础。
【子轩】那么环境适应人真的可以去实现了啊?
【丽川】环境适应人分成三个进阶。第一个是自动调整环境,第二个是响应人体变化,第三个是学习人的习惯。
【子轩】第一个是能够根据干湿度来调整我适应我吗?
【丽川】这是温度和湿度的自动调节。对于人体最合适的温度和适度已经有成熟的模型,把这个模型输入到设备当中。当设备感受到人在家里的时候,就自动把家居环境调整到最适宜的状态。
【子轩】第二点是响应人体变化怎么理解呢?
【丽川】随着对话式交互的时代的到来,我们和设备的距离拉开,甚至到一个想远就远,想近就近的360度空间范围里。所以,我们提出了在不同距离下最佳视觉呈现解决方案。他落地形态比如直观的有字号、字体、排版、图文比,间接的有信息量的重构。
下面讲一下适应人的习惯。刚才我们展示了很多模型,但是这种模型是对于大部分人来说的,对于个人来说,是有自己的个性喜好的。
【子轩】这个场景我很熟悉,我在家做家务的时候就会调大音量……
【丽川】有了技术与环境场景更好的交融之后,人与设备的交流,才能更加细分场景与人交流方式的关系,回归人体真正的自然交流方式。经过认知科学的研究发现,人们其实是使用多通道的方式去表达信息的。人本身就是多感官的,每个感官都能传递信息。
【子轩】什么叫做多通道呢?
【丽川】通俗一点讲,就像当前我俩的对话,除了我们字面表达的文字内容之外,还有手势,还有眼神,还有表情,还有语气语调,这些加在一起,才完整的去表达了信息。
再细分下去,每个通道有ta传递信息的特点,也有传递信息的上限。所以,多通道整合的交互,才是最自然的,效率最大,更适合于多任务并行。
不过,多通道这个词也提出来很多年了,但是以前的产品设计上只是用于代替手指的部分指令,比如指纹支付,指纹解锁,人脸解锁。这种是拆分开的。
而真正的多通道交互应该是整合在一起的,共同去传递信息,完成操作任务。
【子轩】这个我认同,人最早去适应机器……,教人学电脑还是一份职业,现在看来,这一刻真的到来了
【丽川】多通道表达信息的设计就是要去细分场景和操作任务。查阅相关资料发现,表达的通道和任务有指派性和互补性的特点。指派性也就是唯一性。是指某些任务下,有些任务是有最佳最优势的表达通道的。这时候未必是语言或手指或眼神,可能还是一个动作,比如手势静音。
像这样的方案,只要用户知道设备支持这样的操作,对他来说是没有学习成本和回忆成本的。
比如互补性,当单个通道不能充分表达信息时,需要其他通道补充,才能表达地更精准。经过多通道的同时表达,可以让每个通道表达的信息更少,而合起来的意义更明确。
AI交互设计院的同事,会有意识地去采集这些手势集合,把我们最自然的交互还原出来。这些集合的采集,在东方内敛含蓄文化下,真的很有意义。
【子轩】
人其实一直都有心理活动,并且会通过情绪,情感去表达出来。
【丽川】也有更多的网友会去自己设计表情包,表达更多无以名状的情感。但是设备和技术的限制,只能在这个层面上。现在小度也能觉察人的心理活动了。这里要提一个概念是模式匹配。
AI发展几十年,从未有像现在,让人充满信心。因为现在大数据、深度学习、感应器、情绪理论模型等的高能加持,AI已经从单纯的仿生,进化成模式匹配,这为我们去做更复杂的情感识别与鉴定打下了基础。
最基础的可以匹配的模式就是,人的心理活动三要素,知觉、情感、意志。三者之间是递进推导关系,也是反向影响关系。
以婴儿这个群体举例,表达很直接,情绪很明显,意图很明确。采用递进式的推进,可以快速定位他们的核心意图。
老人这个群体,表达很含蓄,情绪很内敛,意图却很简单。当老人对一个智能设备开口说出请求时,这不仅仅是请求的内容这么简单,还代表这他们对新科技的向往,不想落伍的倔强,或者和自己儿女想要有共同的语言。把高科技信息以更有好的方式展示给老人,是对老人感官能力退化之后的无助感的关怀。
真正有智慧的个体,是当你还没开口就知道你想要什么,俗话说的,很有灵性。通过一个人的表现,推测ta的意图,通过情绪感知再去细化意图,给予更深的解读。
【子轩】这个怎么说,有什么产品吗?
【丽川】这个还真有,我们正在设计一个自动伴唱功能。在播放歌曲的时候,察觉你在跟唱,那么就会切入一个模式,去掉原生,放伴奏歌曲,一秒进入K歌环节。
【子轩】这真是一个激动人心的时代。我们用最自然的方式和一个智慧的对象对话,满足我们不同的生活诉求。
DuerOS设计团队真的是太体贴,太贴心,太专业了。丽川,你一定是小度吧,我问了你这么多问题,都很有条理的回答我了。
【丽川】你才是小度呢~未来的小度,其实就像是你这样自然的与人交谈,像我的朋友,能很好的倾听,总结!
【子轩】让我们共同期待DuerOS 设计团队给大家带来更多的良好的体验,让我们共同期待智慧型人机对话交互时代的到来!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。