近日,李彦宏参加了极客公园一年一度举办的创新大会,主持人与李彦宏聊到了他最近申请的一个专利吸引了我的兴趣。这个专利名字叫“对象识别技术与装置”,这个专利可以让人与机器的交互多轮进行,从案例来看这个专利让机器与人的对话更加自然。一份国外调查结果显示ios7设备Siri使用率只有15%。Google Now、微软Cortana以及中文语音助手们并未如最初预想的那样普及。核心原因在于,所有语音助手的对话都太不自然:只支持一问一答,不支持基于上下文的对话。如果应用李彦宏所申请的这个专利,这个现状即将被改变。
语音助手的缺陷:不支持基于语义理解的互问互答
在脑海重现一下人与人对话的过程。你听到对方的一句话之后,给予一个反馈,对方再根据你的反馈说下一句话,如此循环。每一次对话都会影响下一轮说什么、做什么。
Siri们的模式却十分单一:你可以问,广州今天的天气怎么样。倘若你接着问,“明天呢?”Siri便懵住了。还有一个常见的场景,你问了一个问题,Siri无法理解你,只会抛出“我听不大懂你的意思”这个冷冰冰的答案。在现实中被问者可以用追问、确认、反问等方式来进一步了解问话者的本意。
Siri对话并不自然,一方面是语义理解的局限性所致,还有一点则是对话模式,比如无法实现基于对话的上下文,再比如不支持多轮识别。这是不少人工智能产品的通病。传统搜索引擎、各大语音助手、图像搜索引擎,在识别和交互上不够智能化,不支持互问互答,让整个过程十分不自然,用户难以形成习惯。
百度新专利:基于知识的多轮识别听懂用户
百度获得的一项名为“交互性识别”的新专利或许可以改变整个人机交互。从专利网泄露的信息来看,该专利第一申请人为汪冠春,百度CEO李彦宏、百度技术副总裁王海峰是联合申请人。
简单地说,这项专利让机器可以不断地反问用户、获得更多信息进而正确地理解用户的意思,给出更精准的答案。举个例子,如果用户上传一张鲜花图片,百度可以让用户选择鲜花叶子的形状,来给出更精确的答案。
多轮识别专利,已应用在百度语音助手上,即将出现在手机百度之中。可以应用的场景包括图像、语音和文字搜索,以及搜索之外所有需要人机对话的场景:比如智能眼镜、语音助手、智能摄像头、家用机器人等等。总之,机器可以要求人们给出更多的文字、图像、语音、手势等类型的信息来提高对象识别率和答案准确率。
媒体报道显示,以花卉识别为例,增加多模交互后,识别准确率从60%提高到了80%,达到超出用户预期的水平。倘若百度将这个专利授权给第三方,尤其是搜索、语音和图像识别厂商,可让人机对话迈入新的阶段,成为用户依赖的工具,而不是玩具。
百度专利比Google对话式搜索技术要求更高
在去年的Google I/O大会上,Google发布了对话式搜索。这项技术让用户像对话一样不断地搜索,搜索引擎基于上下文来理解用户的问题。举个例子,你可以问,姚明今年多少岁?搜索结果显示后,你可以追问“他多高呢?”。Google基于上一个问题,理解“他”为姚明。
对话式搜索已被整合到Google Now和Chrome之中。其最大的突破在于,基于上下文来理解用户的多轮搜索,向真人一样理解用户不断追问的问题,这是Siri们亟待恶补的地方。
与Google的对话式搜索主要是语意理解相比,百度这个新专利除了语意理解,还加入了图像识别技术。对图像的理解从技术上比语意理解的难度还要高出一个级别。
总结百度多轮识别专利,有三个特点让人机对话更加自然:一是让机器不断向用户索取信息;二是支持图像、语音和手势等多媒体;三是可大幅提高对象的识别准确率。
要实现真正的人机自然对话,对话式搜索和多轮交互识别,两者缺一不可。一个让用户搜索更加自然,一个让机器理解更加精准。Google和百度,精于NLP、多媒体识别、深度学习和人工智能,都想要从搜索引擎扩展到无所不能的智能助理,现在看来是殊途同归。
“对象识别技术与装置”专利只是百度人工智能专利库的冰山一角
人工智能的爆发速度已经超出人们的意料。正如《奇点临近》所预测的那样,人工智能的增长速度或为指数级别,机器超越人类的奇点不再是杞人忧天。Tesla创始人Elon Musk更是有些危言耸听地宣称,人工智能就是恶魔,五年后机器就会开始杀人。不管Ray Kurzweil是否语言成真,不管Elon Musk是否是乌鸦嘴,稍有远见的巨头都在人工智能上大力投资,谋求未来。
不久前美国《商业周刊》便撰文报道了百度在人工智能上的动作,称其已与大洋彼岸的Google形成割据之势。招募顶尖技术人才、成立专门研究机构、上马Dubike、百度Eye等探索性产品。百度迷上了人工智能。
“对象识别技术与装置”专利只是百度所取得的人工智能专利之一。这释放的一个信号是,人工智能上的大力投入并未给百度带来明显的尤其是数据报表上的收益,但百度至少已经在专利上快了一大截。这可能只是防御性的专利措施,但在关键时刻尤其是人工智能爆发的时刻,其会成为百度的资产。这些专利要确保百度在人工智能时代,以及之后的时间里掌握先机,精准地连接人与服务。
百度重金投入研发人工智能不仅是李彦宏的兴趣
1997年,李彦宏个人曾取得超链分析专利,是第二代搜索引擎的关键技术之一,Larry Page和Serg Burlin在创立Google之前曾慕名参加李彦宏关于此专利的分享会。17年过去,李彦宏已是百度的管理者,成为专利申请人表明其依然十分关注技术,巧合的是,这个专利或许再一次成为突破口。
1、2011年,李彦宏在百度联盟峰会提出,读图时代已经到来;
2、2012年KDD(知识发现世界年会)上,李彦宏预测9大待解技术难题,其中两项为图像搜索,一项为语音识别;
3、2014年百度世界大会,李彦宏预测未来五年,语音图像的需求表达会超过50%;
4、2014年世界互联网大会,李彦宏透露最聚焦人工智能,关注自然语音的理解、模式的识别、计算机的视觉。
追踪李彦宏几年的个人言论不难发现,李彦宏本人最为关注的是人工智能和多媒体(图像和语音)识别,“对象多轮识别技术”正是属于其所关注的领域。百度重金投入研发人工智能,并非一时兴起,是李彦宏看到了移动时代用户需求的变化,看了技术实现的可能。也许不只有李彦宏看到了其中的巨大机会,但真正有能力去将梦想未来变成技术现实的人,全球范围内用一个手掌就可以数得过来。
微博@互联网阿超,微信 罗超(luochaotmt),扫码来关注:
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 消息称塔塔集团将收购和硕印度iPhone代工厂60%股份 并接管日常运营
- 苹果揭秘自研芯片成功之道:领先技术与深度整合是关键
- 英伟达新一代Blackwell GPU面临过热挑战,交付延期引发市场关注
- 马斯克能否成为 AI 部部长?硅谷与白宫的联系日益紧密
- 余承东:Mate70将在26号发布,意外泄露引发关注
- 无人机“黑科技”亮相航展:全球首台低空重力测量系统引关注
- 赛力斯发布声明:未与任何伙伴联合开展人形机器人合作
- 赛力斯触及涨停,汽车整车股盘初强势拉升
- 特斯拉首次聘请品牌大使:韩国奥运射击选手金艺智
- 华为研发中心入驻上海青浦致小镇房租大涨,带动周边租房市场热潮
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。