普惠、克制,和天猫精灵累计销售额破100万后,接受锌财经专访时一样,浅雪在阿里巴巴人工智能实验室2018春季发布会,及之后的采访中,反复强调着这两个词。
不一样的是,曾经说要给产品做减法,不做视觉、手势识别,不把所有黑科技一股脑丢进去,闪瞎用户双眼的她,在百度正式发布智能视频音箱“小度在家”的前72小时,宣布发布人机交互系统AliGenie2.0,在听和说的基础上引入了视觉能力。
这意味着,通过天猫精灵XHolder包含的二维码,建立XHolder与天猫精灵的第一次连接后,手机可直接用作屏幕,体验“精灵火眼”带来的视觉能力。换句话说,天猫精灵在几乎没有增加硬件设备成本的情况下,具备了视觉识别能力。
这一次,阿里这个中国智能音响市场的后入局者,抢在了所有人前面,试图以在两三年前被证伪的视觉交互,重新定义人机交互方式,并用最低的成本颠覆竞争对手的下一代产品。
在此之前,通过狼性的打法,他们达成的成绩是:上市的200多天里,销量突破200万台,连接家用电器4500万台,执行任务9亿次,回答问题1亿次,讲笑话1296万次,逗乐人类347万次……
每一个简单粗暴的数字背后,都有着更深的意味。比如全球市场,最畅销的智能音箱亚马逊Echo,达到这一200完万台的销售,用了一年多时间,由此得出的结论是,在中国做智能音响或许不是伪命题;业内人士默认,目前最优智能家居生态构建者,小米可连接设备8500万台,近一半是路由器和手环,而天猫精灵4500万可连接的设备均为家用电器………
在双11以粗暴的价格拉动消费,反逼着供应链往前跑后,AliGenie2.0这样的系统升级,以及同时发布的搭载AliGenie2.0系统的天猫精灵曲奇版、天猫魔屏S1和天猫路由器,将给产业链带来又一次冲击。
“这是懂商业的技术公司,靠着强悍的资源市场突破能力,进行的一场降维打击。”发布会结束后,有同行这样评价。
下面是发布会结束后,锌财经做的进一步采访。
阿里巴巴人工智能实验室负责人 | 浅雪
Q:一下子发布三款产品,背后的逻辑是什么?
A:三款产品相互之间是有一定关联的:天猫精灵曲奇是输入设备,天猫路由器是链接设备,天猫魔屏是输出设备,这恰恰是人机交互里面比较关键的三个点。
也就是说,我们将语音交互、视觉交互、机器行动力结合在一起,推动家庭智联网的落地,而不是什么品类都乱入。
Q:不是什么品类都乱入?具体而言,边界在哪?
A:我并不想给自己设一个限制。
本质上来讲,我们的关注点在于整个系统上,而不是硬件的边界,这两种思维方式是不太一样的。硬件可以有很多种变形,比如天猫精灵火眼完全可以变成另外一个样子,但是这个系统是唯一不变的东西。
Q:为什么不直接推出带屏幕版的智能音箱?
A:我理解的人工智能,第一是计算量,第二是有认知能力。单纯做硬件的叠加(加一块屏幕),是非常简单的事,但只有屏幕没有认知能力是假人工智能。
如果是其他厂商做,在硬件上可能会用非常好的摄像头,用非常好的传感器、屏幕来降低挑战和难度。但我们强调的是惠普科技,我们要做的是让天猫精灵在几乎没有增加硬件设备成本的情况下,具备视觉识别能力。
Q:智能音箱市场的终局会是什么样?
A:智能音箱市场处于起步阶段,但“百箱大战”的情况不会持续很久。
未来的竞争会在三个维度:产品、场景、生态,产品体验是核心,既包括产品本身的体验,也包括系统的能力。大多数没有技术投入、生态建设的产品会很快死掉,最终可能会留下两到三家。
阿里巴巴人工智能实验室产品总监 | 释空
Q:很多硬件厂商的做法都是软件套盒子,真的那么简单吗?
A:是这些厂商不太负责任。就我自己来说,先试着跟别人合作,后来自己做系统、做硬件,可以说研发这个产品整整耗了三年的青春。如果只做系统,不把产业链完整地走一遍,可能真的发现不了软件和硬件适配的问题,只有你自己挽起袖子,弄脏双手,才会知道里面到底有多少坑要走。
我说一个很小的点:为了天猫精灵的音效最优,我们在深圳泡了七天左右,其中两天是24小时通宵的,就为了调麦克风消噪和敏感度。出来之后,基本上是谁都别跟我说话的状态。
Q:天猫精灵火眼诞生的背后有哪些故事?
A:第一,为什么要做。火眼系统的诞生,比天猫精灵的语音系统还要久。我们先推出了更成熟的语音系统,但在这个过程中并没有放弃对视觉的思考。包括在去年,我们已经做过预告,未来的机器交互一定是具备五官能力的。未来几年,我们还会延着这样的方向探索,只是说技术能不能有合适的场景拿出来给用户使用,如果没有,我们就先憋着。
第二,我们在做的过程中,关于要不要带屏,内部有非常大的争议,最后我们选择用XHolder加火眼做这个尝试。兼容现有的产品,其实是最难的,比完全从零开始开模具难太多。最开始我们配有一个转折镜,能够把桌面上任何东西投射到摄像头里,在不知道开了多少次模后,我们选择把镜子拿掉了,当时技术人员就炸了,说没法儿做,他们最后还是被反逼着不知道打磨了多少遍,才成功。
Q:视觉能力需要大量现实场景的图像数据,现在,阿里有足够的训练素材了吗?
A:我们的视觉识别分为两个,一个是2D识别,一个是3D识别。现场演示的药盒、图书、卡片,更多是2D,这一块的图像数据主要采用众包的形式,数据也比较多。
关于3D识别,仍然没有解决大规模商用的技术问题,而且3D的图像素材,现在整个行业都是缺的。
阿里巴巴人工智能实验室北京中心首席科学家 | 聂再清
Q:天猫精灵和别的智能音响比,在技术上有什么优势?
A:打比方说有一个东西叫情景感知。我们会知道大部分用户在做这件事情的时候,他到底还会做什么事情,然后主动做一些动作。比如,你问了天气,如果知道要下雨的话,我可能会提醒你不要忘记带伞。
另外还有主动学习的能力。自然语言很大的难点来自于它的多样性,一个意思可能有无数种说法,那么,怎么通过开发人员跟大数据的交互,主动进行挖掘,把各种说法都完善了,让机器能听懂。
这是我们技术上的优势。
Q:具体落到语音识别这一块,天猫精灵具备了怎样的能力?
A:我把对话分为四种。
第一种,任务完成型。用户想让天猫精灵做这件事,那就必须把这件事做了。
第二种,知识问答型。用户有一个问题要问天猫精灵,我们就要用上所有我们知道的知识图谱,去回答用户的问题。这种情况下,就不用重复唤醒天猫精灵这个动作了。
第三种,智能聊天型。用户脑子里面没有一个任务要我们完成,他也没有问题,就是想和天猫精灵聊聊天打发打发时间。
第四种,闲聊。来一句话,不管是用户离得很远,还是有口音,都得接住。
现在,这四种类型我们都具备,包括其实天猫精灵第一次唤醒之后,在2.5秒左右的范围内能跟你连续对话。具体什么时候放出来要听释空的。
Q:将视觉与语音打通的最大技术难度是什么?
A:首先,视觉效果与语音的同步,要求极高的实时性。
其次,视觉需要理解语音返回的结果,包括意图、情绪等等,逻辑处理复杂。而纯粹的语音技术,终端往往只需要执行音频资源的播放控制即可。
除此之外,还有很多,比如 声纹和人脸如何很好的互补或结合,识别不同的物体,在不同距离,不同角度,不同光线情况下,都能识别成功……
文章∣诗琦
编辑∣陵鱼
摄影∣黄硕
手绘∣陵鱼
©本文版权归“锌财经”所有
部分图片来自网络
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 消息称塔塔集团将收购和硕印度iPhone代工厂60%股份 并接管日常运营
- 苹果揭秘自研芯片成功之道:领先技术与深度整合是关键
- 英伟达新一代Blackwell GPU面临过热挑战,交付延期引发市场关注
- 马斯克能否成为 AI 部部长?硅谷与白宫的联系日益紧密
- 余承东:Mate70将在26号发布,意外泄露引发关注
- 无人机“黑科技”亮相航展:全球首台低空重力测量系统引关注
- 赛力斯发布声明:未与任何伙伴联合开展人形机器人合作
- 赛力斯触及涨停,汽车整车股盘初强势拉升
- 特斯拉首次聘请品牌大使:韩国奥运射击选手金艺智
- 华为研发中心入驻上海青浦致小镇房租大涨,带动周边租房市场热潮
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。