2020年11月5日,小米成功举办MIDC2020开发者大会。大会以“生活的科技”为主题,通过展示小米在相机、屏幕、充电、AI、IoT、智能制造等多个领域取得的重大突破,充分展示了小米的技术实力。
本次大会,小爱同学5.0版本带来五大升级,从传统的语音助手升级为智能生活助手,给消费者提供更好的智能生活体验。
此次2020MIDC小米开发者大会上,小爱同学三维虚拟形象首次亮相,和崔宝秋的一段顺畅互动成为大会一道亮眼风景。除了极具特色的虚拟形象,小爱同学5.0还升级了五大贴心功能,具体体现在全场景智能协同、对话式主动智能、定制化情感语音、多模态视觉能力和智慧学习好助手方面。
得益于小米前瞻性的生态链布局,庞大的智能硬件产品也为小米的AI技术落地提供了沃土。过去一年,小米在视觉、声学、语音、自然语言处理、知识图谱、机器学习等领域均取得了技术上的突破进展。比如超级夜景、魔法换天、魔法分身、Vlog、通话降噪、阵列增加等全新技术都已经在最新发布的硬件产品中得以应用。
发布会后,小米集团人工智能部总经理、AIoT战略委员会副主席叶航军,小米人工智能部AI实验室主任、NLP首席科学家王斌以及人工智能部副总经理王刚共同接受了记者的采访,以下是本次采访的部分摘要。
小米在人工智能方面短期和未来长期的计划和目标
叶航军:短期的目标比较明确,目前两个大的方向,一个就是AI产品和小爱同学要支持好公司在智能生活的战略,就是手机×AIoT构建智能生活的战略,短期目标就是要把这个事情做好。因为在手机×AIoT战略里面,小爱是个非常重要的环节,可以认为是一个入口环节和落地的作用。
另外一个就是AIoT方向,这六大技术方向现在都有非常明确的业务和落地场景,因为AI大家对它的期望很高,其实它有非常多的技术问题解决得还很不好,这是我们后面要努力把这个事情做好的一个决心。这是短期的目标。
长期目标,我理解主要是两个,一个就是要把智能做得更深入一些。现在很多环节其实并不智能,这个是我们需要把整个在小米的业务体系里面,把各个层面的智能要做得很深入,除了用户可见的产品体验以外,还有一些不太容易注意得到的,比如说客服也是需要智能的,因为大家可能有个不太好的体验,就是打了客服电话就让你等,让你等的原因是接线员不够多,接线员不够多的原因是成本问题。大部分人客服的问题70%、80%都是相对比较简单的问题,对目前的AI来讲都是AI能解决的问题,所以我们现在也在加大投入,这可能是用户不太会想到的一个场景。一个长期目标就是要把各个环节的智能化做得更深入。
第二个方向就是往产业的上游去做,我们今天讲了智能制造,这是我们非常重要的一个场景。小米除了向消费者直接提供产品之外,也是希望通过技术来帮助整个国内的制造业提升制造水平,智能制造里面非常重要的技术就是AI技术,这是我们的一个长期目标。
小爱同学的动态语音识别技术的前景
王斌:先讲讲动态语音识别技术,动态语音识别技术是说模型的更新非常快,语音识别还是根据线上各种反馈,根据发展会不断的动态调整。但传统的这种语音识别模型都非常非常大,进行调整是比较耗代价的,比如说以前一周更新一次,但是我们这个技术把它碎片化,通过技术上变成一个可迭代的增长式模型,在很短的时间内可以不断的进行动态的调整。这个叫动态语音识别技术。
当然这个技术未来还有非常大的发展空间,比如说我们针对不同的人,其实不同的人大家都知道,语音识别其实跟人有关,有些人他识别得好一些,有些人识别得差一些。我们这个报告里面都讲了是一个平均水平,但实际上到真正每一个用户又不太一样,前几天有一个视频我觉得挺好玩的,就是一个老外特别喜欢小爱同学,但是他发音不太准,他就很生气。也就是说语音识别本身并没有我们想象得那么如意,针对不同的人、不同的水平、不同的阶段,它的识别率并不能达到通用的很高的水平,所以这种情况下,未来我们会做个性化,针对不同的人进行不同的训练,来动态调整模型,使得对所有的用户的感觉都很好,这就是我们最终的目标。所以,这个动态语音识别技术未来来看还是非常有前景的。
小爱同学在多轮对话方向上的进展
王刚:多轮对话确实是我们去年在小爱同学3.0的时候就重点做的功能,2018年3月份就启动了多轮对话的研发,到今天也接近三年的时间了。在这个多轮对话上,我们还是面对到了一些技术的挑战,在现有技术的框架下,现在的技术框架叫做AUS框架,去表述用户自然语言的处理,我们是逐步去优化的,多轮的时候,从技术框架去解决多轮问题的时候,还是遇到了一些困难。多轮的理解对整个理解的表示能力上来讲,它是很受限,所以我们现在首先在现有的技术框架下去逐步的突破对多轮的理解力,多轮理解力我们现在内部已经做出200多种组合的多轮对话能力。比如说你问小爱同学假如说北京天气怎么样,明天去哪儿更好玩,我们会把上文“北京”带下来,有这种上下文知识的传递。我们内部现在有200种组合能力的对话,怎么样更好的针对多轮对话有一个更自然的全面理解,这一块是更需要更新的技术突破,在现有技术框架下,用户进行多轮对话有一个全面自然的问题的解决的。
然后我们从产品侧的话,也发现用户对多轮对话这个功能还是喜爱的,自从我们去年发布了多轮对话到今天为止,因为现在有一个开关,用户可以在这个设备上打开多轮对话,然后跟用户的交互就变成了你只需要一次唤醒,就可以多轮对话了,现在每天大概有200万人跟小爱同学进行多轮对话,当然可能会有很多话会在多轮的场景下回答的像单轮,就是多轮长距离的下下文的理解可能还不是很少。
小米AI的核心竞争力
叶航军:我理解不少厂商对AI的判断大致一致,大家都觉得这是一个核心竞争力,这个不会有问题。每个公司都会有自己的核心竞争力,我理解对小米来讲,可能是几个层面吧,第一个层面还是场景,这是取决于每个公司不同生态,手机×AIoT是最大的场景,从场景开始比如说到数据的理解,如果这是你的场景,你必然会对用户更理解,长期积累下来这会是你的优势。再往下是算法,算法也是为场景和数据服务的,最后是人才,因为你不同的生态、不同的场景会吸引不同的人过来,你要找到最合适你的生态的人才,然后最终效果才会变得最好,我的理解是这个层面的。
小米AI在发展过程中遇到最大的挑战
叶航军:最大的挑战也是人才,如果媒体朋友们关注到我们MIDC上的演讲,我也大概分享了一下小米发展的历程,比较里程碑的一年就是2016年,第一次把人工智能升级为公司的战略,也是第一次成为了独立的团队,之前也有工程师在做AI算法,但是分落在不同的业务团队里面,2016年第一次升级为公司的战略,也有了独立的部门。小米进入AI战场不算特别早,那个时候决定进到公司有比较激进的计划,希望能够很快有产品出来,其实对团队的要求是非常高的,当时最大的挑战就是人才。
解决方案有几个,一个就是从内部转了一些有经验的管理者和专家,其实我和王刚博士都是那时候转岗过来的,之前我是云技术的负责人,王刚博士是数据平台的负责人,我是2012年加入小米的,王刚博士是2013年加入的,我们刚开始来的时候都不是AI方向的,我们是2016年转到这个方向的。
我们转的原因是因为我们之前有这个背景,我在清华读博士是计算机视觉背景,王刚博士是在香港科大做机器学习的背景,本身我们是有这个专业背景的,正好公司有这个需求,招聘也来不及了,就先转吧,然后我们俩当时就从别的部门直接转到AI这个方向了。这是应急的办法,然后又加紧招聘,王斌博士是2018年加入的,他作为招聘的一个代表,本来是行业专家,2018年加入了小米。另外一个渠道就是自主培养,我们会招很多应届生去培养,基本是这三个方式解决这个问题。
MiNLP和其他开源NLP的差异性
王斌:开源的NLP工具蛮多的,我们大致上能看到的开源工具分两类,一个是学术界开源,一个是工业界开源。学术界开源对学术的研究帮助很大,它里面会做得相对模型非常多,非常复杂,然后有它的一些优势,我们在之前也学习了不少。另外是工业界开源,刚才提到了百度还有一些公司也开源了他们的工具,为什么?大概是根据他们的特点。比如跟学术界相比,我们是工业级的代码,经过了一两年,我们上线时间也很长,到现在开源是因为我们经历了很多考验,最后才把这个好的版本拿出来,所以我们是一个经过工业界上线考验的一个代码的版本,所以这是一个工业界开源很好的一个办法,并不是纯学术的。特别是对一些公司来说,我相信拿过去之后可以直接上线学术,这是它和学术界版本的不同。
和工业界相比有很多特点,我们设计这个系统的时候也参考了别人的一些工作,然后我们针对具体的一些东西提出自己的特点。这里面其实蛮多,包括支持的系统也不一样,比如百度开源,它可能支持某一类底层的系统,这个可能是有区别的。另外,比如说我们支持了多种标准的分布式系统,另外我们支持非常灵活的干预,因为大家知道,通用的分支系统在线上很容易出现不太好的结果,因为通用的东西很难代表线上各种复杂的情况,所以我们这里面开源过程中也考虑了随时进行干预的一种机制。这种干预机制其实是在一开始设计的时候就会去考虑的,如果说只是一个模型放出来,其实第三方在使用的时候是没办法进行干预。所以我们放出了一个可以随时干预的版本,用户可以很灵活的把自己的一些东西放上去,然后能够在很短的时间内获得一个更符合线上需求的版本。
除了这个之外,可能还有其他一些特点,我们会在说明书当中讲出这些特点,这样的话其实也是给用户一个不同的选择。当然在内部评测的时候,我们的效果也是非常不错的,我相信开源之后更多用户根据他自己的情况肯定多了一种选择。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 毫末智行回应裁员:正常组织调整,比例很小
- 谷歌恐难逃分拆命运:即将迎来特朗普大苦主
- 余承东:尊界车长约5.5米 尺寸可能超越马路上99.99%的轿车
- 逾10年潜心自研芯片创新,亚马逊云科技Graviton在新实例中已打下三分天下
- 长城汽车CTO否认“与华为合作”传闻:对自己的智驾技术相当有底气
- 接入混元大模型 腾讯搜狗输入法讲起AI新故事
- 张朝阳谈互联网创新:创新不仅是创造力的体现,更是实践落地后的成功
- 阅文集团:《庆余年》《全职高手》入选“数字文化十大IP”
- 李斌立flag:明年销量翻倍,后年盈利
- 阿里整合国内和海外电商,成立电商事业群,蒋凡出任CEO
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。