百度大脑AI主持人技术揭秘

文|吴俊宇

今天是五四青年节,提及青年节,就不得不说“德先生”和“赛先生”。

100年前的五四运动中,响彻着“只有德先生、赛先生可以救中国”的口号。

“德先生”,即“Democracy”,德莫克拉西(音译)——意指先进的思想。

“赛先生”,即“Science”,赛因斯(音译)——意为,“科学”,所谓“科学”是指近代自然科学法则和科学精神。

今年央视五四晚会的主持人包括“赛先生”——春晚红包之后,央视和百度再携手五四晚会百度大脑AI虚拟主持人“小灵”。

这个虚拟主持人和主持人王俊凯、尼格买提同台竞技,丝毫不落下风。

“小灵”背后的技术提供就是百度大脑,其中糅合了百度视觉、语音、大数据以及AR能力,打通了大小屏,让每个电视机前的观众不仅可以看到晚会中的虚拟主持人,还能直接与它进行互动体验。

当年五四运动的“总司令”陈独秀如果见到“小灵”,恐怕也会惊叹今天中国技术之强大。

技术秀在哪儿

在五四晚会中,主持人“小灵”邀请旁边的真人主持人用人脸识别测测自己是祖国的什么花。女主持人和“小灵”的互动非常自然流畅。

很多观众有个非常强烈的感受——这个AI主持人似乎远比市面上其他AI主持人更细腻。

其他AI主持人似乎都是机器人腔,而且发声时嘴巴只是一张一合,明显对不上号。百度大脑这个AI主持人,怎么看怎么觉得舒服。

要做到“舒服”可不容易,这需要语音、表情、唇动这些技术都拟合在一起。

1、语音音色要自然

一般AI语音背后都有个语音库。我在谷歌AI博客上找了下AI语音合成的技术模型图。

大概翻译一些这个图的意思:AI语音库制作的步骤大概是三步。

第一步是将文本变成音频,先确定音色、风格、使用领域、产品特性、角色要求。

第二步找到配音员试音,根据需求设计试音文本,收集录音。

第三步是确投入音库生产线,录音脚本设计、录音资源训练、效果优化、丰富音色。

百度大脑为此准备了几十个音库,找播音主持专业的学生专业录制了各式各样的声音,具备非常丰富的音色矩阵。

每个音库只要用户喜欢,都可以做成一个虚拟主播、虚拟人物的形象。这背后的技术其实基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,可以让应用、设备开口说话,更具个性。

我在百度大脑AI开放平台找到了百度大脑AI开放平台语音合成技术的体验区。以度逍遥这个情感男声为例测试了一句话:今年是五四运动一百周年。

这个男声有着非常明显的特点,非常舒服浑厚的京腔,不知道的人还以为是一个播音主持人在和自己说话。

可以说,百度机器学习模型的研究上取得了突破性成果,其生成的仿人类语音更加逼真自然,将仿人类语音与真实人类声音之间的差异大大减小了。

2、表情唇动要丰富

人的表情,其实是由面部肌肉以及唇动共同组成的,不同人有不同肌肉动作。

以下面这张图为例,人可能有千百种表情,不同人在表达喜悦、恐惧、得意、焦虑的时候,表情都不一样。

真的把表情交到人类面前时,我们都不一定可以把不同表情做准确归类。

但是机器可以做到啊。基于大量的面部特征的数据学习去做提取,机器可以把面部肌肉、唇部动作最细腻的表现都展开学习、归纳,然后从中总结,学习人类的表情特征。

在需要输出的时候,再用深度学习做表情驱动,使得表情更加丰富,甚至连发色、年龄都可以自动生成。

百度大脑的技术逻辑和这个其实也基本大同小异。

百度大脑AI开放平台上提到,百度大脑在检测出人脸后,可对人脸进行分析,获得眼、口、鼻轮廓等150个关键点定位,准确识别多种人脸属性,如性别,年龄,表情等信息。这个技术还可适应大角度侧脸,遮挡,模糊,表情变化等各种实际环境。

百度大脑把声音、表情、嘴唇的这些素材经过了数据采集、特征分析、模型训练,用深度学习的一些核心算法和思想做了唇动技术,让唇动、表情和语音更好的用不同的特征表示联系在一起。

过去其他的AI主持人只是有一个语音库,表情和唇动非常初级,百度等于是把三项技术全部都拟合在一起了,而且再通过AR技术输出出来,比别的厂商想得更多、更细。

产品用在哪儿

你以为百度大脑的AI主持人只能用于这种晚会主持?

当然不止于此。它背后涉及的技术包括面部识别、语音合成、AR输出等等。这些AI技术可以组合成不同的产品,开放给其他客户使用,帮助行业客户改善服务、提升效率。

事实上,依托于百度大脑的百度AR Lab(百度增强现实实验室),就在提供AR技术、产品、服务一站式智能交互解决方案,业务已广泛覆盖营销、娱乐、教育、文化等各个领域。

1、教育和阅读类产品:让课程和讲解变得更生动

通过阅读类APP阅读小说或新闻时,如果使用语音合成技术为用户提供多种发音人的朗读功能,释放双手和双眼,获得更极致的阅读体验。

实际上,熊猫看书、快听小说已经在使用百度大脑这项技术。用户可以直接用语音播放电子书中的内容。

教育类的客户同样可以引入这样的AI主持人,在一些儿童故事机、智能机器人这类教育类设备或课程之中定制属于自家产品的形象、声音,让课程变得更亲切。

深圳一家名为AiMouse的智能鼠标厂商以及Kido儿童手表品牌都使用了百度这项技术。Kido通过运用百度语音识别和语音合成技术,优化了机器人的语音交互体验,让儿童手表实现语音交互。这款手表的日活跃量也达到了百万级别。

2、生活和服务类产品:让服务交互效率得以提升

语音合成还可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成进行订单播报,让用户便捷获得通知信息。面部识别则是可以展开顾客识别、订单校对。

不管是语音合成还是面部识别,都天然适合服务业场景。一些酒店、饭店等服务业可以定制一些属于自己的机器人,帮助顾客做客服。在订单校验的过程中则是可以用顾客的面部特征为基础展开服务。

嘀嗒出行出租车业务的“听单”以及顺风车业务的“听单功能+派单服务”中都用到了百度的语音合成技术。

从2017年10月开始接入百度语音合成SDK。随着嘀嗒业务的增长,调用量每日都在攀升,日调用超过千万次以上,而错误率几乎为零。百度语音合成技术保证了核心派单功能的稳定服务。

3、影视文娱产业:节省动漫动画行业的人力

影视、动漫行业未来效率也能因百度大脑这套AI技术得到很大提升。

过去动漫、影视剧行业为了给动画人物唇形、表情,必须手动一点点调整,而且很看动画师主观的思考。

百度这一套技术输出给动漫行业的话,直接机器生成就OK,动画师后期修改也很方便。程序驱动以后,动画人物语言的唇动连续性也是完全一样的。不会出现在说同一个词汇时出现不同唇动的现象。

影视剧、动漫产业的动画师未来可以把更多精力放在更多有价值的工作上,这样不仅可以节省人工成本,还缩短了工作时间。

当然,文中列举的这些案例完全不能概括面部识别、语音合成、AR这些技术融合带来的应用场景。

我列举这些案例的意思是,你只有非常努力,才能看起来毫不费劲。

百度领军“赛先生”

央视五四晚会上这个AI主持人表面上看起来只是在主持一档晚会。实际上它所需要用到的AI技术底蕴深厚,放到各行各业可以有更大的实际效益。

这也正如美国软件技术专家艾德·伯内特说过的一句话:

现在天上有三十一颗卫星在地球上空环绕,不为别的,就为了告诉你便利店怎么走。

如果你只看到了手机地图上的便利店要怎么走,你显然低估了很多事情。

因为天上那三十一颗卫星不仅仅在服务你,更在服务各行各业——那才是你没看到的东西。

英国学者李约瑟(Joseph Needham)在编著的《中国科学技术史》中提出此问题:

尽管中国古代对人类科技发展做出重要贡献,但为什么科学和工业革命没有在近代中国发生?

作为享誉世界的文明古国,在技术上有过那么多自豪成就。明明自己发明了火药,却被八国联军炸掉了封建牌坊;明明发明了指南针,却被英国的战列舰找上门来。

100年前的五四运动就是探寻这个答案的过程。五四青年们因为国家积贫积弱,走上呼唤“德先生”和“赛先生”的道路。

可以说,德先生和赛先生,是推动中国社会前进的两个车轮。

在今天,全世界范围内同样在展开一场围绕着“赛先生”的竞争——未来20年,是AI的时代,AI就是当代“赛先生”。

百度为代表中国企业在AI领域已经不遑多让,多年以前呼吁的“赛先生”已经不是短板。“赛先生”甚至正在成为今天中国走到世界技术之巅的重要基石。

以AI为代表的“赛先生”让万事万物都处于精确计算之中,正如当代哲学家西闪《国家的计算》所说的:

在现实世界的“赌局”中,帕斯卡的上帝已经隐退,取而代之的,是作为信仰的“未来”。它像一个永恒的奖杯,在时间的尽头闪闪发光。计算则取代了程式化的行为训练,演变成为一种新的思维习惯。“理性的计算”已经成了是近现代的过程最主要的特征。

五四运动的倡导者陈独秀如果看到中国科技企业把“赛先生”搞得这么强,怕是也要说一句,“你真秀!”

----------------------------------------------

作者 | 吴俊宇 公众号 | 深几度

作者系独立撰稿人,微信号852405518

关注科技公司、互联网现象的解读

曾获钛媒体2015、2016、2018年度作者

新浪创事记2018年度十大作者

品途网2016年度十大作者

腾讯科技2015年度最具影响力自媒体

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-05-05
百度大脑AI主持人技术揭秘
文|吴俊宇今天是五四青年节,提及青年节,就不得不说“德先生”和“赛先生”。100年前的五四运动中,响彻着“只有德先生、赛先生可以救中国”的口号。

长按扫码 阅读全文