小鹏汽车似乎对产品有近乎偏执要求:要在车内创造出一种能「无限接近人类语气」的声音交互系统。
7月,这套「全新AI声音」的小P系统将在P7部分车型上线。
“去年1024之后,小鹏车机智能化有了很大进步,于是我们花费很多精力在小P的语音表现上,给大家一个更好的信息传递。”小鹏汽车AI产品专家陈思云介绍起全新车载语音。
小鹏产品团队为新声音设立了三大「纲要」:
(1)足够像真人。
(2)角色足够拟人,例如定位成「秘书」、「宠物」或是「女神」。
(3)亲切传达信息,拉进用户距离。
小P全新AI声音是如何做到的呢?为实现这三条,团队就必须往车机联入一个在线的、更大规模的「神经网络模型」——从而实现HIFI级别合成语音。
目前,这套神经网络已经为小P带来了2项肉眼可见的提升:
一、MOS评分4.49
经MOS1语音质量评测,该声音得分为4.49,是目前微软MOS语音质量评测得分最高的车载智能语音助手。
当然,MOS评分不能完全完全「神化」。
MOS最早源于电话的语音质量评价。这项评价标准由ITU(InternationalTelecommunicationUnion,国际电信联盟简称国际电联)在1996年,作为囊括在《P.800: Methods for determination of transmission quality》中的一个「子标准」沿用至今,字面意思不难看出,这是个围绕「主观」(subjective)——也就是人工听觉、人工打分的一项判定方法。
别看MOS古老(那时TTS还未普及),作为一个成熟、稳定、高度逼近人类听觉体验的评价标准,MOS的制定最初建立在一套有参考信号的评价体系之上的:评价时,同时需要待测信号和参考信号。相较于无参考评价方案,有参考的客观评价方案更容易做得贴近主观评价体系。
“MOS体系本身是一个主观评分,在全球最标准化的大会上参加评分的时候,也会要求需要把两个竞品或两个声音加上真人,加上一个非安慰剂的参照系放在一起横向比较。
我们只能比较这几个主观评价中,用户对它们评价的差值,但绝对分值的比较,因为它是一个主观比较,所以在换样本量,或换不同的场景,都会导致分值上的差异。
需要放在同一测试中这个分数才有比较的意义。”陈思云在回答能否用MOS评分高低作竞品横评时谈到。“即便无法客观的让小P横向对比。但我相信更新后,用户拿小P和Siri对比,还是有很大区别的。”
二、软硬兼施,打出「情感牌」
从刚才的视频来看,全新小P声音饱满程度也有很大提升,再配合P7本身的良好的NVH性能,我预感这波HiFi级高保真音质真的可以在P7上发挥出来,成为量产车中排名数一数二的沉浸交互感。
实际上,全新AI声音采用24K采样技术(现有声音为16k),各种场景下的声音反馈都被精心调教,用户听到的每句话都细腻生动、充满活力。
“新旧声音对比来听,会明显感受到音质的差距。这个声音不是拼接的,完全采用AI训练、生成出来的。”郝超补充道,“业内无论车企还是智能音箱,大家还是在用提前录音的方式,尽可能让语音包更好听,但内容覆盖率不高,所以我们采取这种方式(AI生成),也算一次大的创新。”
除了这些「硬实力」,全新AI语音还有足够「软实力」。
“小P会像Siri一样调侃么?”,笔者问道。
“全新AI声音会有一些情绪上的表达,或者对不同情景、不同语气会有一些彩蛋的埋入,包含像偶尔跟用户进行一些小的调侃,去调剂一下用户整个行程中的娱乐性,这也会有一些小的彩蛋的埋入。”陈思云回答。
而具体有哪些「彩蛋」,还需要P7车主一点点挖掘。
除了语音彩蛋,全新小P语气包括例如「助理、客服、聊天、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静」等14种强烈情绪的变换能力,后续版本还会逐步贴合更多场景。
说了这么多优点,但新技术哪有不翻车的。来谈谈笔者对小鹏全新AI语音的担忧吧。
首先就是难以应对离线情形。
车辆行驶在偏远地区,没网,或者信号中断,在「有-无」网络之间来回切换,驾驶者肯定对语音质量的高低变换一定是有反应的。
但小鹏的工程师已经想出了对策:在线追求高品质,离线兜底无时延。
“如果遇到「5公里长的隧道」这类极端网络情况,我们会在本地留一个「小的离线模型」,它的体量不会很大,但保证小P在时效性不变差的情况下一定能把声音发出来,比如说导航或者自动驾驶这些播报,两个模型工作准则是一样的。”
按照郝超的说法,这套自研「端云融合多级缓存」,能让车辆预测当下的网络情况,自动改选「在线神经网络引擎」or「离线引擎进行声音合成」,总之就是在信号不佳的情况下,语音播报依然维持高音质。
“通过这个技术,小P已做到97%超高在线率。”郝超补充道。
最后:
笔者认为,拟人的全新小P能够更好传达信息。
回想下,你有没有经历过,当车内导航声被道路噪音掩盖、碰巧路线显示延迟而错过待转路口?
在认知心理学中有个经常被提及的原理:「鸡尾酒会效应」。指的是人类听觉系统有着极其神奇的「专注能力」,即便在嘈杂环境中,仍能将注意力专注于某种「特定声音」,而「无视」掉背景音。
其实,小鹏语音团队做的便是将这个原理「逆」过来:做出一套更好被人类听觉系统分辨的声音。
人的注意力是有限的,一个好的交互系统在设计时就必定要考虑到极端情况下,如何减少人脑的能量消耗,从而达到最好的信息传递效果。期待小P早日让车主们享受到这一乐趣。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 特斯拉CEO马斯克身家暴涨,稳居全球首富宝座
- 阿里巴巴拟发行 26.5 亿美元和 170 亿人民币债券
- 腾讯音乐Q3持续稳健增长:总收入70.2亿元,付费用户数1.19亿
- 苹果Q4营收949亿美元同比增6%,在华营收微降
- 三星电子Q3营收79万亿韩元,营业利润受一次性成本影响下滑
- 赛力斯已向华为支付23亿,购买引望10%股权
- 格力电器三季度营收同比降超15%,净利润逆势增长
- 合合信息2024年前三季度业绩稳健:营收增长超21%,净利润增长超11%
- 台积电四季度营收有望再攀高峰,预计超260亿美元刷新纪录
- 韩国三星电子决定退出LED业务,市值蒸发超4600亿元
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。