作为在无障碍领域的新进展,谷歌于今年五月在I/O大会上宣布推出Euphonia项目:试图让语音识别系统理解具有非标准语音或障碍的人。谷歌在近期发布的文章和论文中,解释了人工智能的一些功能。
需要解决的问题是显而易见的:那些有运动障碍的患者,如肌萎缩侧索硬化症(ALS)等退化性疾病,他们的说话声音根本无法被现有的自然语言处理系统所理解。
研究小组将其描述如下:
ASR(自动语音识别)系统通常是从“典型”语音中训练出来的,这意味着代表性不足的群体,比如那些有语音障碍或口音重的群体,无法体验到同样程度的实用功能。
目前最先进的ASR模型在服务中等语音障碍的ALS患者时,也会产生高误码率(WER)。
值得注意的是,这种情况至少在一定程度上要归咎于训练集,通常可以通过更具包容性的源数据来解决。这是我们在人工智能模型中发现的内隐偏见之一,这些偏见可能会在其他地方导致高错误率,比如面部识别。
对谷歌的研究人员来说,这意味着要从ALS患者那里收集数十小时的语音。正如你可能预期的那样,每个人受自身状况的影响都不一样,这就对研究造成了不小的障碍。
为此,研究人员将一个标准的语音识别模型用作基准,然后以一些实验性的方式进行调整,在新的音频上进行训练。仅这一点就大大降低了单词错误率,而且对原始模型的更改相对较小,这意味着在调整到一个新的语音时不需要太多的计算。
研究人员发现,当这个模型仍然被一个给定的音素(即像“e”或“f”这样的单个语音)所混淆时,它会出现两种错误。首先,事实是,它不能识别意图的音素,因此不能识别单词。其次,模型必须猜测说话者想要表达的音素,在两个或两个以上单词发音大致相似的情况下,可能会选择错误的音素。
第二个错误是可以智能处理的错误。也许你说,“我要回到房子里去”,而系统却不能识别出句子里的“b(back)”和“h(house)”;也有可能house在患者口中更像是mouse(鼠标),人工智能系统也许能够利用它对人类语言的了解——以及你自己的声音或你说话的语境——来聪明地填补空白。
但这要留给未来的研究。目前,你可以阅读该团队目前为止的研究成果,论文名为《Personalizing ASR for Dysarthric and Accented Speech with Limited Data》,将于下月在奥地利举行的Interspeech大会上发表。
AD:还在为资金紧张烦恼吗?猎云银企贷,全面覆盖京津冀地区主流银行及信托、担保公司,帮您细致梳理企业融资问题,统筹规划融资思路,合理撬动更大杠杆。填写只需两分钟,剩下交给我们!详情咨询微信:zhangbiner870616 (来源:猎云网)
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 特斯拉CEO马斯克身家暴涨,稳居全球首富宝座
- 阿里巴巴拟发行 26.5 亿美元和 170 亿人民币债券
- 腾讯音乐Q3持续稳健增长:总收入70.2亿元,付费用户数1.19亿
- 苹果Q4营收949亿美元同比增6%,在华营收微降
- 三星电子Q3营收79万亿韩元,营业利润受一次性成本影响下滑
- 赛力斯已向华为支付23亿,购买引望10%股权
- 格力电器三季度营收同比降超15%,净利润逆势增长
- 合合信息2024年前三季度业绩稳健:营收增长超21%,净利润增长超11%
- 台积电四季度营收有望再攀高峰,预计超260亿美元刷新纪录
- 韩国三星电子决定退出LED业务,市值蒸发超4600亿元
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。