近日,中科院和阿里安全的研究者让AI掌握通过声音找到“主人”的任务。经验证,相较于人类67%的正确率,AI的准确率接近90%。在“1对N”的匹配实验中,AI还能对声音归属人脸的“可能性”进行排序。
该技术是一种自适应的学习框架,用来挖掘和学习人脸与声音的潜在联系,该论文研究成果随即也被CVPR 2021接收。
现有研究表明,人脸和声音受到年龄、性别、生理结构、语言习惯等共同因素的影响,两者的联系强烈而复杂多样。该研究第一作者、中科院计算所博士研究生温佩松介绍,中科院和阿里安全的研究团队将公开数据集中两种类型的数据在共享空间中表示,从而达到跨模态匹配的目的,在学习策略上利用了数据集的局部和全局信息,提高了模型的学习效率和效果。
通俗来看,即声音可能是音频格式,人脸是图片格式,两类信息以不同的格式存储,难以比较,所以研究者将声音和人脸“翻译”成了同一种格式的信息,让AI模型可以对两种信息之间的关联自行学习。AI学会了两种信息的关联性之后,就能帮声音找到人脸,或者帮人脸找到声音。因此,AI的这项技能不仅可以“听音识人”,还能“见人知声”。
温佩松介绍,该研究进行了三类实验,第一种,给定一段声音和仅含有一张正确人脸的若干张人脸图片,AI匹配声音和人脸的正确率最高可达87.2%;第二种,给定一段声音和一张人脸,询问AI这是否属于同一个人,准确率最高可达87.2%;第三种,给定一段声音和含有若干张正确人脸的图片,要求AI把所有人脸排序,使得正确的人脸尽可能靠前,AI也能准确完成任务。该实验在公开测试集上一共测试了20076张人脸和21850段音频,AI的表现都令人惊喜。
图说:AI模型通过比较声音和人脸图片在共享空间的距离,推断出相似度,按相似度将候选人脸排序。
在相同的任务上,如果待鉴别对象不限制性别,人类判断的准确率达81.3%,在限制性别的情况下,准确率仅为57.1%,性别因素对AI的影响却非常小,准确率依然如上述结果,高于人类。
据阿里安全图灵实验室资深算法专家华棠介绍,该技术后续将在内容安全和账户安全领域探索应用,对抗伪造类视频攻击,保护用户财产和信息安全。“有些人利用伪造视频试图骗过认证系统,AI的这项技能将进一步验证声音与相应真人是否匹配,防范欺诈,守护安全。”华棠说,这也是让AI在提升安全水位上有更多用武之地。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 消息称合创汽车已裁撤上海分公司所有员工
- 余承东官宣Mate70系列定档11月26日
- TechWeb一周热点汇总:双11全网交易总额超1.4万亿元,马斯克升级与OpenAI的法律战
- 阿里巴巴2025第二财季营收2365亿元 同比增长5%
- 2024广州车展:长安凯程品牌战略焕新,数智新能源商用车成焦点
- 2024广州车展:长城汽车全场景NOA全国开城
- 京东辟谣:无锡物流园失火仓库属存货仓库,无一部手机和任何快递包裹
- TechWeb微晚报:特斯拉市值已跌破1万亿美元,上海颁发首批无人驾驶车牌
- 宁德时代携手上海交大布局机器人领域,自研人形及四足机器人助力工厂智能化
- 以科技创新赋能高教职教新质人才培养 华为擎云亮相第62届中国高等教育博览会
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。