近日,谷歌 AI 部门 DeepMind 和牛津大学的研究人员使用人工智能创建了迄今为止最准确的一款读唇软件。
利用 BBC 数千小时的电视节目,研究人员将 AI 软件对电视节目嘉宾唇语解读的准确率提升到了 46.8%。这一数字乍看上去十分不起眼,尤其在与 AI 软件语音识别准确率进行比较后更是如此,但要指出的是,即便是专业的唇语专家在接受同样的测试时,准确率仅为 12.4%。
值得一提的是,牛津大学的另一独立小组也于不久前开发了一款类似的 AI 读唇软件。这个名叫 LipNet 的读唇软件,在测试中达到了 93.4% 的准确性,而人类的准确性则为 52.3%。但该测试所用的材料均为志愿者事先录制好的固定句子,没有任何复杂的事件背景可言。
而此次谷歌 DeepMind 部门研发的“Watch, Listen, Attend, and Spell”AI 软件所进行的测试则更具挑战性,在没有任何背景介绍的情况下直接对 BBC 节目嘉宾唇语进行解读。
该软件用于读唇术训练的电视节目视频时长累计超过了 5000 小时,包括近 12 万个不同的句子和约 1.7 万个独特的单词,相比之下 LipNet 软件的测试视频仅有 51 个独特的单词。
至于 AI 读唇软件的应用,很多人第一时间想到的便是监控视频的唇语解读。研究人员表示,监控视频的分辨率将对 AI 软件的读唇准确度有很大影响,但人工智能会将这一差距慢慢缩小。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- Counterpoint报告:双11iPhone在华销量下降双位数,华为增长7%
- 2028年GenAI手机出货将超7.3亿部,GenAI成为中高端手机标配
- 中国工业机器人密度全球第三,每万名员工配有470个,领先德国和日本
- 华为折叠屏最新专利公布:打破传统集中架构布局,将首发搭载华为Mate X6
- 《财富》全球商界领袖影响力榜出炉:任正非王传福雷军入选,马斯克排第一
- 周鸿祎“叫板”李彦宏:大模型幻觉是不可消除的
- Q3全球云计算支出820亿美元,亚马逊谷歌微软三家占比64%
- 用AI辅助砍价,淘宝上线“去谈价”功能
- 全球首个5G-A立体智慧网在京发布:5G-A生效比超85%,峰值速率11.2Gbps
- 美国室温超导闹剧主谋被解聘,此前多篇论文被指歪曲数据
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。