搜狗发布全球首个AI合成主播,上岗新华社,分分钟合成视频新闻

原标题:搜狗发布全球首个AI合成主播,上岗新华社,分分钟合成视频新闻

在今年的世界互联网大会上,搜狗公司和新华社共同带来一场别开生面的跨界发布会——全球第一个AI合成主播就此亮相。

AI合成主播?这是什么新东东?

观众只要输入一句既有的新闻文本,屏幕上就会出现一位虚拟的新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完全吻合。

别说,这个人工合成主播,无论看上去还是听起来,都与现实中的主播的本人播报没有太大差别。

是不是很神奇?

原来,这背后是搜狗通过技术让机器以更逼真自然的形象取代冷冰冰的“机器人”形象,呈现在用户面前。该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。

该技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。

这个随着首位AI合成主播首次亮相的技术就是“搜狗分身”技术。

搜狗公司智能语音事业部总经理王砚峰解释,通俗来讲,就是平时真人主播面对镜头录制一段播报新闻的视频,搜狗分身凭着这段视频就能提取真人主播的声音唇动、表情、动作等特征,再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播同样播放能力的合成主播,接下来,只要提供文字,合成主播就能准确无误地播报新闻了。

搜狗分身的技术原理(小标)

搜狗分身技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。具体而言,搜狗分身技术包含语音合成和图像生成两大引擎:

在语音合成引擎中,基于用户少量的音频数据,使用搜狗个性化语音合成技术,就能快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;

在图像生成引擎中,则使用业界领先的搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。

由于此前的技术积累,搜狗分身具有高度逼真的特点,其自动生成的语音、表情、唇动等信息完全一致的自然视频搜狗分身并已达到商用级别,这在业内尚属首次。

其次,由于个性化定制成本低,搜狗分身仅需使用少量用户真实音视频数据,即可快速定制出高逼真度的分身模型,该项技术也领先行业。

未来的“用武之地”(小标)

正是有了“搜狗分身”这样技术创新的信息传播形式,未来媒体在融媒体转型、新闻时效性和跨语种传播能力等方面都能更加新鲜好玩儿,从而增强我国传媒业的国际影响力和全球竞争力。

不仅如此,未来“搜狗分身”技术还能在娱乐、医疗、健康、教育、法律等多个领域提供个性化内容。因为人脸识别和人脸重建,该技术产品外在脱离了固有的机器人形象,而是能够批量复制无数风格各异的人类形象,满足大家的个性化需求,能够提升不同行业和职业的信息生产传播效率。

所以,以后在新闻主播之外,学校、医院等场景也都可以出现“搜狗分身”技术创造出来的虚拟教师、虚拟医生、虚拟客服等等。

在解放行业生产力的同时,“搜狗分身”技术还能给予用户更好的个性化音视频效果,用AI科技来提高人们的生活体验。

为何是搜狗分身?(小标)

为何搜狗具备开发分身技术并让其应用落地的实力?这当然与搜狗此前在语音识别、语音翻译、深度学习等人工智能能力分不开。

在人工智能概念火起来之前,以输入法、搜索引擎起家的搜狗就率先一头扎进AI。而在其AI战略蓝图之中,语言自然是最核心的重头戏。

一直以来,搜狗都坚持“自然交互+知识计算”的人工智能核心方向,并持续深耕技术,推动技术向产品的快速转化。

2016年,搜狗发布了自有人机交互解决方案——知音引擎;拥有海量真实数据的搜狗,很快又将语音识别与机器翻译技术相结合,同年推出全球首款商用AI同传系统——搜狗同传,引领了语音翻译技术的普及与应用。通过数百场的国际会议“实战”,搜狗同传获得了无数媒体和观众的好评,成为当下炙手可热的“AI字幕君”。

同时,搜狗还推出一系列智能硬件,将语音翻译技术应用到了更广阔的场景之中,帮助用户打破了跨国交流时的语言困境。今年3月,搜狗推出了搜狗旅行翻译宝,具备离线翻译功能与拍照翻译功能,让马化腾都为之心动,在朋友圈里大打广告。作为首款智能翻译硬件,它支持42种语言对话翻译,解决了旅游场景中用户听不懂、看不懂、不会说等真实痛点。

随后搜狗又顺势推出录音翻译笔,为记者等职业群体提供录音转写、对话翻译、同声传译等功能,把AI同传落地到了消费级产品,开拓了语音翻译的新航道。

在近日刚落幕的2018IWSLT(国际顶级口语机器翻译评测大赛)上,搜狗击败讯飞、阿里巴巴, APPTEK(美国应用科技公司)、AFRL(美国空军研究实验室)以及KIT(德国卡尔斯鲁厄理工学院)等国际国内多个强劲对手,一举夺得了2018年IWSLT大赛Baseline Model(基线模型)赛道冠军,向世界彰显了中国AI领域的技术硬实力。

IWSLT从2004年开始已经举办了15届,每年都吸引了世界各地机器翻译领域的顶级企业和研究机构参与。

此次摘得IWSLT大赛Baseline Model赛道冠军,是搜狗继WMT 2017机器翻译顶级评测大赛夺冠之后,又一次摘得全球翻译领域的技术桂冠。短期内连续登顶世界第一的位置,充分证明了搜狗在翻译行业特别是口语翻译领域的领先地位。

正因为一直深耕“自然交互+知识计算”等人工智能技术,搜狗此番才能将分身技术完美呈现,并致力于推广到更多应用场景落地,这才是真正的“科技让生活更高效、更好玩”的范儿~

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2018-11-15
搜狗发布全球首个AI合成主播,上岗新华社,分分钟合成视频新闻
搜狗公司智能语音事业部总经理王砚峰解释,通俗来讲,就是平时真人主播面对镜头录制一段播报新闻的视频,搜狗分身凭着这段视频就能提取真人主播的声音唇动、表情、动作等特征,再通过语音合成、唇形合成、表情合成…

长按扫码 阅读全文