AI音为虚拟人注入灵魂 时域科技要打造音频技术生态

很多歌迷都不得不面对一个苦涩现实,一些喜欢的歌手十年都出不了一张新专辑。背后的原因可能是歌手的发展规划限制、能力高峰期已过,甚至歌手本人已经离世。

如果有一个AI可以完全还原idol声音演唱任何歌曲,是不是就能完成大家随时随地听偶像新歌的愿望?

实际上这已不再是梦想。随着人工智能技术的发展,相比十年前虚拟歌手生硬的合成音,当下的技术已经能够准确还原一个人的声音并以此合成歌曲。

“其实还原人声对我们来讲已经是非常基础的事了,我们现在做的事不仅是合成像人一样自然(life-like)的歌声、说话声。同时,要让AI的声音具备极高的情感表现力(rich-emotion),比如让AI可以达到甚至超过专业歌手的演唱表达,从而为人类提供情感价值。”时域科技创始人兼CEO郭靖告诉亿邦动力,公司正在基于这个能力,为虚拟偶像、数字人提供声音技术支持。

时域科技是一家专注于AI领域的科技公司,致力于让虚拟人满足人类的情感需求,通过“富情感”人声合成技术,赋予虚拟人表现情感的能力。其创始团队由来自腾讯、字节等互联网大厂的产品技术人员以及华纳、传媒大学等艺术背景的人员组成。

时域科技旗下产品ACE Studio能够快速生成媲美录音室录制的人声和歌曲。

作为一家要为虚拟人“注入灵魂”的公司,成立仅3年的时域科技已经拿下了五源资本、顺为资本、知春资本、万物资本的投资,其中五源资本连续加码四轮,包括种子轮、天使轮、preA轮、A轮。

时域科技与国内顶级虚拟歌姬洛天依制作了AI声音建模,为腾讯旗下的虚拟偶像“外来人员·童和光”提供的AI声音模型登上了央视1套的五四特别晚会,在声音合成领域技术能力排名世界前列。

有感情的声音也能量产 “AI音”为虚拟人注入“灵魂”

当下个人PC已经发展超过40年,智能手机也已经普及到全球大众手中,从文字到图片再到当下的视频都已经产生了大量的计算机框架和建模,完成了智能化改造,但有一个领域始终未能被计算机智能化,这就是声音。

做为能够触达人类灵魂深处的交流媒介,声音的信息传达过程和形式极为复杂,从复杂的语言体系到丰富的演唱技巧再到所有能发出声音的器具。声音的互联网化,截至目前也仅产生了语音通话、语音播客、音乐、提示音效、合成器等少数几种。

“声音内容的制作周期长、成本高,其中人声应用范围最广,但好的人声可遇不可求。有辨识度的人声想合作排队都排不上。”郭靖告诉亿邦动力,市场缺少低成本有辨识度的人声,既有优质人声的合作周期和产量都无法满足市场需求,这是阻碍声音市场发展的核心原因。“就看音乐市场,一首歌想要走红,有作词作曲还不够,有一把好嗓子唱出来才行。”

人声通过AI技术建模制作成AI合成声,可以解决人声内容的产量问题,这一技术近些年已经应用于AI智能外呼领域。但怎样批量生产在各种情绪下都具有统一辨识度的AI合成人声,并建立起海量的AI合成人声建模?

这在技术之上,还需要大量工作。

郭靖表示:“我们可以去找有特色的人声买断版权、进行建模,这种方法适合企业打造自己的声音IP。相对于这种挖掘全新优质人声的方法,我们现在在做的是通过AI技术合成新的‘人声’,我们叫做AI音。这种声音既像人声一样顺滑完美,又有着高辨识度让人喜欢。”

时域科技在服务洛天依等客户的同时,已经将这一套技术产品化,现已推出声音合成系统ACE Studio,用于虚拟演唱,可以帮助创作人在灌入词曲的10分钟内甚至数秒间,生成比肩专业录音室制作的完整歌曲。

“使用一台普通配置电脑,单人半日就能将一首歌制作好。”郭靖强调。这将大幅缩短音乐的制作流程,创作歌曲不再需要大量专业设备专业人员配合,彻底改造音乐产业。

相比于容易陷入版权纠纷的人声,时域科技正在投入大量技术力量在迁移学习技术领域,以期批量制作出具有高辨识度的AI声。迁移技术的核心就是通过AI技术学习具有辨识度人声的声音特征,然后以此为标准合成新的高辨识度AI声。

“利用AI技术合成的声音,已经可以接近甚至超过人类的情感表现力。”郭靖强调到。而带有情感的声音相当于虚拟人的灵魂,能够帮助虚拟人快速触达用户的情感,能够一定程度弥补AI智能服务中理解能力的不足,让用户更自然接受有缺陷的人工智能

亿级市场空间 所有应用都可以用AI音再做一遍

当合成人声以低成本在市场高质高量的落地应用之后,整体市场将会迎来一轮新的改造,互联网将是第一波迎来改造。

自从进入互联网时代,图文视频形态快速衍生出的海量产品形态及商业模式,在互联网告诉发展的30年里,音频相关产品及商业模式却停滞不前,甚至受困于互联网免费模式,原有的音频市场快速萎缩崩塌。当下的市场里,音频相关的内容产品既不丰富,门槛又高,商业化与用户需求不相匹配。

高质高量低价的合成人声将改变这一局面。

“现在国内每年仅游戏行业的配音市场在10亿左右,配音率在15%,游戏里大量场景和NPC角色都是没有配音的。利用合成人声技术配音率可以无限提高,配音率提高之后,对于声音市场来说是一个非常大的增量空间;另一方面能还提高游戏的体验,增强游戏的故事性、沉浸感,延长其生命周期。”郭靖向亿邦动力举了一个可以明确市场空间的案例。

而时域科技当下服务的虚拟偶像行业,更是想象力巨大的潜力市场。

“为每个虚拟偶像、数字人都赋予独特而高情感表现力的AI声音,可以不仅在虚拟偶像、虚拟歌手、数字人领域发挥重要价值,更可以改变游戏、社交、电商领域的格局,让AI更好的服务于人,为人类提供情感价值。而我们的技术在打造这样的AI声音基础设施,是具有很低的边际成本的。”郭靖告诉

虚拟偶像背后IP价值是难以想象的金矿,而AI音也带来了超越传统音乐工业的商业模式。对比真人偶像低产量和不确定性,以AI音为基础的虚拟偶像就相当于一个个平台,创作人可以随时创作歌曲并使用工具让虚拟偶像演唱出来。AI音合成工具直接将音乐创作人从冗长的行业运作机制中解放出来,随时随地将自己的创作灵感通过技术和互联网传播给全球每一个人。同时,大量具有高辨识度和受人喜爱的AI音,提高了新歌的打爆几率,扩大了创作人的商业价值。

这也仅仅是音乐市场的变化。面向教育、心理健康、陪伴、游戏和影视等对声音有着高要求的市场,使用AI音将能研发出更多专业应用。例如:影视行业可以大幅减少配音演员,缩短工作流程;游戏行业可以通过大幅增加NPC角色配音,来丰富游戏的故事性;即便是当下火热的网文小说领域为了获得更大的用户群,还需要找专业配音团队进行音频化,而在AI音技术下,网文小说作家可以省去所有中间步骤,从一开始就是基于音频合成软件创作声音剧。基于声音剧,动漫创作者、演员可以自发的进行二次创作,低成本实现影视剧体验。

郭靖表示,时域科技正在研发多语言版本的AI音合成器。

“Yamaha Vocaloid当年做虚拟歌手的初心,是提供标准的音源工具赋能创作者,节约录音的成本和人力的不确定性。但由于当时的技术局限,合成音比较机械,虽然诞生了初音未来、洛天依等优秀的虚拟歌手。但成为标准音源工具的初心并没有实现。而今天的技术做出的AI声音,可以重新拾起Vocaloid当年的议题,让AI声音成为歌曲、游戏、影视等有声内容创作中的标准生产力工具。”

以声音为核心的交互模式,能用更低的软硬件成本为用户提供服务,毕竟智能音箱价格早已降到百元以下。而结合AI音技术能将更精确的情绪传达给用户,相比各种屏幕中的图形交互界面,也是一种更自然更健康的互联网体验。

接下来的AI音的应用生态会是什么样?郭靖表示:“所有跟声音有关的媒介,未来都会有大量AI音的存在。”

直达心智的AI营销来了?虚拟人唱跳带货将近

打造专业的应用服务永远是最难的,而基于现有技术带来的高质高量低成本特性,来为商家品牌做商业化服务,则有更多简单路径。

时域科技一边在研发更先进的技术模型以调教出更优秀的AI音,一边正紧锣密鼓地推出商业化AI音合成服务ACE Studio,另一边也在为各种企业定制专属AI音。

“用户可以按月按年来订阅我们的ACE Studio,一年的费用几千块,最终价格我们还没有定。企业定制专属AI音报价则在10万到几十万不等,因为有些企业只需要将合作的配音老师的声音做AI建模,有些则会要求重新合成新的声音,成本是不一样的。”郭靖表示。

在当下商家品牌在直播短视频中投放日益增高的背景下,拥有一个优质的能够代表企业形象且能保持高质高量低成本生产的声音,对于企业来说将是一笔恒定的品牌IP资产。AI音的出现既能保证企业视频内容中高信息量地输出企业宣传信息,又能保证视频制作的质量和数量,对于企业来说,将成为必不可少的运营工具。

实际上不止如此。

去年蜜雪冰城靠着一首洗脑歌曲成功在全网刷屏,从而成功破圈,成为国内知名品牌。这是国内大部分品牌尚未尝试过的音乐营销方法。相比当下流行的图文视频广告形式,音乐营销更容易触达用户心智,在潜意识里形成长久的记忆点。这种优质的营销媒介,因为成本和爆款几率问题,在国内鲜有尝试。蜜雪冰城也是靠着庞大的线下店面体量,才得以进行实践。

而在AI音合成技术的支持下,音乐营销的可能性被大大提高。

“基于我们的工具的话,制作一首专业歌曲只需要半人日,成本可以压到很低。这个品质是跟录音棚的效果是一样的,当然这个是不考虑创作全新词曲这种不确定周期的。”郭靖表示。

而实际上当下市场中存在大量公共版权曲谱,蜜雪冰城的洗脑歌曲即是采用公共版权的美国民谣《Oh!Suzanna》,公共版权的好处就是无论用于何种用途都无需支付版权费用,且可随意二次加工。

利用公共版权曲谱,商家品牌足以在直播短视频平台做好音乐营销。而已有公共版权的曲谱,运营只需填词就可直接合成歌曲。时域科技目前推出的C端APP ACE虚拟歌姬,就可以在现有歌曲中以简单填词的玩法十分钟内做出一首全新歌曲。

这种模式配合虚拟人唱跳玩法制作视频内容,将进一步提升商业价值。而与虚拟人直播带货模式结合之后,则可以以唱跳的形式回答用户提问,宣传产品特色,形如2021年爆火的美少女蹦迪带货。

当下虚拟演唱会市场正在快速成熟,虚拟人唱跳带货结合主题虚拟演唱会,距离落地并不遥远。

针对接下来的市场发展,郭靖表示:“以富情感的AI声音合成为切入,我们会不断探索AI满足人类情感需求的应用场景,最终成为虚拟人与人类社交必不可少的基础设施,推动AI与人类共生的时代到来。”

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-05-31
AI音为虚拟人注入灵魂 时域科技要打造音频技术生态
利用公共版权曲谱,商家品牌足以在直播短视频平台做好音乐营销。而已有公共版权的曲谱,运营只需填词就可直接合成歌曲。时域科技可以在现有歌曲中以简单填词的玩法十分钟内做出一首全新歌曲。

长按扫码 阅读全文