Soul App语音生成大模型上线，支持拟真人、多语言实时对话互动

和喜欢的虚拟人实时通话是一种什么样的体验?

近日，社交平台Soul App(以下简称“Soul”)语音生成大模型上线，同时自研语音大模型“伶伦”正式升级，现阶段，Soul语音大模型“伶伦”包括了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等，可支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等能力。目前，“伶伦”已应用于Soul “AI苟蛋”、站内狼人游戏“狼人魅影”AI语音实时互动、独立新产品“异世界回响”等场景。

Soul上线于2016年，依托技术和产品模式创新，平台持续推出受用户欢迎的社交玩法和多元社交场景，例如，多对多语音实时互动场景“群聊派对”、一对一互动场景“语音匹配”等，帮助用户基于兴趣相遇同好，提升关系发现的质量和效率，沉淀深度社交网络。

一直以来，声音都是传递信息和情感的重要媒介，也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul，用户积极通过语音实时互动，表达自我、分享交流，收获新关系，“语音社交”也成为平台颇具代表性的标签之一。

与此同时，作为率先将AI引入社交关系的平台，Soul不断思考如何将AI应用于社交具体场景，进一步实现交互效率、交互质量、交互体验、交互对象等多方面的提升和拓展。2020年，Soul系统启动AIGC的技术研发工作，并在智能对话、图像生成、语音技术、虚拟人等方面拥有前沿的技术积累。

其中，在语音探索方面，Soul基于平台沉淀丰富且多风格的高质量公域语音数据，推出自研语音大模型“伶伦”，在深度融入站内“AI苟蛋”等场景提供多模态互动体验外，还推出了系列趣味社交玩法和活动。

如Soul于2023年上线了“Soul次元歌手”活动，帮助每个人打造自己的AI歌手分身，让很多热爱音乐但不一定会唱歌的人，也能实现“唱歌自由”;“懒人KTV”活动则在音色克隆的基础上，创新性实现多人UGC“AI合唱”。基于音乐模型个性化的创作能力，平台的“AI帮你出灵魂专辑“活动，使用户自由输入任意作曲的主题关键词，即可一键完成词曲创作。

此次，新升级的“伶伦”在训练数据规模和模型架构上均实现了拓展和创新，实现了更真实自然、更多样性和更细颗粒度的控制效果以及流式超低延迟的生成。特别是上线的语音生成大模型在多风格多情感可控、超自然人声生成、多语言切换等方面表现出色。

具体来说，在多情感可控上，“伶伦”能够实现对情绪的深度理解和模拟，在语音生成和对话中表现出不同情感;在声音颗粒度上，支持包括吸气、喘气、笑声、结巴/重复、咳嗽、叹气、哭声等一系列副语言语音合成，声音效果更真实生动。

值得一提的是，基于新升级的“伶伦”，Soul站内应用场景中多模态互动体验显著提升，例如狼人游戏“狼人魅影”中AI可实现实时发言，流畅完成刀人、悍跳等玩法交互。

此外，独立新产品“异世界回响”，提供多种场景、风格的虚拟人角色，每个虚拟角色具备形象、声音、人设对话能力，用户可与虚拟角色进行沉浸式即时交流。新上线的“语音通话”功能，在“伶伦”支持下，能够让用户体验与虚拟人实时语音通话效果，延迟时间少于行业平均水平，更快响应用户互动需求，提供即时的AI交流和陪伴。

根据Soul发布的《2024 Z世代AIGC态度报告》，三分之一的年轻人表示愿意和AI成为朋友，人机互动已然成为年轻人中的社交新趋势。大模型应用深入人机互动场景，发力语音、视觉等多维度，无疑将进一步提升用户社交体验。

当下，大模型竞赛的焦点正从模型参数延伸至具体应用场景。Soul App CTO陶明在接受媒体采访时表示，“新一轮AI发展中，关注场景和交互体验将会是必然的趋势。”

基于对社交场景的深刻理解，Soul将围绕用户的实际使用场景和核心社交需求，不断提升技术能力，从AI推荐关系到AI辅助对话，从降低表达门槛到提升互动体验，推进AIGC技术与社交场景的深度融合，实现AI原生社交场景创新。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）