出席2024声网RTE大会,Soul App展现多模态大模型情感交互能力

10月25日~26日,由声网和RTE开发者社区联合主办的RTE 2024实时互联网大会在北京举行。在AI技术突破式发展引发各行业革新浪潮的当下,此次大会主题聚焦“AI 爱”,汇聚行业代表企业、技术大咖、专家学者等嘉宾,共同深度探讨AI为互联网生态带来的新发展。作为AI在社交领域落地的前沿探索者,Soul App与通义千问、MiniMax、智谱等受邀参加开幕式当天的“AI论坛”,展现现阶段最新的技术能力积累以及应用创新方向的更多可能。

出席2024声网RTE大会,Soul App展现多模态大模型情感交互能力

在活动现场,Soul App AI算法技术总监刘忠亮以《实时互动、情感陪伴,开启智能社交新时代》为主题,重点分享了Soul多模态大模型的技术研发脉络,以及围绕社交场景深度打磨多模态交互、情感陪伴、自然反馈等AI能力方向的最新成果和应用实践。

刘忠亮表示,Soul致力于构建一个AI Being与Human Being共存的社交社区,其中,“人”是最为关键的,因此Soul的AI探索从用户的实际社交场景出发,在AI辅助人、解决人与人链接需求的基础上,以更智能、更沉浸的人机互动升级社交体验。“Soul在AI方向的布局有清晰的推进层次,在以AI增强关系建立的效率和质量后,团队探索多模态大模型、重点关注AI如何提供即时的交流反馈和情绪价值。”

2016年上线之初,Soul首先推出了灵犀引擎,基于平台用户站内全场景画像与独特算法,持续挖掘有效特征,实现平台上“人与人”“人与内容”的智能连接,合理分配注意力资源和交流机会,这让Soul在当时成为了较早将AI引入人与人链接的社交平台,并在用户群体中形成了差异化的产品认知。

2020年,Soul正式启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作。2023年,Soul推出自研语言大模型Soul X,成为行业中较早通过备案的科技企业之一,此后,平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。

今年6月,Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言。

2024年,Soul AI大模型能力整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,特别是团队在模型感知能力和推理能力层面的技术突破,叠加端到端方案对延迟问题的解决(现阶段Soul端到端对话模型的延迟低于200毫秒),进一步实现了实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,使人机互动也能具备“在场感”和超拟人属性。

通过在现场展示目前Soul多模态大模型落地在平台智能机器人“AI苟蛋”、AI聊天助理、狼人杀Agent、数字分身以及最新的AI虚拟人智能陪伴功能的实际效果,刘忠亮说,“大模型能力服务人的社交需求,并不只是单点的人机对话,而是在丰富、趣味的社交场景中,以AI建立完善的关系链发现——建立——深化的环节,并让AI为人提供情绪价值,这是Soul在产品应用探索层面的主脉络,目前平台推出的相关功能也受到了用户的广泛认可和积极反馈。”

在不久前结束的全球最具影响力的盛会之一—— GITEX GLOBAL海湾信息技术博览会上,Soul携集成3D虚拟人能力的多模态AI交互方案亮相,在博览会现场接受记者采访时,Soul App CTO陶明表示,“预计今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力。”

这也意味着,Soul将实现真正意义上的AI多模态交互,集合文字、语音、动作交互的多模态大模型,让用户可以在平台实现更接近人类模式的互动体验和更高效、自然、丰富维度的信息传递,真正获得社交体验的颠覆式升级。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )