英伟达发布创新AI模型Fugatto：音频领域的“瑞士军刀”

全球领先的计算技术公司英伟达近日宣布了一项革命性的创新成果——Fugatto，一款基于生成式Transformer架构的人工智能模型，被誉为音频领域的“瑞士军刀”。

Fugatto拥有25亿个参数，并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练，使其能够执行多种复杂的音频生成和转换任务。这款模型专为音乐、电影和视频游戏制作人设计，旨在帮助他们以前所未有的方式创作和编辑音频内容。

据NVIDIA应用音频研究经理Rafael Valle介绍，Fugatto的研发目标是创建一个能够像人类一样理解和生成声音的模型。它不仅能够根据文本描述生成音效和音乐，还能实现如将钢琴演奏转换成人声歌唱、改变录音的口音和情绪等高级功能。

对于音乐制作人来说，Fugatto将极大地提升工作效率和创意空间。他们可以快速制作音乐原型、尝试不同的风格、声音和乐器，同时提高现有轨道的音频质量。广告代理商和视频游戏开发人员同样能从中受益，前者可以快速调整广告活动的口音和情感，后者则能动态创建游戏内音频素材或修改预录制的音频。

Fugatto的创新性体现在多个方面。首先，它采用了ComposableART技术，能够在推理过程中组合在训练期间单独学习的指令，如将法国口音与悲伤情绪相结合。其次，该模型具有指令插值能力，允许用户对文本指令进行精细控制，如调整重音和情绪强度。此外，Fugatto还能生成随时间变化的声音，如模拟暴雨逐渐增强又慢慢消失的场景，为音景创作提供了更多可能性。

最重要的是，与大多数只能重现训练数据的模型不同，Fugatto能够创造出全新的音景，如雷雨逐渐缓和为黎明的场景，展示了其在音频生成领域的无限潜力。

随着Fugatto的发布，英伟达再次展示了其在人工智能领域的领导地位，为音频创作和编辑带来了前所未有的创新和便利。这款“声音的瑞士军刀”无疑将在音乐、广告和视频游戏等多个行业中发挥重要作用，开启音频创作的新纪元。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

英伟达发布创新AI模型Fugatto：音频领域的“瑞士军刀”

下一篇