阿里云全面升级GPU云服务，AI大模型推理性能可提升100%

7月19日，阿里云推出全面升级的GPU云服务，通过全新优化GPU套件，多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术，阿里云推出ACK云原生AI套件，帮助开发者及企业更高效地开发和部署AI应用，加速大模型应用落地。

图片1.jpg

随着AI大模型的体量变大、应用变广，单GPU已难以承载推理应用的全部需求，多GPU推理时代已经到来。如何在GPU资源紧缺的当下，实现GPU高效互联，是提升多GPU推理性能的关键。阿里云通过进一步优化底层的AI通信加速库DeepNCCL，让GPU云服务在推理场景下有更好的性能表现：在同等硬件环境下，Token输出吞吐至少提升14%，首Token时延降低15%。通过深度优化，推理加速性能也提升显著，Token处理能力提升100%，相同的资源可以支持2倍的业务需求。

用Kubernetes容器集群技术调用GPU算力，已成为运行AI大模型任务的主流选择。ACK容器服务可提供自动化编排及GPU高效管理和调度的能力，让模型部署、扩展变得更简单。为进一步提升AI应用运维效率，阿里云推出 ACK云原生AI套件，可实现 Kubernetes 在 GPU 调度和细粒度共享、AI 任务调度、训练数据加载以及大模型推理服务启动等关键领域的能力增强和加速，相较开源均有大幅能力提升。比如，针对AI任务频繁加载远程存储数据的需求，ACK云原生AI套件可提升训练数据读取性能30%以上，降低大模型推理服务冷启动时延70%以上。

在全球累计超过1000万活跃用户的国产AI绘画工具海艺AI，就是通过ACK调用阿里云GPU云服务的先行者。此前，用户通过海艺AI生成一张图片平均耗时20秒，遇到队列等待延迟可上升至分钟级；采用阿里云GPU云算力及ACK容器服务后，海艺AI的模型切换完全无感，推理耗时降低至3.95秒，整体性能提升至少50%以上。

在最新的Forrester 全球AI基础设施解决方案研究报告中，阿里云综合产品能力指标位居全球第二，已成为中国AI大模型的公共底座。零一万物、百川智能、智谱AI、昆仑万维、vivo、复旦大学、巨人网络等大批企业和机构在阿里云上训练大模型，并通过阿里云对外提供服务；小鹏汽车、联想、德勤、微博、完美世界、喜马拉雅等已接入阿里云通义大模型，在阿里云上为消费者和客户提供丰富的AI应用服务。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

阿里云全面升级GPU云服务，AI大模型推理性能可提升100%

下一篇