腾讯云发布新一代高性能算力集群 来进行大模型训练

4月14日消息,腾讯云今日发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群,整体性能比过去提升了3倍。其采用英伟达H800 Tensor Core GPU,能够提供高性能、高带宽、低延迟的智算能力支撑。

据介绍,一个人工智能大模型,通常得用数万亿个单词训练,参数量也“飙升”到了上万亿。这个时候,只有高性能的计算集群能hold住。算力集群的性能,由单机算力、网络、存储共同决定。就像一个牢固的木桶,缺一不可。

H800是英伟达公司2023年为了绕开美国的技术出口限制,特意为中国市场量身打造的一款计算卡产品。与原有的H100相比,其互连速率减掉了一半左右,在某些大型模型训练里的延迟会增加,降低了工作负荷。

腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。在网络方面,公司自研的星脉高性能网络,能让大模型集群训练效率提升20%。

腾讯云的训练框架AngelPTM,对内支持腾讯混元大模型的训练,也已通过腾讯云对外提供服务。在2022年10月,完成了首个万亿参数大模型训练,并将训练时间缩短80%。

腾讯云的TI平台(一站式机器学习平台)拥有大模型能力和工具箱,能帮助企业根据具体场景,进行精调训练,提升生产效率,快速创建和部署 AI 应用。

腾讯云还透露,其自研芯片已经量产,包括用于AI推理的紫霄芯片。它采用自研存算架构和自研加速模块,可以提供高达3倍的计算加速性能和超过45%的整体成本节省。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-04-14
腾讯云发布新一代高性能算力集群 来进行大模型训练
腾讯云今日发布面向大模型训练的新一代HCC高性能计算集群,整体性能比过去提升了3倍。

长按扫码 阅读全文