AI大模型训练需要怎样的网络?科大讯飞携手华为树立“以网强算”标杆

极客网·极客观察(朱飞)10月9日 ChatGPT爆火激发生成式AI热潮,掀起 AI 大模型领域的“千模大战”。随着大模型训练愈发深入,所涉及的参数规模愈发庞大,业界发现在提升数据中心算力的同时,强化数据中心运力也至关重要——高运力甚至已成为释放大算力的关键因素!

这不难理解,因为对于单卡GPU等AI计算设备来说,网络I/O能力已经是制约算力充分发挥的短板;当大模型进入千卡万卡集群时代后,大规模系统的算力性能和稳定性自然更加受到网络能力的制约。也就是说,网络吞吐率往往决定AI的算力性能,网络可靠性则决定AI训练的稳定性。

如何破局?在9月20日开幕的华为全联接大会2023期间,科大讯飞携手华为数据中心网络宣布启动AI运力底座联合创新项目,同时分享了双方在数据中心网络领域的合作成果,为业界呈现了一个面向AI大模型场景的高运力底座解决方案及应用实践。

AI大模型训练需要怎样的网络?科大讯飞携手华为树立“以网强算”标杆.jpg

讯飞识别大模型训练三大网络挑战:大规模,高吞吐,高可靠

在千帆竞技的大模型赛道,作为AI龙头企业科大讯飞推出的新一代认知智能大模型,讯飞星火认知大模型已经名声在外。在近期新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》,讯飞星火位列国产主流大模型测评榜首位。而在《麻省理工科技评论》中国发布的大模型评测报告中,讯飞星火更是被评为“最聪明”的国产大模型。

据科大讯飞基础设施总监张骁介绍,在讯飞星火认知大模型的训练过程中,团队识别到AI训练对于网络的诉求可以归纳为三个词:大规模,高吞吐,高可靠。

首先是大规模。AI大模型训练涉及的参数规模动则百亿千亿甚至万亿,这需要AI集群调动各计算节点资源,通过高速网络实现互联互通、相互协作才能完成训练任务。这意味着,无论是节点内部还是节点之间,都需要强大的网络去实现规模组网及高效部署。

其次高吞吐。集群架构下的AI大模型训练场景中会存在负载不均衡的情况,且设备网络规模越大,传统负载方式冲突会越严重。要想充分发挥各节点的强大算力提升AI训练效率,就必须确保网络的高吞吐率。这类似于,要想提高车辆的运行速度,在拓宽道路的基础上,还需要解决堵车的难题。

再次是高可靠。大模型训练是一个复杂的系统工程,从数据准备、模型预训练到模型训练,系统稳定运行十分重要,一旦出现网络故障导致训练中断将代价不菲,因而高可靠的网络基础设施是长稳训练的关键。

“星河”联“星火”,华为星河AI网络加速讯飞星火大模型训练

为了提升AI大模型的组网规模及其部署效率、AI训练效率、AI训练网络可靠性,科大讯飞与华为数据中心网络联合创新,利用后者创新的星河AI网络解决方案构筑一个大规模、高吞吐、高可靠的AI高性能数据中心网络,保障了AI大模型高效、稳定、可靠的训练。

首先,讯飞星火认知大模型采用华为数据中心交换机构建超大规模组网,支持了万亿参数的大规模训练。星河AI网络解决方案采用业界最高密的400GE和800GE接口,可以支持高达18000卡的大规模集群组网。

其次,讯飞星火认知大模型采用华为独创的AI加速器,基于华为独创的全局负载均衡NSLB算法、自动化开局和全栈可视运维技术实现算网实时协同调度,在提高网络吞吐的同时,能将网络有效吞吐从业界的50%提升到98%,将大模型训练效率提升20%(内部测试数据效果)。

再次,讯飞星火认知大模型依托华为独家网络数字地图,使能计算网络一体化运维,通信异常一键诊断,将训中排障效率提升了90%,大幅提高了训练的可靠性。

在高运力底座的加持下,依托在通用人工智能领域的持续深耕和系统性创新,科大讯飞于今年5月6日正式发布星火认知大模型,并在6月9日迅速完成迭代升级,又于8月15日重磅发布讯飞星火V2.0,以惊人的速度实现了AI大模型的快速训练与能力跃迁。

9月5日,讯飞星火认知大模型正式开放全民使用,14小时用户数便突破100万,迅速登上AppStore免费总排行榜第一。如今的讯飞星火认知大模型,已经具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等7大核心能力,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。

强强联合继往开来,引领AI模型高性能、高安全网络创新突破

面向未来,为了抓住AI发展浪潮契机,抢占产业制高点,科大讯飞和华为数据中心网络继续深化合作,共同探索产业发展的新道路。为此,双方在本届华为全联接大会期间正式宣布“双子星计划”,启动AI运力底座联合创新项目,共同打造面对AI大模型场景的最佳数据中心网络解决方案。

根据计划,科大讯飞和华为数据中心网络、华为网络安全将继续携手在AI高性能网络的快速部署、极致吞吐、高效运维、安全可靠等四个方向上寻求突破。三方将凝心聚力,共同推动AI大模型创新变革,为AI大模型接入访问保驾护航,通过行业实践和验证加快AI产业化落地,引领社会发展的新进程。

例如,随着越来越多用户通过各种智能应用接入访问AI大模型,面向智算中心与海量用户之间的高效互联,双方将致力于构建弹性高并发的网络能力,支持弹性多路径调度算法,从而使得网络通信的性能最大化,有效地解决网络拥塞问题,减少网络延迟,提高网络通信的可靠性,使得即使是在遥远的乡镇山村也能顺畅享受AI的魅力。

会上,华为还联合中国信息通信研究院、科大讯飞正式发布了《星河AI网络白皮书》(以下简称白皮书),阐述了星河AI网络在AI大规模参数计算场景下的广泛应用前景,并从AI业务的发展趋势、网络架构和关键技术创新三个方面展示星河AI网络在人工智能产业的技术领导力,为构建面向AI大模型的高性能训练网络提供参考。

小结:

智能经济是数字经济发展的新阶段。有报告预测,到2030年,全球智能经济的价值将达到18.8万亿美元。对于驱动智能未来的关键要素,业界已基本达成共识:AI大模型将决定智能经济的高度,数据价值挖掘决定智能经济的深度,而运力、算力和存力协同发展则将决定智能经济的厚度。

从中可见,科大讯飞携手华为构筑AI大模型高运力底座,是在面向AI大模型掀起的智能经济大浪潮,“以网强算”加速行业智能化,即以高运力释放AI时代的高算力,赋能千行百业智能化跃迁。相信随着“双子星计划”的深入推进,双方必将能为业界构筑更好的AI大模型高运力底座,加速释放智能经济的巨大价值!

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-10-09
AI大模型训练需要怎样的网络?科大讯飞携手华为树立“以网强算”标杆
随着大模型训练愈发深入,所涉及的参数规模愈发庞大,业界发现在提升数据中心算力的同时,强化数据中心运力也至关重要——高运力甚至已成为释放大算力的关键因素!

长按扫码 阅读全文