2024开放计算中国峰会:开放激活社区,全向Scale创新加速AI发展

8月8日,2024开放计算中国峰会在北京举行,开放计算如何加速人工智能发展成为大会焦点话题。智能时代,大模型正在重构AI基础设施,数据中心迎来算力、网络、存储、管理、能效的全向Scale创新挑战,需构建全球化的开放协作平台,合力解决上述重大问题,通过对人工智能基础设施的全面优化,为AI发展赋予无限可能。

2024开放计算中国峰会由开放计算社区OCP及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办,以“开放协同:协作、智慧、创新”为主题,聚焦数据中心基础设施、人工智能创新、开放计算生态、绿色计算发展、开放系统&CXL等议题,包括百度、阿里云、中国工商银行、字节跳动、三星、浪潮信息、英伟达、伟创力、Solidigm、英特尔、世纪互联等在内的社区领袖、技术大咖、行业专家,以及千余名IT工程师和数据中心从业者参与大会。

社区激发创新活力,全球化协作平台加速AI创新

生成式人工智能的飞跃式进步正在加速智能时代的到来。在Scaling law约束下,随着大模型参数量的持续提升,计算当量与数据量亦随之激增,数据中心基础设施所面临的全方位创新,将越来越依赖于更加广泛的全球化开放协作,加速AI技术创新与应用,共同构建一个人机高度交互的智能世界。

OCP基金会理事David Ramku(Meta 数据中心基础设施高级总监)表示,“生成式人工智能的增长正在重构数据中心的生态系统,开放计算项目的全球化协作创新模式可以最大限度激发创新活力。OCP将继续投资关乎未来的战略性技术,如人工智能和机器学习、光学技术、先进的电源管理和冷却技术、Chiplets等,为应对IT生态系统的新变化做好准备。”

OCTC秘书长陈海认为:“应用是中国人工智能产业的核心优势之一,理应让用户参与到人工智能的探索和应用中,从用户思维出发制定更切实落地的规范标准,以此有效降低技术获取成本,推动和加速数据中心各领域的技术创新与成果普惠,让更多的组织和个人从中获益,这是开放社区长久繁荣的核心所在。”

正因为意识到开放的力量,开放计算受到越来越多公司的支持并积极投身其中。在过去的三年中,OCP的成员数量从250多家增长至360多家,增幅接近50%,社区项目和子项目数量超过40个。与此同时,OCTC的成员数量也在一年内迅速翻倍,从40多家增长至近百家,快速构建起包含基础设施、测评与服务、运维管理等在内的标准框架,并将通用计算、柜计算、AI异构、液冷等列入标准化建设的重点内容。

AI重构数据中心基础设施

生成式人工智能正在重构数据中心基础设施,对计算效能、存储容量及性能、网络方案、资源调度管理、能效控制与管理各个方面均提出更高要求,全向Scale能力成为构建先进AI基础设施的核心。在本届峰会上,包括CXL技术、面向AI的网络架构、首款16通道PCIe 5.0 TLC固态硬盘等一大批创新技术与产品方案,将进一步提升人工智能基础设施的Scale能力。

百度集团副总裁侯震宇指出,在大模型时代,预计未来十年内,AI算力需求将呈现爆发式增长,并行计算成为实现大模型黄金法则Scaling Laws的最优解。AI新基建正推动产业链全面变革,展现出“极致高密、极致互联、极致规模”的重构特征。

阿里云基础设施超高速互联负责人孔阳认为,随着云计算和AI大模型应用的快速发展,计算规模呈现出数千数万倍的增长,单任务的计算量也成百上千倍的增长。但受制于芯片在算力密度、访存规模和带宽的迟滞,服务器机柜级Scale up互连成为当下技术热点, 作为开放生态系统,Scale up开放生态系统ALS和CPU内存扩展的CXL技术生态已成为行业的重要方向。

中国工商银行数据中心资深经理陈庆提到,AI大模型的部署对算力底座提出新的要求,包括多算力中心互联,提供不同等级按需服务,实现网络和计算资源的统一管理和编排,同时要兼顾性能和连续运行,减少故障中断,并通过空间分割部署不同功率密度及液冷产品,以支撑AI应用。

三星电子副总裁、先行开发团队负责人张实完表示,生成式人工智能带来数据量的激增,对存储的高容量、性能和低功耗提出前所未有的高要求。需要开发承载海量数据的存储产品,以满足AI时代对存储容量的巨大需求,为AI模型训练、大数据分析等应用提供强有力的存储支持。

浪潮信息服务器产品线总经理赵帅认为,算力迭代是Scale up与Scale out并存迭代、快速发展的过程。现阶段,开放加速模组和开放网络实现了算力的Scale,开放固件解决方案实现了管理的Scale,开放标准和开放生态实现了基础设施的Scale,未来要以开放创新加速算力系统全向scale,应对大模型Scaling Law。

字节跳动资深网络架构师霍朋飞表示,大模型训练、推理等AI业务需求快速迭代,对网络带来新挑战。超大规模GPU的协同训练对网络底座的规模、性能、成本提出高要求。开放、软硬协同、端网融合的网络架构,已成为高性能高稳定互联的基石。

英伟达网络高级总监宋庆春认为,数据中心走向了AI工厂和AI云两个新型的应用场景,超大规模分布式并行计算成为新型应用场景的关键特征,网络成为了决定数据中心性能的核心。支持高带宽、低延迟、零Jitter、网络数字孪生、网络计算、动态路由、应用性能隔离等技术的新型AI网络应需而生。AI网络将AI数据中心的算力性能提升到了极致,将会极大保护用户的投资。

开放算力模组规范(OCM)立项,推动“一切计算皆AI”

生成式人工智能的快速发展,带来了更加丰富的智能应用场景,而智能应用的繁荣必然使得推理需要更多的算力来支撑,通用算力作为一种更加普遍且更易获得的算力,一旦拥有AI计算的能力显然会大大加速智能化进程。但目前x86、ARM、RISC-V等不同架构的CPU协议标准不统一,导致硬件开发、固件适配、部件测试等耗时巨大,同时为了更好的适合AI推理高并行的计算特点,CPU总线互联带宽、内存带宽及容量也需要特别优化,使得系统功耗、总线速率、电流密度不断提升……多种因素叠加之下,算力系统的设计与开发周期漫长且成本高昂。

在CPU多元化发展的趋势下,如何快速完成CPU到计算系统的创新,使其能够适用于AI推理负载,已经成为缓解当前AI算力稀缺、推动人工智能发展的关键环节。

为此,会上开放算力模组规范(OCM)正式立项,首批成员包括中国电子技术标准化研究院、百度、浪潮信息、英特尔、AMD、小红书、联想、超聚变等,以CPU、内存为核心构建最小算力单元,兼容x86、ARM等多架构芯片的多代处理器,方便用户根据应用场景灵活、快速组合。OCM开放标准的制定,能够为用户提供更多通用性强、绿色高效、安全可靠的算力选择。

值得关注的是,OCP首次设立了开放计算最佳创新奖、开放计算最佳实践奖和开放计算生态贡献奖,以此表彰在上述领域做出卓越贡献的社区成员。首届开放计算最佳创新奖由阿里云、三星和村田获得,百度和字节跳动获得开放计算最佳实践奖,浪潮信息和安谋科技获得开放计算生态贡献奖。

此外,大会还发布了开放计算十大创新成果,包括超大规模数据中心部署指南、Evenstar开放式5G平台、液冷式人工智能加速卡设计技术要求等等,进一步体现出开放计算在数据中心领域所具备的创新活力。随着社区活力的激发、跨社区合作的增多、标准与规范的持续完善,创新的边界将得到进一步拓展,开放计算将为AI创新赋予无限可能,推动人工智能更加深刻地重构数据中心生态。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )