9月25日,联想在杭州举办以“全栈智能 全程陪伴”为主题的新IT思享会,集中展示了联想基于新IT架构的全栈智能产品与服务,引领行业智能变革的强大实力。
当前,以ChatGPT为代表的AI模型席卷全球,不仅实现了AI技术质变性突破,还推动AI应用与产业融合,加速AI落地千行百业。
在此背景下,联想中国区基础设施事业部架构师耿太平在会上,重点详细解读了联想AI算力战略,以及具体落地实践。他表示:“在实际业务实践中,联想AI导向的基础设施聚焦大模型训练、训推一体、AI For Science和AI生成四大AI应用场景,提供软硬件整体方案来落地联想AI算力战略。”
(联想中国区基础设施事业部架构师耿太平)
锚定AI算力,聚焦四大场景打造AI导向基础设施
全球人工智能发展汹涌澎湃,算力规模不断攀升。截止2021年,中国的算力规模达到203EFLOPS,仅次于美国位居世界第二,年增长率为53%,高于全球平均的增长率10个百分点。会上,耿太平表示,目前AI算力规模已经超过通用算力,未来预计到2026年,仅中国的AI算力规模就会达到1271.4 EFLOPS,年复合增长率达52.3%,AI算力成为算力发展的主要方向。
面对日益增长的AI算力需求,联想在今年8月,正式发布AI算力战略,全面打造以AI为导向的算力基础设施。耿太平介绍道,联想AI算力战略具备AI赋智和绿色赋能两大特征。其中,AI赋智为,100%算力基础设施产品支持AI,50% 基础设施研发投入在AI领域,全面AI技术覆盖全域AI应用;绿色赋能是指,全面布局和引领液冷技术,打造液冷集群方案灯塔,以绿色算力基础设施助推智算产业可持续发展。
(联想全面打造AI导向的基础设施)
AI算力战略引导下,耿太平分享称,在实际的业务实践中,联想推出了AI算力全栈全域框架,聚焦四大应用场景,提供软硬件的整体方案来推动AI战略不断落地。具体来看,联想不仅提供丰富的AI算力所需的基础设施,还通过整合不同算力需求的AI软件平台,高效覆盖大模型训练、训推一体、AI for Science和AI生成四大应用场景,从而更好地赋能AI行业生态。
耿太平进一步阐述道:“AI大模型训练服务器和AI训推一体服务器+Lenovo AI Master软件的方案,可以覆盖大模型训练和训推一体场景的应用;科学计算异构服务器+LiCO软件的组合,可以覆盖AI for Science场景的应用;AI生成服务器+NVIDIA OVE软件的组合,可以覆盖AI生成场景的应用。”
截至目前,联想已成为全球第三大AI基础设施和服务器供应商,全面覆盖云端、边缘算力场景,同时满足AI大模型和传统模型的训练、推理需求,并实现AI应用场景的深度覆盖,目前已实现智慧制造、智慧医疗、地质勘探等领域的应用。
澎湃算力,构筑坚实AI基础设施底座
AI通用大模型以燎原之势席卷全球,带动算力需求和参数量呈指数级增长,构建满足其发展的AI算力最为紧迫。
第一大场景是AI大模型训练。会上,耿太平分析称,Open AI最新GPT-4模型算力需求是GPT-3的59倍,模型参数量是GPT-3的10倍以上。为满足大规模数据训练需求,AI算力基础设施需具备纵向高性能扩展和横向灵活扩展能力。联想在今年8月推出的联想问天WA7780 G3 AI大模型训练服务器很好的满足了这一需求,具有澎湃性能巨幅提升、灵活架构按需配比和扩展不同算力等特点。
(联想问天 WA7780 G3 AI大模型训练服务器)
性能方面,该服务器可提供32PFLOPS的AI算力,支持高达400Gb/s的高性能网络,拥有高达640GB的HBM3高速显存。由于搭载的H800GPU相较上一代的GPU AI性能有高达3.44倍的提升,同时升级了第4代Tensor Core和 Transformer的引擎,使得大模型AI训练提升9倍,大模型AI推理性能提升30倍。灵活架构方面,该服务器通过采用了GPU Direct Storage (GDS) 技术,让GPU与NVMe直接进行数据的通讯,同时实现GPU与NVMe 灵活配比(1:1或2:1),大幅提高程序载入数据的速度,提升大模型训练的性能。
第二大场景是训推一体场景。为应对大模型推理和传统训练以及云游戏、模拟仿真等多元算力需求,联想问天WA5480 G3 AI 训推一体服务器可支持业界主流的PCle规格的AI加速卡,可以按照场景要求模块化配置GPU算力。该服务器还支持丰富生态,通过对系统拓扑和结构的兼容性设计以及软件的调优,可支持Intel、寒武纪、摩尔等多元AI芯片。此外,该服务器安全可靠,通过N+N冗余的电源设计和动态的软件监控,可确保无间断运行和稳定的性能。
可以看出,联想问天WA7780 G3 AI大模型训练服务器和WA5480 G3 AI 训推一体服务器专为AI大模型而生,满足AI大模型所需的数据训练和推理需求。耿太平还表示,两款服务器在保证高性能的同时实现了低功耗运行。其中,联想问天WA7780 G3 AI大模型训练服务器通过创新三层独立风道设计,根据不同的部件,散热特征进行优化,可以节省散热功耗1000瓦。
绿色算力,加速AI技术高效利用
除了AI大模型蓬勃发展, AI技术与产业融合带动AI应用不断落地掀起产业智能化变革。联想不仅聚焦通用人工智能领域,还看重AI与产业深度融合,致力于为行业智能化变革打造算力“新基建”。
第三大场景是AI for Science,科学计算和AI在加速融合。一方面AI算法科学应用实现了创新发展。如在气象领域,ForecastNet模型可将气象预测的速度提升4.5万倍。在生命科学领域,Alpha Fold2可以帮助科学家精准预测蛋白质的结构。另一方面,针对计算密集型应用,原来在CPU上的科学算法在不断向异构计算进行迁移,如材料科学领域的VASP和冷冻电镜RELION,因此当前科学计算算力基础设施既需要满足传统的科学计算,又需要兼顾日益增长的AI需求。
基于此,联想推出了科学异构计算服务器——联想Think System SD650-I V3。这款服务器可实现异构多元,CPU和GPU的比例是1:2,可以进行最佳的异构计算。此外,GPU的双精度算力单节点额可达到210TFLOPS,GPU之间可通过XeLink进行高速互联。该服务器还具有极致高密和绿色节能的特点:42U整机柜可以支持多达144颗GPU,提供7.5PFLOPS的双精度算力; PUE小于1.1, 全水冷设计,零噪音,可支持余热回收。
(联想Think System SD650-I V3)
最后一个是AI生成场景,即 AI生成技术与各行各业深度结合,在未来数字工厂、数字孪生地球、火势蔓延模拟、5G信号模拟等虚拟应用场景加速落地,不断刷新AI创新行业的想象力。而这些应用背后都需要强大的AI算力支持,逼真且低延迟的渲染能力、整合离散的设计工具和协同多人在线实时工作能力等。
联想在这些领域进行了领先布局,推出了AI生成OVX基础设施方案。该方案包含高速全闪存储(DSS-G)用于存放海量的数据、国内首款OVX3.0认证的AI生成服务器,OVX SR675 V3,搭载英伟达 Omniverse Enterprise软件一起来提供AI+渲染能力,同时可实现多种软件工具和多人多地的在线实时协作,还包含高速的交换机,为纵向和横向的扩展部署提供便利。
(联想AI生成OVX基础设施方案)
耿太平表示,在AI浪潮下,AI正加速与产业融合推动智能生产力重塑产业。联想将以AI赋智、绿色赋能全面打造AI导向算力基础设施建设,为助力AI赋能行业提供源源不断的发展动能。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )