浪潮信息董事长彭震在生态伙伴大会IPF2024上表示,发展人工智能+,要坚持“以应用为导向,以系统为核心”,着重激发创新活力、拓展创新路径、加速创新落地,推动AI成为千行百业的生产力。
人工智能给整个社会生产力带来了根本性的改变。人工智能改变了生产力三要素,使得劳动者不仅仅是人,而变成了“人+人工智能”,生产资料从传统意义上的有形要素改变成无形,也就是数据。劳动工具发生了巨大变化,过去的工具是人的肢体延伸,但是在人工智能时代,工具成为大脑的延伸,也会产生智慧。
根据权威机构的预测,AI在2023年到2030年间累计对GDP产生的影响将是蒸汽机在1830年至1910年间对整个经济影响的4.5倍。今天我们感觉AI没有那么大的颠覆性,是因为AI还在快速的向人类学习,当AI的智慧超越了人类,我们就会发现AI将以迅雷不及掩耳之势改变世界,而且这种改变是不可逆的。
发展AI,以应用为导向,以系统为核心
推进应用,发展AI产业,要把握住产业的客观规律。首先,应用是AI最重要的要素,应用将会给AI带来巨大的牵引力。其次,AI有三个要素构成,算法、算力和数据,AI的突破是三个要素系统发展的结果,未来的突破要从这三个方向一起发力,而不仅仅聚焦在某一方面。算法是驱动应用发展的直接动力。大模型算法的创新趋势主要是扩大规模和MoE混合专家系统的采用。千亿参数是大模型智能涌现的临界点,而且参数规模越大,涌现的能力越大,在多个垂直领域开始超越人类。混合专家系统是把不同的专家系统组合起来,统一调度形成更好的智能涌现。模型规模从千亿走向万亿,单一模型到混合专家系统,越来越复杂,需要的算力规模越来越大。
算力是AI算法创新的工具,算法的需求拉动了算力的创新。算力的发展不仅仅源于芯片,更源自系统创新。从2017年Transformer架构诞生至今,按照摩尔定律推算,芯片性能只提升8倍,但是通过系统创新,AI计算的性能提升超过1000倍。系统创新涉及方方面面,例如算法精度、计算架构、系统互连等。算法层面,过去大模型精度最开始是FP32,到现在FP8,未来会走向FP4,算力效率不断翻番增长。计算架构层面,从简单的CUDA核心到Transformer引擎,张量计算变成多维矩阵计算,整个计算体系针对矩阵计算进行了优化,让整体性能提升了1000倍。系统互连层面,模型参数量越来越大,万卡成为AI系统设计的起点,超大规模算力平台的效率变得越来越重要,无论是系统内互连还是节点间的互连都直接关系平台效率。GPU间的点对点通信带宽从2017年32GB/s,到今天的1800GB/s,提升了56倍,有效降低了节点内通信开销。对于节点间互连,超级AI以太网诞生,相比传统以太网,让训练效率提高了1.6倍。
数据扮演的角色越来越重要,有人说谁掌握数据,谁就掌握了AI智慧涌现的重要话语权。随着高质量数据的规模增长,模型的精度也会指数级的提高。目前训练数据量越来越大,人类所产生的已知数据对大模型来讲远远不够。通过AI技术合成数据成为一个主要的趋势。可以说,在AI时代要去掌握业务的话语权,就要掌握数据,掌握数据处理能力,掌握数据的创新能力。
总之,发展人工智能+,要以应用为导向,以系统为核心,实现算法、算力、数据三要素的协同发展。落实到具体实践中,就是围绕活力、路径、落地开展创新,以开源开放、多元多模激发创新活力,以系统创新、全局优化拓展创新路径,以协同共生、开放共赢的生态加速创新落地,从而实现AI创新与AI应用协同发展。
开源开放,多元多模,激发创新活力
开源开放是创新活力的源泉,在互联网时代,开源开放打破了过去的技术垄断,使得更多人参与到开源社区,贡献代码,贡献想法,共谋发展。
在AI时代,开源开放会起到更大的、更积极的促进作用。芯片领域,90%以上的高端芯片厂商都支持了OAM开放规范,不同的芯片可以在一台机器上运行,极大的降低了产业创新的难度,降低了技术创新试错成本和适配成本,促进了算力创新。大模型领域,LLaMA2开源平台被众多大模型算法所引用,2/3的大型语言模型都选择了开源。开源开放促进了整个产业的繁荣发展。
开源开放使得AI领域迸发出了大量的创新企业。算力多元化,CPU、GPU、TPU、NPU等各种各样的芯片不断出现,大模型也层出不穷,形成了多元竞争、百模竞秀的良好局面。这不是重复造车,这是对产业极大的促进。从历史来看,很多技术、文明诞生的初期,都是百家争鸣、百花齐放。产业发展初期有很多家企业在创新,随着产业发展,企业会逐渐聚合收拢,与此同时,产业规模将会越来越大,逐步扩张,整个过程呈现一个双漏斗形状。通用人工智能发展初期,应该是百舸争流、大浪淘沙,在市场竞争中不断完善和发展,最终通过市场之手、用户之手来选择。
系统创新,全局优化,拓展创新路径
从具体实践看,千亿参数是大模型智能涌现的门槛,万卡是AI系统设计的起点。这对目前系统的算法效率、计算资源、互连带宽和能效提出了不小的挑战。那么面对这些挑战,系统创新、全局优化具体应该如何展开实施呢?
首先,在算法效率层面,很多大模型平台的利用率都很低,大部分算力被浪费掉了。所以,一个大规模计算系统中,互连、算法等关系整体效率的工作越来越重要。我们曾经在一个芯片平台上做大模型训练,发现平台的互连带宽非常之低,为了克服这样的问题,我们在算法层面做了大量的并行优化,包括优化器参数并行、数据并行、流水并行等,降低了对带宽的依赖,让整个平台效率提升了33%。
其次,通过硬件重构和软件定义解决资源不足的问题。去年我们发布了融合架构3.0,通过高速互连总线实现各类资源解耦,包括CPU和GPU的解耦,当GPU算力不足的时候,我们可以做到单节点16卡、32卡,直至达到CPU与GPU的最佳配比。这是一个全新的架构,打破了以芯片为核心的单机系统设计思路,是以万卡集群做为设计出发点的、以系统为核心的全新架构。当然,有了如此复杂的系统,就要开发相应的感知调度软件,包括业务感知、资源自动调度和弹性扩展,这就是软件定义。
再次,互连会变得越来越重要。过去AI的计算模式叫AI Factory,是一个单一任务的集群,现在出现了一种新的混合模式AI Cloud。面向AI Factory的专用网络无法支持AI Cloud模式下多用户、多任务、多租户需求,因而越来越多的客户将会采用超级AI以太网。超级AI以太网在整个网络底层采用了乱序重组的技术,通过智能网卡推动整个高速网络的效率提升,因而超级AI以太网有着很典型的特点,就是“交换机+智能网卡”的高效整合。
最后,万卡集群中节点内的P2P高速互连距离是非常有限的,最多能做到1-2个机柜之间的高速互连,所以,AI计算必然走向高密度,机柜供电就要从12-16千瓦走到120千瓦,达到风冷极限,散热将逐渐走向液冷。AI计算、液冷和整机柜的结合将成为未来趋势,浪潮信息将持续推动液冷组件标准化、规模化、产业化,最终实现“风液同价”。
协同共生,开放共赢,加速创新落地
我们建立了元脑平台融合左手伙伴和右手伙伴,推动产业AI化。总结过去元脑生态的发展,我们找到了关键路径,这个既是元脑生态工作的经验总结,也是我们在自身智能化转型工作中的体会,那就是要研制AI的开发工具,对伙伴进行工具赋能。
我们建立了企业大模型开发平台,通过工具赋能千行百业。算法、数据等领域的左手合作伙伴可以将新的技术接入到平台里,为所有生态合作伙伴所用;ISV/SI等右手合作伙伴可以在平台上选择各类快速开发工具;用户获得了一个强有力的智能化转型加速器。而且这个平台支持多元多模,创新实现了上层模型算法和下层基础设施的逻辑解耦,即便伙伴和客户要更换算力平台或者模型,都非常方便,试错成本极低。
结语
AI可能是我们人生中面临的最大的产业机遇。这个机遇是颠覆性的,我们希望能够和合作伙伴一起通力协作,面对这样一个百年难遇的人生机遇,携手共同努力,迈向AI的新时代。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )