阿里云CIPU下笔惊雷,方寸间书写中国算力故事

原标题:阿里云CIPU下笔惊雷,方寸间书写中国算力故事

“当其下笔风雷快,笔所未到气已吞”,看到阿里云CIPU发布的消息,我脑海里第一时间冒出了苏轼的这句诗。

开启工业革命序幕,让蒸汽机、铁路和煤炭成为主要能源的是英国发明家瓦特;让灯泡和电力走入所有人生活的,是美国发明家爱迪生;现代计算机和互联网成为信息时代的基础设施,变革诞生在美国西海岸。今天,所有人都将算力看作第四次工业革命的基本能源,将与千行百业、社会经济产生深刻而绵长的化学反应,那么这一次,算力基础设施可以由中国来定义吗?

显然,阿里云想尝试一下,并且已经迈出了关键的一步——正式发布为新型云数据中心设计的专用处理器CIPU,展现出取CPU而代之的气势。

CPU制霸计算产业半个世纪之久,CIPU要另起炉灶何其难也。作为读者或许会疑问三连:凭什么?为什么?怎么做?我们不想直接给答案,从大家感兴趣的问题出来进行逻辑推演,读者自然会思考并得出自己的答案。

提笔:凭什么是中国?

有一句流行歌词:没有人能在我的BGM里打败我。听起来十分自信,不过,这份自信很长一段时间是属于美国的。1971年,英特尔生产的4004微处理器标志着CPU的诞生,随后与微软的Windows系统一起组成了著名的“Wintel”联盟,成为计算产业的现实标准,被广泛应用于PC、高性能服务器以及云服务器中。而众所周知,获取算力的方式,无外乎本地硬件(数据中心)、云计算两种。也就是说,以CPU为中心的计算架构主宰了信息时代,支撑了云计算的崛起。

在这种局面下,中国厂商打算写一段全新的旋律,让别人主动走进自己的BGM里,凭什么?

首先,CPU这张旧船票,可能登不上算力时代的船。英特尔CEO早在几年前就表示过“摩尔定律已死”,CPU性能提升的速度早已放缓,而随着数字化的推进,数据规模、结构和来源越来越广,单一CPU为中心的计算架构,无法满足激增的算力需求,计算架构的创新是现实所需。

其次,围绕CPU形成的服务器、操作系统、中间件、数据库和基础软件等应用及相关服务,很长一段时间内都掌握在欧美主流云厂商手中,中国数字经济要长期可持续发展,对于算力基础设施自然希望有更多选择,这给中国厂商创造了新的机会。

当然,头部云厂商从业务、战略等维度也早就意识到了以CPU为中心的隐患,纷纷开始探索新的算力硬件解决方案。近年来多样性计算架构不断涌现,比如谷歌发布了TPU,AWS发布Arm架构的云服务器,英伟达尝试收购ARM以扩展数据中心业务。图灵奖得主大卫·帕特森与约翰·汉尼斯认为,接下来将是计算架构更新的黄金十年。如果不想在第四次工业革命中依然重复别人的故事,那么,中国就必须在计算架构上落下属于自己的一笔。

落笔:为什么是云计算?

如前所说,CPU在本地和云都有应用,为什么架构创新会率先从云开始呢?答案其实也很简单,更新的图纸有更大自由发挥的空间。

第四次工业革命从云开始,对于中国千行百业的数字化来说,直接调用弹性、高并发、异构的云端算力是更理想的选择;中国云厂商在技术能力、市场规模、生态方面与全球巨头在相同起跑线,像阿里云已经成长为与AWS、微软Azure等同象限的头部云厂商;更重要的是,方兴未艾的数字经济催生了新的算力需求和技术挑战,以CPU为中心的云计算架构越来越力不从心,中国云厂商有着更大的创新空间。

简单来说,云计算架构的创新方向主要有几个:

1.性能升级。云计算一定是性能先行,才能成为千行百业数字化的算力底座,尤其是第四次工业革命中智能技术的大量应用,深度学习对于算力资源的消耗是极大的,要求云处理器提供更强的算力,实现每比特性能最优。不仅需要硬件升级,创新传统计算架构,提升单位算力的效率;还需要软件升级,解决软件定义虚拟化中出现的资源损耗。

2.业务效益。各行各业使用云服务,不单单是降低服务器成本还希望通过云为管道引入新技术,对大量业务数据进行分析处理,释放数据价值,也就是说单位算力所能贡献的GDP要提高。数据密集型的计算越来越多,算力分布在边、端、云、网等多个维度,数据的迁移量和吞吐率也增多,解决超大规模分布式集群之间网络传输、管理的问题,才能满足客户对低时延、高带宽的需求。

3.绿色低碳。上云用数赋智成为趋势,计算无处不在,算力基础设施的能耗问题也引发社会关注,计算产业的可持续发展,需要低功耗、高性能的并发处理能力,减少虚拟化中的损耗,以达到单位比特的能效比最优,满足各行各业绿色低碳、节能减排的发展需求。

方兴未艾的云计算,相当于一张更新的图纸,等待着人来书写底层计算架构范式转换的新篇章,而阿里云用CIPU率先落下了遒劲的一笔。

入木:CIPU怎么解开算力桎梏?

计算架构更新,是必然的未来,对于中国云厂商来说,怎样在自己擅长的技术赛道上建立起差异化优势,就成了当务之急。纵览全球领先的计算厂商,谷歌专门发布了应对AI任务的TPU,亚马逊在云服务器、云端AI推理芯片上也有所突破,以GPU为主营业务的英伟达业尝试进入数据中心业务推出DPU,老牌厂商英特尔也推出IPU,国内也有云厂商推出了自己的计算硬件。

需要注意的是,云端算力实际上受非常多的条件影响,除了芯片的比拼,还有网络、算法优化、集群性能、部署环境、数据处理能力、框架等一系列要素,整体决定了云计算的优越性。阿里云为新型云数据中心设计的专用处理器CIPU,正是考虑到云时代的算力所需,从三个层面进行管控并加速,来解开算力桎梏。

·网络加速。云和硬件的结合,必须依靠网络,管理阿里云全球上百万台服务器并非易事。试想一下,将不同地区数据中心的算力进行调配传输,如果网络不给力,必然会导致数据传输慢、计算慢,大量实时性要求高的任务如自动驾驶、远程医疗、在线教育等,体验就会受到影响。传统以CPU为中心的架构可没办法把手伸到网络层,而CIPU因为接入飞天云操作系统,可以直接通过飞天上的洛神云网络管控物理网络,进行硬件加速,构建大规模的分布式RDMA高性能网络,基础带宽从100G升级至200G,网络时延从22us降低至16us,因此AI任务、科学计算等上云之后,比自建物理机的集群吞吐量提升了30%,延迟自然也就大大下降了。

·存储加速。大量云上客户希望充分释放数据价值,高吞吐、高并发的数据存算,如果存储系统跟不上,相当于一台跑车的油箱只有摩托车那么大,发动机再强劲也跑不快。传统CPU以计算为中心的设计,数据搬运中往往会产生“存储墙”和“功耗墙”,一定程度上影响了并行计算效率。同样的,CIPU与飞天操作系统相结合,能够接入存算分离架构的块存储,并进行硬件加速,让云端存储可以做到比本地存储还快,并拥有极大规模的资源池。通过全硬件虚拟化和转发加速,时延最低可至30us(PLX),IOPS高达300万,存储时延存储带宽可达200 Gbps,全面超越市面上的云产品。

·计算加速。算得快意味着什么?1750 亿参数的 AI 大模型 GPT-3 训练成本约为 1200 万美元,如果算得够快、损耗够小,训练成本就能大大下降。而众所周知,云服务将物理机虚拟池化,过程中或多或少都会产生一定的损耗,CIPU的出现就解决了算力虚拟化的损耗问题。通过与神龙计算平台相结合,将虚拟化转移到专用硬件中进行加速,损耗几乎为零,让云服务器的性能表现超越了传统物理机,还提供硬件级安全的加固隔离,兼具云端弹性扩容的优点。对于云上客户来说,无疑是更低成本、灵活性的选择。

在多种计算架构方案中,“飞天操作系统+CIPU”为中心的新一代计算体系架构,从最底层的核心硬件到最上层的云原生软件进行革新,替代CPU成为云计算的管控和加速中心,无疑是云端算力生产和服务单位价值更高、技术变革更大、基础底座更强韧的一次探索。

风雷:CIPU画出的跑道通向何方?

中国工程院院士、清华大学高性能计算研究所所长郑纬民曾说,过去这些年,我国在云计算领域主要在软件层面有创新,发展了一些开源生态,但还是在传统IT的格局下追赶。

显然,CIPU的出现,下笔如有风雷,撕开由西方主导的计算产业天空,露出未来的一抹天光。乍一看石破天惊,实则是一场酝酿已久的春雨。

前面提到的飞天操作系统、洛神网络、盘古存储,都是阿里云多年不断突破的云计算底层技术,经过深入垂直整合,才最终演进出以CIPU为中心的全新架构形态,解决传统计算架构无法解决的问题。以虚拟化零损耗为例,阿里云相关研发团队早在2015年就开始技术攻关,2017年神龙云服务器的推出,就已经攻克了这一技术难题。目前,阿里云已经建立了芯片、服务器、操作系统、数据库等自研技术底座,在Gartner发布的年度报告里跻身IaaS整体基础设施能力的全球最高分。同时,阿里云也是国内最早实践绿色数据中心的厂商之一。

那么,这场终于降落在华夏大地上的春雨,会带来怎样的变化呢?

首先感受到雨露润泽的必然是各行各业的数字化,CIPU+飞天体系下,云端算力的单位成本更低、性能更优、能耗更低,产业客户会直接受益,用上更加普惠、高效、绿色的算力。

其次,大地滋润后会生长出更多创新,让中国在数字经济占据领先身位。算力正在许多行业中释放潜力,比如云电脑无影,就将高算力工作从本地转移到云端,无需高性能终端,依然可以在云端流畅地打造8K画质体验,对于创作者来说是极大的生产力解放。

更进一步,各行各业的创新和计算软硬件迭代,共同组成蓬勃的新计算生态。就如阿里云智能总裁张建锋在2022年阿里云峰会上所说的那样,“现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地”。

回到底层,回到源头,去做最基础的计算架构创新,阿里云用行动“Back to Basic”,践行“B2B”策略。这也是为什么云计算的范式转化应该发生在中国,发生在此刻。

英国科普作家马特·里德利在《创新的起源:一部科学技术进步史》一书中列举大量事实表明,正如6个世纪以前,欧洲从日益僵化的中国手中夺过创新接力棒一样,中国或许即将再次夺回接力棒。

在CIPU如惊雷般地书写中,中国云计算的新乐章已经写下了开头。何其有幸,我们正见证未来。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-06-17
阿里云CIPU下笔惊雷,方寸间书写中国算力故事
其次,围绕CPU形成的服务器、操作系统、中间件、数据库和基础软件等应用及相关服务,很长一段时间内都掌握在欧美主流云厂商手中,中国数字经济要长期可持续发展,对于算力基础设施自然希望有更多选择,这给中国

长按扫码 阅读全文