ChatGPT 诞生一年后,以Sora为代表的 AGI 实现突破性进展,再度引爆了高性能计算市场。面对以天为单位飞速迭代的算力需求,以及单个处理器性能的增长困境(Scale up),促使企业转向扩展计算集群规模,踏上Scale out 之路。从此,行业所面临的核心挑战也从“单个芯片-集群”,“算力-互联”转变。伴随AGI的诞生,互联元年同步开启。
2024年3月5日,互联领域先行者奇异摩尔在“奇芯合粒 异往无前”2024春季发布会上正式推出了基于 Kiwi SoChiplet Platform 的全系列互联产品及全栈式互联解决方案。该系列产品包含“高性能互联芯粒IO Die、高性能互联底座 Kiwi 3D Base Die、UCIe 标准 Die2Die IP以及网络加速芯粒NDSA Family”,全面覆盖片内、片间直至网间的互联场景。基于IO Die,奇异摩尔及合作伙伴Ventana宣布共同推出了全球首款服务器级的RISC-V CPU;同时,奇异摩尔也基于Base Die发布了全球首款3DIC AI芯片“AI Booster”。
UCIe Board member 陈健在发布会上表示“在Deep Learning、大模型时代激增的算力需求、摩尔定律放缓、封装技术演进”等多种因素的共同作用下,Chiplet和IO Die为代表的互联芯粒因在良率、先进制程解耦、复用能力等方面所显示出的优势,成为了历史的选择。基于Chiplet架构和通用互联标准,一个开放性、跨公司、支持规模化复用的“货架芯片”市场正逐步成为全行业的愿景。 这一愿景依赖于模型创新和无尽的算力需求。如今,从微软到谷歌,从阿里到字节跳动,万卡集群俨然成为大模型训练的标配。想支撑更大的模型,算力基础设施和生产方式必须同步转变。首先,异构加速和超大规模平台,使更大规模的集群设计成为可能;其次,想通过Scale Out方式提升集群算力,必须从网络层面着手,互联三要素 “Bandwidth, Efficiency, Workload”缺一不可。
在网络侧,奇异摩尔自研的高性能网络加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列,内建RoCE V2 高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒,实现系统不同位置的加速。同时,通过硬件可配置,软件可编程的灵活软硬件架构,能够满足客户对复杂业务场景的多样化需求。得益于Chiplet、RISC-V和FPGA的灵活组合,Kiwi NDSA 出色的平衡了通用与专用,性能和成本间的矛盾。 据奇异摩尔产品及解决方案副总裁祝俊东介绍,奇异摩尔NDSA家族产品之一,“NDSA-RN-F”将于近期问世。作为全球首批200/400G的高性能FPGA RDMA网卡,“NDSA-RN-F”具备极高的集群扩展能力,可以大幅提升集群节点间的东西向流量交互效率,使得更大规模的集群设计成为可能。同时拥有us级超低延时,支持约数十 MQP高并发,性能远超同类FPGA产品,并媲美全球标杆 ASIC产品。 NDSA家族产品之二,全球首款支持800G带宽的RDMA NIC Chiplet产品 “NDSA-RN”。其性能更为强劲,除带宽升级到800G之外,延时也降至ns级,并支持数十GB的超大规模数据包,性能将超越目前全球标杆ASIC产品。 网间互联的瓶颈与痛点,并非为云服务厂商独有。存算一体的环境中,互联芯粒能有效提升系统性能、集成度、可扩展性和可靠性。亿铸科技副总裁李明表示,AI大算力芯片竞争核心正逐渐转向 “存储、算力,破除墙”等挑战。存算一体在破除“存储墙”方面具有先天优势。亿铸致力于结合存算一体+Chiplet芯粒优势,在AI算力芯片产业格局的基础上,贡献更具性价比、能效比、算力发展空间的AI大算力芯片发展新路径。
芯片间互联场景,受AI等各类大算力场景的驱动,计算架构将从异构计算进一步走向多种异构融合的超异构并行计算,片间互联瓶颈进一步凸显。NDSA家族产品之三,奇异摩尔自研的全球首创GPU Link Chiplet “NDSA-G2G”,通过RDMA和D2D技术,在芯片间搭建了高速数据交换网络,可实现近TB/s的超高速数据传输,其性能达到全球领先水平,满足AI芯片对于片间交换不断增长的需求。
Die间互联:Die-to-Die IP
Die间互联领域,奇异摩尔宣布将正式发布全球首批支持 UCIe V1.1 的 Die2Die IP “Kiwi-Link”,互联速度高达 32GT/s,延时低至数nS。全面支持UCIe、CXL、Streaming等主流协议,即插即用;同时支持标准封装/先进封装等多种封装形态。
“为达到货架芯粒的愿景,开放互通的D2D标准是关键因素” ,陈健介绍,UCIe 最新1.1标准在1.0标准基础上进行了全方面的升级,其中包括汽车行业增强特性,全栈流协议,封装成本优化和测试认证。作为构建开放芯粒生态的标准组织,UCIe 将通过各方面的努力促成Chiplet生态的发展和成熟。
微观层面,在摩尔定律放缓背景下,为持续提升单个芯片设计规模及能效,片内互联技术创造了新的工程成就。作为发布会的亮点,首次登台亮相的 Kiwi SoChiplet Platform 是奇异摩尔所发布这一系列互联产品的基础。其基于高性能互联网络Kiwi Fabric,可高效连接、调度海量高速节点,实现多Die间高带宽、低延时的互联。
祝俊东介绍:Kiwi SoChiplet Platform在支持芯粒数量、CPU Core、Die2Die带宽、Memory 带宽、Ext Interface 等关键指标方面,均达到国际领先水平。基于该平台,客户可以轻松构建多样化的产品线,实现连接计算和存储/连接的分离,以相对低的成本使产品及性能持续保持国际领先水准。
全球首款数据中心级通用互联芯粒Kiwi IO Die
从Kiwi SoChiplet Platform 出发,奇异摩尔推出了全球首款数据中心级通用互联芯粒 Kiwi IO Die,内部集成了如D2D\DDR\PCIe\CXL等大量存储、互联接口。客户可以根据企业自身需求,围绕IO Die,轻松搭建低/中/高性能的数据中心处理器。该平台最高支持10+Chiplets、构建高达192 core CPU或1000T GPU的算力平台。
发布会上,奇异摩尔及高性能RISC-V领域的领导者 Ventana Micro公开展示了基于Kiwi IO Die的应用方案。双方以远低于传统 SoC 构建的时间和成本创建了一款高性能数据中心级RISC-V处理器,并就此打造了RISC-V CPU Chiplet Platform,实现了RISC-V与互联技术组合的跨越性一步。 在本次发布的RISC-V CPU Chiplet中,计算单元部分,即Ventana Veyron V2处理器,在其前身V1基础上进行了重大升级,提供更好的Performance/W。每个芯粒包括32个核心,多颗芯粒基于chiplet架构,通过UCIe接口,连接到奇异摩尔提供的高性能IO Die上,实现最高192个内核,支持包括奇异摩尔NDSA在内的多种领域加速器。
Ventana创始人兼CEO Balaji Baktha表示:Ventana 和奇异摩尔共同建立了一个可扩展架构,可将多个Ventana Veyron V2 与 奇异摩尔 的I/O Die组成不同配置的SoC,从而获得功率、成本和SKU优化。这种方案不仅提高了灵活性,允许用户根据需要调整AI应用的规模和性能,也能有效避免对单一供应商的依赖,使客户在竞争激烈的市场中脱颖而出。
“RISC-V和Chiplet的目标同为构建一个成本更加低廉,更加普惠的算力世界,二者的组合充满想象力,将会塑造全新的商业形态。” 陈健就此表示。
Kiwi 3D Base Die,为Edge AI提速
随着大模型发展,推理需求不断增长。根据 OpenAI 论文:Scaling Laws for Neural Language Models 测算,Sora 推理算力需求是 GPT-4 的 1000 倍以上。为应对不断飞涨的推理需求,在片内,互联趋势已从2.5D扩展至3D层面。奇异摩尔全球首款通用高性能互联底座 Kiwi 3D Base Die,实现了通用互联芯粒在带宽、能效、搭载芯片数量等多方面的突破性进展。 Kiwi 3D Base Die具有极高的互联密度,通过3D D2D、PCIe等高速接口,能够以20%的功耗实现8倍于2.5D结构的互联密度;其具备卓越的通用性和灵活性,最高可实现16颗算力芯粒堆叠,并可通过高速外部接口连接不同的Host SoC单元,充分利用客户现有硬件资源;同时集成了大容量3D Cache,在真正意义上将存储、计算、互联功能整合为一体。 根据自身需求,客户无需流片,只需在Base Die上封装不同数目的算力芯粒,外接HBM,即可快速形成应对不同场景的高性能芯片,特别适用于覆盖多个细分垂直市场的企业。
基于3D Base Die,奇异摩尔面向Edge AI,正式推出了全球首款通用3DIC Chiplet “AI Booster”,将32颗存算一体芯粒单元整合在一起,通过底层的Base Die进行垂直互联,从而实现性能和灵活性的完美兼容。
针对AI Booster设计方面的经验,奇异摩尔封装与运营总监徐健表示,Chiplet 设计可以理解为Die-interposer-Package协同设计的结果。不同于传统的封装设计,Chiplet的设计更为复杂,需要从系统层面定义好整体设计思路,包括架构、片内互联方式、封装结构和工艺等,并需要架构、电路、封装设计和工艺团队的紧密配合。
当然,Chiplet作为一种新的设计方式,离不开专业EDA工具的支持。芯和半导体联合创始人代文亮博士表示,奇异摩尔本次发布的多个2.5D/3DIC产品为例,其设计正是基于芯和3DIC Chiplet 设计仿真EDA平台,从架构探索、物理实现、分析验证、信号完整性仿真、电源完整性仿真到最终签核的全流程解决方案,极大地提高 了芯片设计的迭代速度,最终实现了如此出色的产品。
为实现更高密度的底层互联,先进封装技术也被赋予了新的、更高的期待。长电科技创新中心总经理宗华博士表示,异构集成已成为高性能计算领域的主流趋势。2.5D/3D先进封装技术有力的推动了高性能计算发展。长电科技目前推出了XDFO-Organic,XDFOI-Bridge,XDFOI-TSV三种先进封装方案,其中,性价比最高的方案为XDFOI-Bridge,可以通过先进封装技术把各种功能单元集成在一起,形成一个高性能的超异构系统,助力高性能计算未来。
奇异摩尔研发副总裁温德鑫在发布会现场介绍了奇异摩尔的2.5D/3D design Platform。该平台由奇异摩尔和UMC等产业链伙伴合作打造,全面涵盖从系统探索、规划,2.5D/3D 设计验证,生产和验证,量产管理的Chiplet方案。客户可以基于该平台,迅速设计、验证、量产、加速上市时间。
奇异摩尔创始人兼CEO田陌晨表示,Scaling 已成为全行业关注的焦点。无论自然界还是人工智能,在scaling 中,个体间的交流、互联都是促成从量变到质变的核心。系统总算力,由算力、算力密度、互联带宽、IO带宽、存储带宽共同决定。互联是唯一无法通过Scaling 提升的参数。奇异摩尔作为一家专注于互联技术的企业,致力于通过互联技术的创新,提升互联密度的壁垒,助力AGI时代技术语言统一的可能性,与众合作伙伴,共同建造AGI时代的巴别塔。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )