在AI浪潮推动下,大量新奇的AI应用迅猛而生。但这些应用非常场景化,既需要成熟的CPU和GPU,也需要全新的AI处理器。IPU(Intelligence Processing Unit)就是一种为AI计算而生的革命性架构,如今,IPU已经在金融、医疗、电信、机器人、云和互联网等领域取得成效。
近日,英国初创公司Graphcore发布了第二代IPU以及用于大规模系统级产品IPU-Machine: M2000(IPU-M2000),新一代产品具有更强的处理能力、更多的内存和内置的可扩展性,可处理极其庞大的机器智能工作负载。据了解,IPU-M2000可构建成IPU-POD64这一Graphcore全新模块化机架规模解决方案,可用于极大型机器智能横向扩展,提供前所未有的AI计算可能性,以及完全的灵活性和易于部署的特性。它可以从一个机架式本地系统扩展到高度互连的超高性能AI计算设施中的1000多个IPU-POD64系统。
这款即插即用的机器智能刀片式计算单元能有出众的性能,得益于Graphcore全新的7nm Colossus MK2(也叫IPU GC200),并由Poplar软件栈提供全面支持。
可不要小看那这块IPU,它是台积电7nm工艺的成果,晶体管数量高达594亿个,裸片面积达到823平方毫米。这比两个月前英伟达最新发布的安培架构GPU A100的540亿个晶体管增加了10%。
IPU是一种全新的大规模并行处理器,此前报道,他们已经推出了基于台积电16nm工艺集成236亿个晶体管的GC2 IPU,120瓦的功耗下有125TFlops的混合精度、300M的SRAM能够把完整的模型放在片内。
据介绍,Graphcore最新的MK2对三大技术——计算、数据、通信进行了颠覆性突破:
1.计算
Mk2 GC200处理器是比较复杂的单一处理器,基于台积电7nm技术,集成了将近600亿个晶体管,拥有250TFlops AI-Float的算力和900MB的处理器内存储。处理器内核从上一代1217提升到了1472个独立处理器内核,从而达到有近9000个单独的并行线程。相对于第一代产品,其系统级的性能提升了8倍以上。
说到处理内存,可大致分为两部分:一部分是程序存储(program Memory);另一部分是模型存储空间(Available Memory);当时的MK1拥有300MB SRAM,算是单一芯片里面最大的存储容量,在相同承训存储空间下,MK2拥有更大的Available Memory,相当于6倍以上的处理器内有效存储,大大提高了运算效率。这也使得每个IPU Memory的带宽是47.5TB/s。同时还包含IPU-Exchange以及PCI Gen4跟主机交互接口;互联速度(IPU-Links)也达到了320GB/s。
一个M2000的盒子里集成了4个GC200处理器,具有1PFlops16.16的算力,和近6000个处理器核心,以及超过35000个并行线程,In-Processor Memory达到3.6GB,450GB Exchange Memory。
1234下一页>(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )