5月22日消息(岳明)在昨天举行的“GIIC——2024 GPU Infrastructure Innovation Conference暨第四届中国IDC 行业DISCOVERY大会”上,中国工程院院士、紫金山实验室荣誉主任兼首席科学家刘韵洁应邀出席,并发表《确定性网络为AI大模型发展提供重要支撑》主旨演讲。
刘韵洁指出,互联网在消费领域取得了巨大成功,但随着向生产领域和实体经济的逐渐渗透,传统互联网“尽力而为”的网络能力已经很难满足需求,确定性是下一代网络必须面对和解决的问题。这种确定性不仅仅是实体经济和AI人工智能的需求,在消费互联网中也需要。以苹果推出的可穿戴电子设备产品——Apple Vision Pro为例,有12个摄像头,5个传感器,6个麦克风,可以在12毫秒内把一幅高清图像展现在面前,而这就需要确定性网络能力。
在大模型领域,大模型对算力的需求更为迫切,2012年到2023年,算力需求增加了数十万倍,最近五年GPU的算力增加了90倍,但整个网络的带宽才增加了10倍,这个差距现在预示着将来对整个网络带宽的能力、通讯能力提出更高要求,缺口会越来越大。
数据要素确权也是个重要应用领域,怎么把数据要素利用好、管理好,把安全性保护好是非常具有挑战性的问题。没有数据要素,中国在AI方面也会遇到很大的障碍;如果不能对数据要素进行很好的隐私保护和防护,这些数据要素就没法共享,没法流通,AI的发展就会遇到障碍。
另外,在大算力时代,分布式算力是必然选择,“不可能集中在一个地方来做算力,电力问题就解决不了。”对此,我国提出了“东数西算”的布局,但如何把这种算力布局服务到全国各个行业、各个大模型?网络问题怎么解决?这就面临一个很大的挑战——怎样实现远距离无损的传输?
刘韵洁指出,远距离无损传输是一项必须攻克的难题,其中RDMA是一种非常关键的技术,微软的算力中心70%都是采用RDMA无损协议进行互联。华为的试验数据显示,100GE环境下,8节点VGG16模型训练RDMA性能是TCP- IP协议的8倍多。“因为AI高端芯片对中国的封锁,中国单点算力的差距跟美国会越来越大。在网络能力方面,英伟达GB200相较于H100又有了成千上百被的提升,说明什么问题?每个芯片在互联网能力方面大大提升,所以GPU算力跟网络带宽的需求量增长速度,对网络带宽的需求量会急剧增长。”
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。