极客网·人工智能 近日,中国电信在人工智能基础设施领域取得重大突破,率先完成了1024卡千亿参数大模型的500公里分布式联合训练试商用。这一成果不仅为AI大模型的高效训练提供了新的技术路径,也为我国“东数西算”等国家战略工程的落地提供了有力支持。
核心技术突破:长距离、大带宽、低延迟的算力协同
此次试商用的核心挑战在于如何实现长距离、大带宽、低延迟的算力协同。中国电信通过自主研发的“广域智联无损网络”技术,在天津武清至北京瀛海之间构建了一张长达500公里的真实光路环回网络。这一网络成功将千亿参数大模型的分布式训练性能提升至单数据中心效能的97%以上,几乎达到了与本地数据中心相当的训练效率。
据北京电信相关负责人王轶介绍,关键技术亮点在于采用800G广域无损传输技术,将带宽收敛比提升至32:1,有效解决了长距离传输中因网络拥塞导致的丢包问题。王轶表示:“通过WSON(光波长保护)技术,我们实现了链路中断的无感知切换,保障了训练的连续性与稳定性,切换时间仅为50毫秒,几乎可以忽略不计。”
智算平台赋能:提升部署效率与商用价值
除了网络技术的突破,中国电信还利用“息壤”智算平台,集成了跨地域算网协同、自动并行、断点续训等功能。这一平台能够实现故障秒级定位与分钟级恢复,大幅提升商用模型的部署效率。通过这些技术手段,中国电信不仅优化了大模型的训练过程,还为AI基础设施的协同发展提供了新的思路。
解决传统模式痛点,推动“东数西算”落地
当前,AI大模型训练对算力的需求呈指数级增长。然而,传统单数据中心模式受限于物理空间、能源成本与地域限制,难以满足日益增长的算力需求。中国电信此次突破的核心价值在于,通过跨地域算力整合,将分散的数据中心转化为“虚拟超级计算机”,极大降低了训练成本,同时为“东数西算”等国家工程提供了可落地的技术路径。
“东数西算”工程旨在将东部地区的数据计算需求转移到西部地区,充分利用西部的能源和算力资源。中国电信的500公里联合训练技术为这一工程提供了重要的技术支撑,使得跨地域算力调度更加高效、稳定。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )