未来AI模型训练或许无需专用硬件,分布式训练正改变规则,降低成本的同时提升模型泛化能力。
曾经全球富豪热衷于攀比游艇、私人飞机和岛屿,如今则是超级计算集群的较量。18个月前,OpenAI用约2.5万张Nvidia顶级GPU训练了GPT-4,而Elon Musk和Mark Zuckerberg则以更庞大的数据中心宣告自己的技术雄心:Musk称他有10万张GPU,计划增至20万,Zuckerberg则宣称将达到35万。
这种为更强AI模型建造超大计算集群的竞争无法无限持续。每增加一片芯片,不仅带来计算力,还增加同步负担。随着芯片数量增多,数据中心用于数据传输的时间远多于实际计算工作,收益逐渐递减。
计算机科学家正探索更智能、更省资源的训练方法。一种可能是放弃专用大型计算集群,改用多个小型数据中心分布式完成训练任务。一些专家甚至认为,这可能为更激进的目标铺平道路:完全摆脱专用硬件进行训练。
现代AI系统的训练依赖于隐藏部分数据后让模型预测结果。若预测错误,使用反向传播方法调整模型参数,使其逐渐接近正确答案。问题在于,当需要同时用两块或20万块GPU进行训练时,每一步都需分享调整结果,以确保所有芯片协同工作。这个过程叫“检查点记录”,随着芯片数量增加,其复杂度和耗时迅速上升。对于大规模训练,近一半时间可能都花在了记录检查点上。
Google DeepMind工程师Arthur Douillard提出一个创新:减少检查点记录频率。2023年底,他和团队发表了一种名为“分布式低通信语言模型训练”(DiLoCo)的方法,建议将训练分散到多个“岛屿”式数据中心。岛内仍按常规记录,但岛间通信负担减少了500倍。
这种方法存在权衡。与在单一数据中心训练的模型相比,分布式训练模型在特定任务中的表现略逊一筹,但在应对全新问题时表现更优。这或许是因为每个“岛屿”在少受约束的间隙能探索更多路径,类似大学生分组研究,尽管任务聚焦度下降,但经验更丰富。
Prime Intellect创始人Vincent Weisser基于DiLoCo方法开发了OpenDiLoCo,并用30个GPU集群训练了10亿参数模型Intellect-1,结果显示效率显著提升。Weisser表示,这种方法不仅降低了对稀缺大型数据中心的依赖,也让训练资源更分散,避免过度集中于某一国家或公司。
未来的梦想是彻底摆脱专用硬件,将训练任务分配到消费级设备上,比如数以亿计的iPhone。然而,这需要克服硬件性能和存储瓶颈,还需全新计算技术支持。尽管挑战巨大,分布式训练方法的潜力令人期待。训练成本降低后,或许富豪们将需要寻找新的竞争对象了。
本文译自 economist,由 BALI 编辑发布。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )