标题:微软推出革命性新框架:用更少资源训练大模型,效果媲美BF16
随着人工智能的飞速发展,大模型训练已成为业界和学术界的研究热点。近日,微软研究院推出了一种全新的训练框架,该框架在相同超参数设置下,可以达到与FP8和BF16相当的训练效果,这意味着所需的存储和计算资源可以更少。这一突破性的进展,无疑为人工智能领域带来了革命性的影响。
首先,让我们了解一下这个新框架是如何工作的。该框架并非真正使用FP4进行训练,而是通过模拟FP8环境来实现FP4精度。如果采用真正的FP4,效果还能进一步提升。这一创新性的方法,通过在FP8的TensorCore上模拟实现,能够在相同资源条件下达到更高的训练效果。值得注意的是,这一方法使用的并非真正的FP4,而是通过定制化的FP4矩阵乘法CUDA内核,实现了对FP4精度的模拟。
在实验部分,该框架在多个模型上的表现令人印象深刻。在LLaMA模型的不同规模下,从千万 Tokens的训练过程中,使用FP4训练与BF16的损失曲线基本一致,这表明该框架的训练效果与BF16相当。而在下游任务上,表现同样也和BF16相当,这进一步证明了该框架的实用性。
那么,这个新框架有哪些优点呢?首先,它大大降低了训练大模型所需的存储和计算资源,这对于当前资源紧张的环境来说,无疑是一个福音。其次,该框架的训练效果与BF16相当,这意味着我们可以用更少的资源获得相同或更好的效果。最后,该框架的提出者采用了定制化的FP4矩阵乘法CUDA内核,这无疑为未来的研究提供了新的思路。
此外,该框架还采用了许多先进的技术来优化训练过程。例如,在梯度通信时采用了FP8,在优化器状态(如动量)的存储时选择了FP16。在系统的其他部分,如非矩阵乘操作的计算、Loss Scaling等,也都采用了FP16。通过这些混合精度的设计,在保证训练数值稳定性的前提下,尽可能地降低了计算和存储开销。
值得一提的是,这个新框架由微软亚洲研究院和SIGMA团队打造,所有研究人员都是华人。第一作者Ruizhe Wang是中科大在读博士生,目前在MSRA实习,研究方向就包括低精度量化。中科大科研部部长、类脑智能国家工程实验室执行主任、博士生导师查正军教授也参与了这一项目。通讯作者为MSRA高级首席研究经理程鹏和首席研究经理Yeyun Gong。程鹏曾先后就读于北航和清华,在清华读博期间还到UCLA访问学习;Yeyun Gong则是复旦博士,毕业后即加入微软。MSRA杰出科学家、常务副院长郭百宁也参与了本项目。
总的来说,微软推出的这个新框架为人工智能领域带来了革命性的影响。它不仅降低了训练大模型所需的资源,还提高了训练效果。这一创新性的方法将为人工智能领域的研究者提供新的思路和方向,有望推动人工智能领域的发展进入新的阶段。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )