在当今的计算平台上训练最大的 AI 模型可能需要几个月的时间。NVIDIA 的新产品旨在解决该问题。
在其年度 GTC 会议上,NVIDIA 宣布了一系列新的 AI 专用 GPU 和 CPU,包括 Hopper H100 GPU,他们声称这将大大加快企业部署最复杂的 AI 应用的方式,例如 BERT 和 GPT-3使用Transformer模型 。但该公告引出了一个问题:围绕人工智能的所有挑战是否可以简单地通过更多的计算能力来解决?NVIDIA聚焦Transformer问题
在 NVIDIA 的公告中,Dave Salvator 写道:“最大的 AI 模型可能需要几个月的时间才能在当今的计算平台上进行训练。这对企业来说太慢了。”这种巨大的训练滞后背后的主要原因是什么?这些 Transformer 模型的绝对复杂性最初是为自然语言处理 (NLP) 应用而开始的,但现在已被用于其他复杂用途,例如用于自动驾驶汽车的计算机视觉。这些模型及其训练集可以达到数十亿个参数,所有这些参数都需要经过计算才能将看似随机的数据转化为计算机智能。英伟达的新芯片拥有 800 亿个晶体管,并且基于台积电的 4nm 工艺,但英伟达表示,这款新芯片的最大变化实际上在于它如何利用一种新的 8 位浮点数据格式,称为 FP8。因为 AI 训练取决于它可以多快地处理带有小数部分的浮点数,所以能够混合 8 位精度和 16 位“半”精度 (FP16) 是一个巨大的优势。这些芯片还可以在特殊情况下使用 32 位“单”精度 (FP32) 和 64 位“双”精度 (FP64)。将其与将许多 Hopper H100 连接在一起的新数据中心硬件相结合,NVIDIA 似乎有信心在参数竞赛中领先数万亿。Salvator 写道:“当与 Hopper 架构中的其他新功能(例如 NVLink Switch 系统,它提供节点之间的直接高速互连)相结合时,H100 加速的服务器集群将能够训练几乎不可能训练的巨大网络以企业所需的速度。”NVIDIA 对具有 3950 亿个参数的混合专家 (MoE) Transformer Switch-XXL 变体进行的测试显示“更高的吞吐量和 9 倍的训练时间减少,从 7 天缩短到 20 小时”。更大的人工智能总是更好吗?
并非所有人都同意。马萨诸塞大学研究人员 2019 年的一项研究发现,训练一个具有 213M 参数的TransformerAI 模型需要 84 小时才能完成,并产生 626,155 磅的二氧化碳当量,这大致相当于 17 个美国人一年的消耗量.虽然一开始可能看起来不多,但请记住,GPT-3 使用了高达 160-1750 亿个参数,具体取决于您询问的对象。谷歌已经使用 1.4 万亿个参数训练了一个新的语言模型,在与 Wired 交谈时,Cerebras 的创始人兼首席执行官 Andrew Feldman 分享了一个信息,即 OpenAI 的下一次迭代 GPT-4 将拥有超过 100 万亿个参数。我们将在此处省略计算,但很容易看出 AI 应用如何产生巨大的环境影响,而执行工作的处理器的速度和可访问性只会加剧这种影响。但对于那些比温室气体更注重成本的人,马萨诸塞大学的同一项研究发现,同样的Transformer训练仅在云计算成本方面的成本也在 942,973 美元到 3,201,722 美元之间。在数百个 H100 GPU 引领潮流的情况下,这些数字如何变化尚无定论,但人工智能训练的整体计算使用量肯定会在未来很多年扩大。 NVIDIA 正在推广其新芯片架构作为新用例的首选解决方案,例如组学(基因组学或药物发现的生物学研究)、自主机器人的路线优化,甚至调整 SQL 查询以缩短执行时间。另一方面,研究人员呼吁进行更多的成本效益(准确性)分析,更公平地访问计算资源,以及更大的行业推动优化算法以使用尽可能少的计算能力。
但是,在具有环保意识的大学研究人员和戴着有色眼镜投入数十亿美元人工智能研究的科技公司之间的斗争中——更不用说数以万亿计的参数了——我们可能会继续大芯片、大算法和大承诺的循环。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。