机器训练新巅峰!IBM训练速度赶超打响指,比谷歌快46倍

高层速读

IBM Research 宣布他们使用一组由 Criteo Labs发布的40多亿个广告数据集来训练逻辑回归分类器,在POWER9服务器和GPU上运行自身机器学习库Snap ML,能够在91.5秒内训练出逻辑回归分类器,比之前谷歌的最佳结果快46倍

IBM希望让机器学习的速度和打响指的速度一样快。

在IBM THINK会议上,IBM Research 宣布他们使用一组由 Criteo Labs发布的40多亿个广告数据集来训练逻辑回归分类器,在POWER9服务器和GPU上运行自身机器学习库Snap ML,能够在91.5秒内训练出逻辑回归分类器,比之前谷歌的最佳结果快46倍,后者在Google Cloud平台上使用TensorFlow在70分钟内训练出相同的模型。

机器训练新巅峰!IBM训练速度赶超打响指,比谷歌快46倍

英伟达CEO黄仁勋与IBM高级副总裁John Kelly

IBM研究公司负责非易失性存储器的经理Haris Pozidis在接受一家媒体采访时表示,这篇论文概述的结果是最近几年研究的顶峰。Pozidis说:“当我们开始做这件事情的时候,是为了使机器学习更容易被人们接受,并且使机器学习比过去和现在快得多。”

这个由人工智能软件提供动力的新库被称为IBM Snap Machine Learning(简称Snap ML),因为它训练模型的速度“比你打拍子的速度快”,它为现代CPU/GPU计算系统上流行的机器学习模型提供了高速训练。由此带来的好处包括降低了用户的云成本、减少了精力投入和缩短了实现时间。

IBM的Snap ML有三个核心元素

分布式培训:该系统是作为一个数据并行框架构建的,能够在大型数据集上进行扩展和训练,这对于大型应用程序是至关重要的。

GPU加速:IBM使用专门的解决方案来利用GPU的大规模并行体系结构,同时尊重GPU内存中的数据局部性,以避免大量的数据传输开销。它还利用了最近在异构学习方面的发展,使其具有可伸缩性,即使可以存储在加速器内存中的数据只有一小部分,也可以实现GPU加速。

稀疏数据结构:在认识到了人机学习数据集是稀疏的基础上,IBM的系统对算法进行了新的优化。

IBM研究数学家Thomas Parnell说:“大多数机器都具有异构的计算基础设施,但是我们分配培训的方式,在某种程度上是为了减少培训的不同模式之间必须进行的交流,这使我们能够避免通过网络传送大量数据的开销。”

Parnell说,对稀疏数据结构的支持是相当新颖的,在研究论文中进一步概述了这一点,并与现有的用于执行这类任务的库进行了一些比较。

机器训练新巅峰!IBM训练速度赶超打响指,比谷歌快46倍

IBM Research在91.5秒内将一个包含40多亿个训练示例的在线广告数据集用于逻辑回归分类器

特别地,IBM研究了Google的TensorFlow框架,该框架主要关注大规模线性模型上的机器学习。“TensorFlow非常灵活,”Parnell说,“它可以支持GPU加速,还可以从多个节点扩展。但我们发现TensorFlow的缺点之一是它对稀疏数据结构的支持相对有限。”

IBM研究人员的另一个发现是,在为这样大规模的应用程序部署GPU加速时,由于训练数据太大,而无法存储在GPU可用的内存中。这意味着在训练期间,需要有选择地处理数据,并反复地将数据移入和移出GPU内存

在论文中,研究人员还探索了不同层次的平行性,IBM的研究员Celestine Duenner说:“第一个层次是将工作负载分布在集群中的不同节点上,第二层是在一个节点内的不同计算单元之间分配工作负载,第三层是使用单个计算单元提供的所有并行性。”

通信必须通过网络进行,但是可以对不适合单个机器内存的大型数据集进行训练。“我们使用分布式培训,这样我们就可以使用多台机器的聚合内存,”Duenner说,“我们使用最先进的技术来组织节点之间的工作,实现有效的通信。”

Parnell说,IBM最终的目标是加快机器学习的速度,并使计算机基础设施能够尽快商业化。他说:“训练时间的长短非常关键,因为云实例通常按小时计费,因此您使用它们的时间越长,您为它们支付的费用就越多。”

预计今年下半年,作为Power AI技术组合的一部分,IBM Research所研究的成果将能够商业化,IBM目前正在寻找对试点项目感兴趣的客户。

  • 微信搜索【AI商业报道】,获取国内外AI巨头新动向及行业资讯!

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2018-03-26
机器训练新巅峰!IBM训练速度赶超打响指,比谷歌快46倍
高层速读IBMResearch宣布他们使用一组由CriteoLabs发布的40多亿个广告数据集来训练逻辑回归分类器。

长按扫码 阅读全文