2019年12月16日-19日,一年一度的英伟达GPU技术峰会(NVIDIA GTC China 2019)在苏州举行。本届GTC China也是史上最大规模的一次峰会,超过 6000名科学家、工程师、开发者与企业家参与。
12月18日上午,本届GTC China迎来了最重磅的环节:英伟达创始人兼首席执行官黄仁勋的演讲。黄仁勋果然没有让人失望,两个小时的演讲围绕一个核心主题“加速计算”展开,涵盖云游戏、RTX技术、基因测序、NVIDIA HPC for Arm、最新一代TensorRT 7、自动驾驶芯片NVIDIA DRIVE AGX Orin、机器人开放平台Isaac7大环节,集中展示了英伟达在图形、HPC和AI方面的最新进展。
其中最“核弹”的当属面向自动驾驶和机器人的芯片NVIDIA DRIVE AGX Orin,以及最新一代推理软件开发套件NVIDIA TensorRT 7编译器。
专注加速计算25年,英伟达越来越“软”
“英伟达处在图形计算、HPC和AI的交汇点。”
黄仁勋在演讲中如是说。这是对英伟达产业链角色非常准确的定位。英伟达用一套统一的架构,借助通用型的GPU芯片,赋能从游戏、自动驾驶、到医疗、云计算数据中心在内的广泛的智能应用场景。
迄今为止,英伟达已经售出了15亿块GPU芯片。但是,在演讲和媒体采访中,黄仁勋一再强调英伟达无比注重软件,今天发布的新品中只有一款硬件芯片,其他都是软件套件、软件平台和软件应用。
通过软件栈的改进提升GPU性能,英伟达让深度学习训练在3年内提高4倍,深度学习推理在1年内提高了2倍。
会上,英伟达AI芯片家族,包括面向训练的DGX系列,面向超大规模云的HGX系列,面向IOT和边缘的EGX系列,以及面向自动驾驶和自主机器人系统的AGX系列。英伟达AI芯片从云到边缘,覆盖各行各业。
当被问到英伟达何时推出7nm制程的芯片时,黄仁勋表示,制程对芯片性能很重要,但不是最关键的。加速计算的时代和CPU时代不同,如何让芯片达到最高性能有很多因素,首先是架构,然后要有算法、软件、应用的共同合力提升性能。去年英伟达发布的图灵架构的芯片就是12nm,但依然性能强劲。
7倍Xavier性能的自动驾驶芯片Orin
黄仁勋一直强调,未来的自动驾驶系统是软件定义。此次发布的自动驾驶芯片Orin正是这样可扩展、可编程、软件定义的AI平台。
Orin拥有多达170亿个晶体管、8核64位CPU,200TOPS的深度学习能力,是前代Xavier的7倍。Orin兼具了高性能和软件定义,易于编程,而且与Xavier相兼容。Orin具有很强的扩展性,适用于从L2到L5级自动驾驶开发。Orin计划于2022年开始投产。
会上,黄仁勋还宣布与共享出行巨头滴滴深度合作。滴滴将在数据中心使用NVIDIA®GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力。据悉,滴滴将很快在上海开始基于NVIDIA DRIVE技术的测试车队。
NVIDIA DRIVE的全球生态系统日益庞大,几乎每家自动驾驶汽车领域的企业,都在其计算堆栈中使用NVIDIA的解决方案。面向汽车制造商、卡车制造商、自动驾驶出租车公司、软件公司和大学等众多合作伙伴,英伟达为其提供了端到端的基础设施、训练模型、开放的软件开发平台以及丰富的测试模型。
现场,黄仁勋还展示了一段NVIDIA DRIVE自动驾驶在美国实际道路行驶的demo。NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,能够实现对汽车周围环境360度全方位的理解。自动驾驶车辆不但顺利完成遵守交通灯、变道、进出匝道、会车等动作,初次行驶的道路,还会自动生成动态地图,加入到车辆地图库中。
阿里、百度推荐系统背后的TensorRT 7
此次,英伟达发布了第七代推理软件开发套件NVIDIA TensorRT 7编译器。会话AI是TensorRT 7的典型应用场景。
与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下,让语音助手与人类的实时交互成为可能。目前,阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等头部互联网公司都在使用TensorRT 7的会话式AI加速功能。
会话AI之外,深度推荐系统(Deep Recommender Systems)也是TensorRT 7的一大应用场景。
信息爆炸时代,互联网上的新闻、商品、内容呈井喷态势,每一个使用互联网的用户每一次找到所需的内容都要靠推荐系统。推荐系统可以说是互联网发展的引擎。海量数据的不断增加,深度技术的发展,让深度推荐系统成为互联网公司的标配。黄仁勋介绍,目前互联网巨头的推荐系统正在从过去基于CPU转为基于GPU。
目前,NVIDIA AI的100多个推荐模型被应用到百度的多款应用中。用GPU训练深度推荐系统,成本只有CPU的十分之一。
阿里巴巴的推荐系统同样使用的是NVIDIA AI。此前基于CPU,每秒查询率(QPS,Queries-per-second)只有3次,NVIDIA AI则提升到了每秒780次查询。
此外,黄仁勋还在演讲中展示了在游戏、建筑、基因测序等应用领域,英伟达GPU生态的进一步扩展。
英伟达GPU技术为腾讯游戏的START云游戏服务赋力。同时,去年发布的RTX(实时光线追踪,Real Time Ray Tracing)技术也进一步落地。借助英伟达RTX技术,一个人组成的工作室也能制作出逼真的光影和反射效果。
今年3月,英伟达在GTC全球峰会上发布了基于RTX技术发布了实时的3D制作协作平台NVIDA OMNIVERSE。今天,英伟达发布了面向建筑行业的NVIDA OMNIVERSE。
此次,英伟达还发布了NVIDA基因组分析工具包Parabricks,其可以利用深度学习技术进行基因变异检测。目前华大基因已经采用Parabricks,借助若干GPU服务器,可以大大加速处理基因组的速度。
回顾下来,一个架构、软件定义、加速运算成为本届GTC China的关键词。本届GTC,英伟达多强力释放了一种声音:通过多项创新技术与生态合作全面加速AI落地。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。