近日,百度智能云容器引擎CCE正式上线支持构建昆仑XPU集群,为百度自研昆仑芯片的高性能AI计算简化运维、降本增效,快速实现场景落地与行业赋能。
CCE助力昆仑AI算力高速运转
当下,人工智能已成为各行各业的热点和趋势,市场对AI算力的需求也迎来了爆发式的增长。
为此,百度智能云于去年底正式推出百度昆仑云服务器,基于百度自主研发的中国首款云端全功能AI芯片“昆仑”,以及百度智能云成熟的虚拟化技术,在云服务器BCC产品中对昆仑AI加速芯片进行深入的适配和兼容。
依托于昆仑芯片高性能、低成本、通用灵活的特点,百度昆仑云服务器在云服务器本身具有的安全可靠、高性价比、弹性灵活的优势上,实现了更快、更强、更易用、更通用。
(详情走传送门:百度昆仑云服务器正式上线要提供中国最好的AI算力服务)
随着容器技术的快速发展和云原生的日益普及,企业和开发者在追求更快更强的AI算力的同时,也在不断追求各类AI计算场景下高可用、免运维、低成本、高效率的极致体验。容器技术以其独特的优势,已经成为业界主流AI计算框架的核心引擎。
百度智能云容器引擎(Cloud Container Engine,以下简称CCE)就是在这样的背景下推出的,其采用Kubernetes作为容器集群管理系统,依托于百度智能云BCC、BLB等技术提供的稳定基础架构,借助主流的Kubernetes开源工具,能够向客户提供弹性、高可用、高效便捷的Container as a Services,助力系统架构微服务化、DevOps高效运维、AI应用深度学习容器化等业务场景。
随着昆仑云服务器上线,CCE基于Kubernetes支持对昆仑XPU资源集群的管理和调度,能最大化昆仑AI加速芯片算力的使用效率,进一步提高底层计算能力。
CCE如何支持昆仑降本增效?
CCE对昆仑性能的提升毋庸置疑,具体是如何做到的呢?
Kubernetes作为新一代的AI开发基础,一直在不断提高对GPU等硬件加速设备进行统一管理和调度的能力,主要通过Kubernetes支持的extended-resource特性和device-plugin的通用设备插件机制,以Daemonset方式部署,完成对新资源的注册、调度和分配。
extended-resource是一种自定义扩展资源的方式。扩展资源类似于CPU和内存资源,一个节点可具有一定数量的扩展资源,供该节点上的容器使用,开发人员可创建请求一定数量该资源的pod。扩展资源的名称和总量(必须指定为整数)需上报给api server,scheduler则根据该资源pod的创建和删除计算资源可用量,进而在调度时刻判断是否有满足资源条件的节点。
device-plugin是用于提供通用设备插件机制和标准的设备API接口,设备厂商只需要实现相应的API接口,即可在不更改Kubernetes主干代码的情况下,向Kubernetes提供GPU、FPGA、高性能 NIC、InfiniBand等各种资源的统计信息和使用预备工作。使用该特性需要通过feature gate打开, 即配置:
--feature-gates=DevicePlugins=true
CCE支持昆仑的实现流程
CCE能在哪些场景下支持昆仑?
CCE作为一款成熟的容器引擎产品,能在包括深度学习模型训练、高密度高性能计算、简化训练环境的搭建运维、简化AI应用的边缘化部署等多场景下支持昆仑。
深度学习模型训练:CCE已支持在Kubernetes集群基础上一键集成百度开源PaddlePaddle深度学习框架,客户以百度昆仑云服务器为计算资源、以CCE服务为集群管理工具、以PaddlePaddle为深度学习框架,能够很好地解决AI开发中的两大核心难题:利用Kubernetes解决大规模计算资源的管理和调度难题,屏蔽底层基础设施的差异性;利用PaddlePaddle框架解决复杂算法研发和训练的难题,打造开发、训练、预测全套方案。
高密度高性能计算:很多AI场景下,客户需要快速、多次计算进行迭代。CCE通过优化k8s容器调度引擎,能够为容器中的AI计算任务分配更细粒度的昆仑XPU资源,实现多个AI计算任务共享昆仑XPU资源,大幅提升资源利用率、降低AI计算成本。同时,CCE提供秒级计费、按需付费,大大降低了客户进行AI计算的成本。
简化训练环境的搭建运维:自主搭建深度学习训练环境,需要准备资源、安装软件驱动等,并需要花很大精力保证开发、测试、生产环境的一致性。通过CCE构建昆仑XPU集群,在保证计算性能的同时,还能利用容器的标准化封装能力极大降低安装部署的复杂度,利用容器的隔离性实现多训练框架的并行和独立升级。通过降低研发运维的难度和复杂度,客户可以更专注于AI训练。
简化AI应用的边缘化部署:随着5G、IoT技术的快速发展,AI应用部署的本地化、边缘化也逐渐成为解决很多行业问题的关键。容器化是一种用于应用程序部署的行业标准化设计模式,借助于Kubernetes提供的统一部署平台,其可以跨边缘、数据中心、云和混合环境部署。 通过CCE实现AI应用的容器化,并运行于昆仑XPU集群上,可以简化AI应用边缘化部署工作。
超强、极速的算力及其使用过程的高效率、低成本、易用易获取,是AI产业发展的关键。
作为百度AI生态中的一环,CCE远远不止是一个容器集群管理工具,而是致力于为客户解决从底层架构到AI开发中的各项难题,最大程度降低客户使用的门槛和成本,为客户提供一个高度自由的AI开发环境,从而将百度强大的AI能力赋予到客户的实际应用中,加速AI计算的落地与发展。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。