在海量基因数据中进行全基因数据分析,了解各种疾病与DNA之间的隐秘联系;对海洋气候进行预测,利用强大的数据分析性能,实现分钟级的数据刷新、精准预测海洋气候;利用高速相机模拟人脑上亿个神经元之间联接与工作,对产生的海量数据进行实时分析,探索人脑工作机制……
如今,数据正在迅速改变科研领域,推动传统科研模式加速向基于“数据密集型科学”的科研新范式转变。随着数据成为生产要素,数据采集、数据存储等相关技术与方案不断创新,越来越多科研人员感受到科研新范式所带来的巨大价值。
因此,近年来,无论是政府超算,还是科研高校均在加速构建面向多元算力和海量数据的新型HPDA(High Performance Data Analytics,高性能数据分析)平台,为不同学科提供面向HPDA应用负载的数据基础设施成为当务之急。
在今年第十八届全国高性能计算学术年会(CCF HPC China 2022)上,面向HPDA场景的数据存储相关话题再次引燃会场。其中,华为DataRobot HPDA存储集群解决方案更是获得广泛关注。华为DataRobot HPDA存储集群解决方案不仅获得官方最佳解决方案奖,更凭借应用加速、数据跨域管理和全栈敏捷等方面的出色创新为HPDA场景下的数据存储解决方案打开了新思路与新局面。
HPDA与HPC大不同
在传统HPC时代,基于计算科学的科研范式往往是先提出可行理论,再搜集数据,之后通过计算仿真进行验证,大多以数值计算为主;而如今基于“数据密集型科学”的科研新范式,则更多与大数据知识挖掘及AI训练推理技术结合,通过计算与分析获得新知识和新发现。科研领域正式进入到HPDA高性能数据分析时代。
科研范式的转变,意味着对于底层数据基础设施的需求将发生根本性改变。数据密集型的科研应用负载,其数据往往具有不可重复性、高度不确定性、高维、计算高度复杂等特征。加上当前科研领域对于数据流动的需求愈发强烈,使得科研领域的HPDA面临着诸多挑战:
其一、混合计算需要更加牢固且强大的、支持HPDA场景的可靠存储底座。众所周知,无论是高校科研机构的智算中心,还是辐射区域的政府超算中心,均需要同时跑不同类型的科研应用负载。这些工作负载对于数据存储的容量、性能、带宽、管理、访问协议方面的要求各不相同,因此就需要强大的HPDA数据存储同时支撑起这些混合工作负载,并减少数据量膨胀以及数据迁移;
其二、很多HPDA工作负载对于数据实时处理性能要求很高,例如在高能物理分析、天气预测、药物研究以及电信欺诈等场景中,往往会面对大规模网络并发数据处理需求,需要短时间内对海量数据进行快速分析与处理,这对于HPDA场景下存储系统的全栈协同、高效处理能力提出了极高要求;
其三、数据流动与共享是整个社会经济发展的大势所趋,在科研领域也不例外。尤其是在东数西算、东数西存等战略的大背景下,跨地域、跨集群的数据共享与流动势在必行,为了面对海量数据处理、数据分散、数据多元化、安全可信等难题,企业急需全新的HPDA数据存储解决方案来支撑。
因此,业界普遍意识到,需要打造支持混合负载、多协议互通且具备超高密设计、面向HPDA场景的存储集群解决方案,来应对HPDA工作负载愈发严苛的挑战。其中,华为率先推出了业界首个数据加速引擎加持的HPDA全栈方案—华为DataRobot HPDA存储集群解决方案,真正为HPDA存储打开了全新的创新思路和应用阶段。
华为DataRobot存储集群解决方案带来了什么
事实上,HPDA工作负载改变的,不仅仅是存储系统本身,更是对于数据存储的设计、使用模式和创新能力的一次重塑。
与其他传统存储方案不同,华为DataRobot HPDA存储集群解决方案是业界首个数据加速引擎加持的HPDA全栈方案,其真正在数据应用加速、数据跨域管理、绿色节能和全栈敏捷设计四大方面开创了先河,引领HPDA存储创新。
首先是出色的数据应用加速:华为的DataTurbo应用加速引擎,真正让华为DataRobot HPDA存储集群解决方案满足各种科研工作负载的极致性能需求。
具体来看,DataTurbo是华为DataRobot HPDA存储集群解决方案中联接应用与存储的数据加速引擎组件,由应用加速引擎和全局数据管理组件组成。
其中,应用加速引擎内置了自研网卡芯片和HPC、大数据加速套件,具备I/O聚合算法、统一元数据网关、芯片I/O卸载等黑科技,可实现应用处理效率数倍提升,同时结合OceanStor存储的全局共享存储能力,在面向E级超算场景下,可实现万级计算客户端并发访问,且单集群达到50TB/s带宽,10亿IOPS能力,性能领先业界30%。
除了应用加速引擎之外,DataTurbo的全局数据管理组件则让HPDA的跨域数据管理更加简单与高效,真正有效推动了数据的流动与共享,为科研领域的数据分析与价值实现带来了更多可能。
全局数据管理组件可以基于统一元数据,构建全局命名空间,实现跨数据统一访问;支持智能的全文检索,打破地域限制,让数据看得见;并可通过智能调度策略,根据数据温热冷分级,可实现3倍数据调度效率提升。
其次,科研机构的超算中心/智算中心通常规模庞大、设备众多、能耗成本高昂,随着国家碳达峰/中和战略目标的推出,超算中心/智算中心走向绿色节能的发展之路是大势所趋。
为此,华为DataRobot HPDA存储集群解决方案在存储系统设计上,通过热温冷数据智能分级设计,实现三个层级的数据自动流动:本地集群内实现SSD、HDD主存储、蓝光存储间的数据分级;跨集群数据远程自动分级到其他数据中心;本地数据中心到公有云的数据分级流动。通过将数据放置在最合适的位置,实现跨数据中心层面的整体节能。
值得一提的是,基于华为DataRobot HPDA存储集群的自研多模型数据合并压缩技术,可以将数据在本地压缩后再传输,极大的节省传输带宽和存储空间,最终实现十年整体TCO降低70%。
面对传统风冷机房的能耗问题与高密度支持问题,华为采用的风液冷机柜,创新的硬件设计让整柜功率密度达到20KW+,PUE≤1.25,功率密度提升1.5倍。DataRobot HPDA存储集群所提供系列高密分布式存储配置中,OceanStor高密大容量产品,在5U高的标准设备空间内可以容纳120块HDD,单位空间密度比其他同类产品高出20%。
第四,如今大数据、AI等技术的融入,使得很多科研机构的数据中心平台都面临着多元异构算力的环境,这对于HPDA存储产品的设计与交付提出了极大挑战。为此,华为DataRobot HPDA存储集群方案采取全栈敏捷设计,提供了包含基础柜、计算柜和存储柜在内的三类模块化硬件组合,基于最佳实践的典配机柜设计,用户可以根据不同规模业务场景可按需选择部署、灵活扩展。同时具备一站式交付能力,可帮助用户业务上线时间缩短50%。
此外,华为DataRobot HPDA存储集群解决方案还提供全栈统一运维平台,可以对多个数据中心的存储、计算、网络、容器等资源统一管理,包括从资源规划、端到端资源发放、设备运维、到资源优化全生命周期管理,同时提供AI智能运维,实现5倍的管理效率提升和分钟级问题定界,极大降低运维问题,让科研机构可以将更多精力投入到科学研究之中。
生态加持,华为DataRobot行稳致远
如今,基于“数据密集型科学”的科研新范式正在深刻影响着各大科研机构。在高性能数据分析时代,仅凭借数据基础设施的创新将不再满足要求,需要从底层数据存储、上层应用,到整体方案设计进行全方面的创新。
显然,华为数据存储率先意识到HPDA领域的这种需求变革,并且在确保产品优秀的基础上,大力推动生态的力量,联合科研领域的联科/赛乐/人和未来等多家合作伙伴,在DataRobot HPDA存储集群解决方案中进行应用调优和预集成,真正让客户开箱即用。
总体来看,基于“数据密集型科学”的科研新范式已是大势所趋。随着大数据、人工智能等技术进一步融合到科学研究的日常工作之中, HPDA存储集群解决方案必将被进一步普及。毫无疑问,华为DataRobot HPDA存储集群解决方案的出现,为市场树立了新标杆,有望持续帮助更多用户构建起领先的数据基础设施,推动科研新范式步入发展的快车道。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。