“过去,传统医学主要依靠个人经验,医生根据自身实践经验和尝试不同方案来做诊断与治疗;如今,精准医学的医疗过程则是依靠数据,在海量数据基础上利用大数据、AI等技术实现个性化治疗。”南方某精准医学中心计算肿瘤学博士去年向大数据在线如是说。
的确,数字化大浪潮之下,数据正在改变一切。尤其是随着数字经济的蓬勃发展,企业数字化转型逐步走向深入,数据驱动+智能技术正在重塑企业的组织、流程、运营、管理甚至决策。与前些年的CRM、ERP流程数字化相比,如今的数据驱动型应用建立在海量非结构化数据的基础之上,并且通常融合了大数据、AI、物联网、云计算等多种技术。
这些趋势不仅让海量数据存储的重要性日益突出,也推动着海量数据存储加速变革。在众多海量数据存储产品中,有海量数据之王之称的Dell PowerScale堪称排头兵,在容量、扩展性、性能、可靠性、安全性、云环境等多个方面树立业界标杆,让企业数字化和智能化转型有“数”有“据”。
正如戴尔大中华区非结构化数据存储事业部总经理刘志洪所言:“在金融、医疗、生命科学、科研、制造等领域中,非结构化数据所支撑的应用正在迅速成为关键型应用,海量存储正在成为企业数字化和智能化转型的坚实底座。”
现代化应用呼唤新底座
随着云计算、大数据、AI、物联网、边缘计算等新一代数字化技术融入到千行百业的业务场景之中,不仅让现代化应用大量涌现,也着实诞生了越来越多的海量非结构化数据。IDC预测,到2025年80%的数据将是非结构化数据,非结构化数据所蕴含的价值不可低估。
戴尔大中华区非结构化数据存储事业部总经理刘志洪
现代化应用往往具有部署环境广泛、业务弹性多变、管理复杂和安全性要求极高等特征,也让海量非结构化数据的存储、管理和分析挖掘变得愈发困难,具体表现为:
数据产生和使用的环境今非昔比。过去企业的数据以结构化数据为主,主要产生在数据中心之中;如今,从边缘、核心数据中心到云都在产生大量数据,而且以种类丰富、大小多样的非结构化数据为主。Gartner数据显示,到2025年有75%的企业所生成的数据会在数据中心或云之外进行创建或处理。
应用的多样性和复杂性远超过往。大量现代化应用所产生的数据量、对于数据处理性能的需求巨大,而且管理发展与日俱增。例如,自动驾驶在模拟和验证阶段的数据量高达数百PB,对于底层数据存储的性能、容量考验极大;又如,如今融入日常生活的健康码,背后是数以亿计的小图片文件,带来了前所未有的并发性能要求和管理复杂性。
数据跨核心、边缘、云以及非结构化数据价值的不断凸显,外加上愈发严格的法律法规,外部恶意攻击与勒索频繁,使得企业的数据安全重要性前所未有。例如,在自动驾驶领域,自动驾驶训练的海量数据根据法律法规需求需要保存数十年之久;而2021年全球企业面临的勒索病毒攻击就超过6亿次,这一切让数据安全防护成为必修课。
这些趋势使得海量数据存储加速走向变革,成为数字化转型最为牢固的底座。刘志洪认为:“在数字化时代,数据的红利开始显现。如何利用好数据+智能,抓住数据的红利,是很多企业数字化转型的关键所在。DELL 凭借在海量数据存储领域二十余年的领先经验,已经成为越来越多行业用户激发数据潜能的首选。”
Dell PowerScale:海量数据之王
海量数据存储并不是新鲜产品,自二十年前集群NAS时代就有,加上像开源存储Ceph的出现,目前市场中存在着大量海量数据存储产品,可谓是良莠不齐、鱼龙混杂。但什么样的海量数据存储能够在数字化和智能化时代中堪当大任?我们可以从PowerScale这位海量数据之王的发展中一见端倪。
作为连续六年位居Gartner分布式存储领导者象限和排名第一的海量存储,PoweScale如今已经为全球用户提供超过17EB的存储容量,在22个行业中拥有大量头部客户,无论是功能性、扩展性、效率性和安全性都是业界翘楚,一直引领着海量数据存储的发展。
首先,PowerScale在产品形态上更加贴近用户需求,在卓越的横向扩展系统OneFS的基础上,从全闪存节点、混合节点到归档节点多种型号,可以满足海量数据存储各种应用和工作负载的数据存储需求,帮助用户充分释放数据红利。
“PowerScale具有高弹性和可扩展性,可以从最小11TB扩展到100PB,拥有丰富的数据协议接口,对接跨核心、边缘和云的数据源,并且兼容现有Isilon/PowerScale集群,面对任何工作负载都是易用、好用和经用。”刘志洪表示道。
其次,PowerScale产品设计上引领着海量数据存储的需求趋势。在横向扩展、安全防护等已有优势的基础上,近年来PowerScale还带来了全闪设计、软件定义等产品新趋势。
以全闪为例,如今医院的PACS系统当前疫情形势下,需要对接多台超高速、高精度的医疗设备的连续并行写入,像CT成像技术,320排探测器、动态640层带来了比以往大得多的数据量,对于性能要求极高。此外像芯片设计、自动驾驶等业务场景,PB级的数据都需要高性能处理,而PowerScale的全闪化设计无疑很好地满足各种场景的性能需求趋势。
“现在医疗影像领域已经开始融入越来越多的AI技术,相关研究已经离不开全闪存的高性能。”刘志洪补充道。
又如闪存、处理器、GPU等硬件的快速发展,让软件定义成为海量数据存储重要的产品趋势。利用软件定义的方式,不仅可以充分利用硬件高速发展的能力,让整个海量数据存储可以更加快速、灵活和高效产品迭代,并且让性能、经济性等方面得到充分利用。
第三,PowerScale一直引领着海量数据存储的技术发展方向。以大数据支持为例,第一代Hadoop大数据平台随着应用和规模的不断提升,其存算紧耦合的模式瓶颈日益突出,戴尔在2014年就首先在业界利用OneFS作为底层文件系统,实现了Hadoop计算集群的存算分离;又如,PowerScale率先支持湖仓融合,支持数据湖、数据仓库同时访问,成为越来越多用户在构建湖仓一体架构的首选。
“PowerScale二十年来一直都是业界领先的海量数据存储平台。如今,PowerScale已经沉淀出存管融合、打破边界、高效低碳、精智平台、全面防护的五大能力,帮助用户在核心、边缘和云端各种环境满足不同业务应用的复杂数据需求,真正打破了数据壁垒,帮助用户数字化转型中发掘数据价值,提升业务智能化程度,在瞬息万变的市场中保持领先。”刘志洪总结道。
五大能力深入行业场景
经历二十余年的不断创新与打磨,PowerScale五大能力如今在医疗、生命科学、ADAS自动驾驶、EDA芯片设计制造等行业场景中得到了充分体现。
刘志洪介绍,戴尔成立了一个名为10PB俱乐部,近年来有越来越多不同行业的用户进入到俱乐部,“像能源、医疗、芯片制造等行业的用户均已经进入到该俱乐部。未来,我们希望成立100PB俱乐部。”
以芯片设计与制造为例,近年来芯片制程技术的不断突破和逼近物理极限,使得芯片设计和芯片制造两大场景会产生巨大的数据量。具体来看,芯片设计前期会产生大量小文件数据,规模通常是千万级,每个文件大小则是KB级,对于数据存储的随机IOPS性能要求极高;而进入到仿真验证阶段,则会产生大量的大文件系统,对于存储的吞吐和带宽能力要求极高;此外,芯片生产之后,还需要将设计数据、历史数据进行永久存储和归档,用于后续的新芯片设计或者质量回溯。
戴尔大中华区非结构化数据存储事业部高级系统工程师高中耀谈道:“10纳米芯片从头到尾会产生大约600TB的数据规模,如果升级到7纳米,数据量就会达到PB级别,而现在的5纳米、3纳米则对于数据存储的容量和性能有着更大的挑战。”
据悉,当前全球Top 20的芯片企业中,已经有80%采用了PowerScale。PowerScale的大规模横向扩展能力,以及全闪、混闪、归档系列产品可以帮助用户在芯片设计制造不同阶段灵活使用。“PowerScale可以让用户根据业务需求在性能、容量上进行灵活组合,并且形成单一的文件系统,更新换代无需迁移数据,前端用户使用则是完全透明。”高中耀补充道。
又如当前火爆的人工智能和机器学习应用,往往需要大量的数据采集,在这基础之上进行模型的训练和反复迭代,本质上是一个数据分析型的工作流,涉及到数据采集、清洗和训练三个典型的环境,每个环节均会诞生大量的数据。
Dell PowerScale帮助用户构建企业级的数据湖,轻松应对AI各个环境产生的海量数据;高性能的分布式全闪存型号则在性能层面满足AI的数据处理需求;PowerScale对数据湖式的多协议支持,也让其可以实现一套存储满足整个AI训练各个环节的数据处理需求;PowerScale全面的数据安全机制则为AI训练带来保障。
高中耀表示:“很多用户在构建人工智能应用时,往往注重于GPU等算力的投入,却忽视了数据存储方面的瓶颈,造成了GPU等待或者GPU现象普遍存在,而PowerScale则很好地解决了AI应用的数据挑战,真正帮助用户消除GPU等待的现象。”
当前,除了芯片设计与制造、人工智能应用外,PowerScale已经在媒体娱乐、医疗健康、生命科学、金融服务、智能制造、物联网等领域获得了大量应用。刘志洪表示:“PowerScale一直是业界领先的海量数据存储平台,并且与Google Cloud、微软Azure、Cloudera等各种生态伙伴深度合作,形成存管一体的数据湖大生态,真正为用户的数字化转型构建起坚实的基础。”
总体来看,随着企业数字化和智能化转型的深入,海量数据激增将会成为新常态,基于海量非结构化数据的业务正在加速成为核心业务,支撑这些业务的海量数据存储正在成为企业生产、运营和创新中的不可或缺的基石,而Dell PowerScale无论是技术、产品,还是行业方案、生态,都是当今海量数据存储的翘楚,未来也将迎来更加广阔的施展空间。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。