近年来,数据存储市场“最靓的仔”无疑就是分布式存储。
大模型火了之后,围绕Chat的应用也越来越多,通过AI生成图片、报表、音视频的应用比比皆是。众所周知,要想训练出一个有学习能力的、可理解的、响应迅速的大模型应用,必经之路是给算法模型“投喂”大量的文本、图像、音视频数据。
面对大量新兴应用场景中爆增的数据,既想“存的下”,还要“读得快”,如果不差钱的话,显然购买更多的存储设备、叠加容量是最省心的选择。但这种方法治标不治本,性能线性提升始终受到机头限制,往往最后让企业“不堪重负”的,是高昂的设备成本和运维成本。
正因如此,分布式存储凭借在性能、性价比等方面的持续突破,终于有机会“大展身手”。并迅速在AI、芯片设计、PACS影像、多媒体编辑等高精尖领域渐当大任,摆脱了"只能做第二存储"的困境。
在深信服近期发布的EDS 501高性能版本中,我们既看到了“最靓的仔”——分布式存储绝非花架子,凭借自研的技术破除性能瓶颈,也看到了一个内外兼修的“硬汉”在高精尖领域中“大展拳脚”,表现出卓越的性能和稳定性。
分布式存储堪当大任
为什么分布式存储能在越来越多高精尖领域中脱颖而出、堪当大任?
其一、随着云计算技术与理念走向普及,以及数字化转型的深入,基础设施层面加快分布式相关技术的部署已经成为大势所趋。
例如,《金融科技发展规划(2022—2025年)》就明确要求金融机构建设分布式架构的先进基础设施,加速核心业务应用向分布式基础设施的迁移与部署。
此外,像运营商、制造业、政务等行业都在进行核心业务系统的分布式架构改造与迁移,这无疑让分布式存储今后有机会支撑起更多核心业务系统。
其二、需要主存储支撑的关键业务场景,近年来也在发生显著变化。
《分布式存储发展白皮书》认为,分布式存储当前适用的九大典型应用场景包括HPC、大数据分析、AI、医疗影像等,这些场景里存在着大量以音视频、图片、文档等非结构化数据为主的海量小文件,要想充分挖掘数据中蕴含的巨大价值,亟需一个高性能存储系统来支撑。
其三、分布式存储的崛起最为关键的原因,还是技术上的持续突破。
过去,开源Ceph软件对于分布式存储的普及和推广功不可没;但落后的技术栈、羸弱的性能表现,使得Ceph很难在诸多核心业务场景中取得突破。
如今,像深信服等厂商自研分布式存储系统,技术栈更加先进,加上软硬件结合与适配,在性能、可靠性等方面出类拔萃,胜任高精尖领域的各种存储需求。
高性能分布式存储:离不开技术创新
做分布式存储容易,但做好高性能的分布式存储很难。
这就是为什么分布式存储市场虽然近年来一直保持着高速增长,但市场上的产品、解决方案鱼龙混杂,不少产品性能、可靠性等方面难以令人满意。
可以说,随着闪存介质成本的不断下降,以及像NVMe、PCI-E等协议的快速发展,分布式存储将加速迎来系统架构、软件堆栈和关键技术的一次全面变革:海量多样性数据应用,推动分布式存储面向混合工作负载、多协议互通、解耦式的架构演进、HPC/HPDA、AI等应用对于分布式存储超高性能提出更高要求……
以深信服分布式存储EDS 501高性能版本为例,其正是分布式存储走向全面变革大趋势的一款代表性产品。它在整体架构、技术堆栈以及核心技术的突破,成为了高精尖领域中的一把性能利器,让企业在数字化转型中全速前进。
首先是在架构层面,不同于开源Ceph的系统架构,深信服EDS 501高性能版本采用了清晰分层、解耦协同的架构,Persistence层具备稳定可靠、空间高效、扩展性强等特点;Index层则实现灵活高效的逻辑映射,打造极致低时延;Service层则具备弹性可伸缩、海量的元数据能力;Access层则具备开放兼容、轻量级的协议架构。
架构的领先性,使得深信服EDS 501高性能版本承载用户的核心数据生产业务,在激活海量小文件等非结构化数据产能的同时,做到“性能”和“容量”兼得。
其次,深信服EDS 501高性能版本自主研发的凤凰分布式高性能文件系统,在软件堆栈层面更具先进性。支持混合IO负载、兼具大小文件能力,对元数据高并发、小文件密集型、大文件高吞吐和混合负载四种场景有着极好的支撑;同时,凤凰分布式高性能文件系统实现软件解锁单机瓶颈,兼具卓越性能与弹性扩展。
第三,深信服EDS 501高性能版本在分布式存储的核心技术上取得突破,巨量元数据能力、全局IO动态整合、自适应三级缓存和协议增强支持等四大自研创新技术,让分布式存储的性能表现彻底脱胎换骨。
例如,巨量元数据能力在百亿规模文件场景下也能做到存储性能稳定一致,内存缓存元数据的规模提升7倍,在最大化利用系统资源的同时,充分发挥各节点的计算性能;全局IO动态整合技术则释放机械盘顺序写的性能优势,业务写IO可在NVMe SSD组成的大性能层进行智能排序整理后写入容量层,解决小文件写放大导致的空间浪费问题,提升混合配置下的数据回刷速度;自适应三级缓存技术则通过客户端内存—存储节点内存—NVMe SSD缩短数据路径,将数据时延降至us级;协议增强支持则采用更精密的协议设计,进一步降低协议对性能的额外开销,缩短时延和提升性能。
《分布式存储发展白皮书》认为,分布式存储市场正在高速发展,未来具备软硬件一体化能力的厂商和产品会在市场更具优势。深信服EDS利用性能SSD 与容量 HDD 的独立扩展,适应复杂的场景配置,最大限度地发挥裸金属服务器性能的同时,通过软件中立来解锁厂商绑定,不仅减少硬件成本(如避免 SSD 的不合理溢价),还能降低运维保护费用,从整体上降低了总拥有成本。
因此,软硬一体化得以实现端到端的优化,让分布式存储的性能、扩展性和可靠性发挥到极致。
无疑,深信服EDS 501高性能版本已经为市场树立了一个绝佳的标杆。
深入场景,高性能要经受真考验
不可否认,闪存介质成本的持续下降,让分布式存储的性能提升变得不再是一件高门槛的事情,但要做到真正的高性能表现,分布式存储还需要在真实场景中经受考验。
事实上,近年来市场中已经有很多分布式存储产品,在一些性能测试的表现是一顿操作猛如虎,但到真实场景中却是“仔细一看原地杵”。
究其原因,一方面是测试机构的测试方法与实际业务场景相差甚远,尤其是考虑到当下新应用、新场景涌现的情况下,一些测试方法并不能真实反应出分布式存储的性能;另一方面,闪存对于性能的提升,使得一些分布式存储产品满足于“虚荣”的高性能,距离真实场景的高性能存储需求尚有差距。
显然,作为分布式存储领域耕耘多年的厂商,深信服深知分布式存储必须与真实场景的性能需求紧密结合。
例如在医学影像领域,PACS系统等应用对接的各种影像设备都在朝着超高速、高精度方向发展。最典型的就是CT成像技术,320排探测器、动态640层带来了比以往大得多的数据量。此外,PACS系统对接多台医疗设备经常是多台设备同时连续写入,而医生在阅片时又是序列读取,这就使得PACS系统逐渐呈现出连续写、序列读的性能特征。
对此,深信服EDS 501高性能版本在千兆PACS环境阅片测试场景下,能实现秒级加载450幅影像。在上海市肺科医院的PACS影像阅片真实场景,阅片端12秒即可完全加载患者700~800张CT影像,小文件性能表现极为出色。
又如,AI、芯片制造、工业设计等领域融合了HPC、大数据和AI技术的应用层出不穷,对于分布式存储的性能要求更为苛刻。在这种“数据密集型”应用承载中,深信服EDS 501高性能版本稳定承载深南电路超过20亿的AI检测文件,实现了EDA前后仿真效率提升40%,性能表现持续刷新预期。
此外,在自然资源&实景三维、多媒体编辑&娱乐等场景中,深信服EDS 501高性能版本也是经受住了各种性能挑战。
截至目前,深信服EDS在AI、医疗医院&生物科技、多媒体编辑&娱乐、自然资源&实景三维、芯片&工业设计等领域累计服务了2万个用户、 完成了35000 小时的稳定交付,承载的PB级项目超过200个。
综合观察,在市场和需求告诉增长的大趋势下,分布式存储迎来了其黄金时代。与此同时,分布式存储的一场技术、产品变革也在发生,架构、技术堆栈以及软硬协同将重塑分布式存储的产品。深信服EDS 501高性能版本在性能等方面的出色表现,无疑为整个市场树立了标杆。面向未来,随着千行百业数字化转型的深入,分布式存储数字底座基石的作用将会愈发突出,也必然会在更多业务场景中发挥关键作用。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。