数据时代
在数据时代,数据和业务的保护、数据的管理成为企业发展所必需的基础条件。据有效统计,当前,数据量增长、重要性呈指数级激增。据国外媒体报道,来自国际数据公司和数据存储公司希捷的一份新报告显示,随着云计算、大数据、物联网等技术产业的快速发展,数据流量增长速率正在不断加快,到2025年,预计新增数据总量将从2018年的33ZB增加到175ZB。在过去几年,全球的数据量以每年40%以上的速度增长,在未来这个速度会更快。庞大的数据量中非结构化数据占80%左右。通常我们认为大小在1MB以内的文件称为小文件,百万级数量及以上称为海量小文件,由此量化定义海量小文件。
海量小文件的应用在生活中已越来越常见,社会化网络、移动通信、网络视频音频、电子商务、传感器网络、科学实验等各种应用产生的数据,不仅存储容量巨大,而且数据类型繁多、数据大小变化幅度大、流动快等显著特点,往往能够产生千万级、亿级甚至十亿、百亿级的海量小文件。
技术挑战
数据即资产,庞大的数据资产对各企业的重要性不言而喻,需要对这些海量小文件提供保护方案来保证数据资产的安全性。但是传统的文件备份是通过基于二叉树遍历的文件系统的遍历后进行单通道的数据传输实现的。如果全部是几K的文件,磁盘的遍历时间远远大于实际的数据读取时间。这给高效的实现海量小文件备份带来了挑战。
用户故事
三甲医院A每天有上万的病人,每个病人每天产生的病例文件(包括病例、影像等文件)平均为1M,医院平均每天的病人有1万人,那一年的文件的大小是3.4TB、365万数据左右。按医院门诊病例保存要求15年,那就有51TB、5475万个数据。
该三甲医院还要十几个分院,而当前的数据中台和大数据建设需要该医院的总部将所有分院的数据进行汇聚和融合,初步评估数据中台和大数据的底层数据是PB级别(1PB=1024TB)。
法院B有一个电子文件的项目,该法院有100TB左右的数据,想要建设该市所有法院的电子文件的统一管理平台,粗略评估后总数据有3.6PB,并且有很多几kb的小文件,如果按平均文件大小100KB来算,总共有396亿左右的数据量。
我们再看一下网速,千兆网下网络的峰值基本只有100+M/S,按照平均速度100M/s来进行数据传输,100TB的数据在千兆网下,需要12天才能传完数据。
但是使用传统的文件备份方式在文件数量达到千万级时对业务系统的影响会很大,如果业务系统是运行很久的服务器,资源不充足的情况下甚至会导致业务系统卡顿;而文件大小低于100KB的海量小文件,在用传统的文件备份方式进行备份时速度会迅速降低,之前测试1kb的千万个小文件的备份速度只能以kb/s进行传输。
所以如何能够面对海量小文件、海量小文件的时候能够快速、低影响的进行备份就成了当前急需解决的技术问题。
浪擎解决方案
浪擎DAYS灾备系统全面破解海量小文件备份难题,高效守护企业数据资产安全。
磁盘级备份
磁盘级备份是指采用磁盘块的方式进行数据的备份,备份文件所在的磁盘或者分区,并且恢复的时候可以自定义所需的文件进行恢复。通过磁盘级备份能够解决海量小文件备份过程中频繁的IO访问对业务系统带来的影响,是海量备份方案中对业务系统影响最小的方案之一。并且由于采用磁盘级的备份,无论文件数量有千万还是百亿,大小是1M还是1KB,对整体的备份速度都没有影响,即千兆网下,磁盘级备份速度可以一直保持峰值(平均100M/S)进行传输。
并行多通道备份
当文件数量达到千万级别时,以传统的单通道式文件备份的形式来进行海量小文件备份,备份速度会越来越慢。针对这种情况,浪擎自主研发了并行多通道的方式进行备份,通过初始化遍历所有的文件,然后将文件平均分配给多个通道进行数据传输,数据传输完后进行数据落盘的操作来实现并行多通道备份。并且即使采用最普通的8核CPU服务器进行海量小文件备份也能同时用16个通道进行海量小文件的数据传输。10万以上的文件采用并行多通道的方式进行备份,备份时间是单通道的一半,并且文件数量越多,备份效率越高。
分布式多通道备份
当文件数量达到千万级别并且文件的大小差异很大,从几KB到几十MB都有,这种大小差异很大的海量小文件备份时的难度更大,即使采用并行多通道的方式也会由于文件数据大小差异过大,导致不同通道传输的数据总量不同,部分通道会有闲置的情况,最终导致数据传输时间相对较长。
针对这种情况,浪擎在并行多通道备份的基础上做了深度的优化,提出分布式多通道备份方案,实现多通道备份的负载均衡,让每个通道都能够满负荷进行数据传输,并行合并数据再结合实时的数据交互减少初始化的时间,达到整体的性能提高和最优化的海量小文件备份方案。
多节点、多任务、多网卡传输
除了采用多种备份方式进行海量小文件的备份外,为了充分利用现有资源和提供备份的速率,浪擎还采用了多节点、多任务、多网卡的方式进行数据传输。多节点是通过将多个服务节点进行数据存储,减少单节点的性能的局限性对备份数据传输的影响;多任务是并行多个任务来实现数据传输,充分利用时间资源;多网卡是充分利用单节点上的多个网卡资源采用多个网卡进行数据传输,让并行任务整体的备份效率提高。
关于浪擎
浪擎科技以“最大化数据价值”为使命,致力于数据安全与智能领域的产品研发和技术服务,从而推动数字化转型发展的大变革。2011年投身灾备产品研发,2015年进军全国市场,浪擎科技现已在上海与成都建立了两大研发中心,在北京、浙江、江苏、江西、四川等20余省市部署了事业办事处
数据安全产品线为重要业务和数据提供全生态、全栈式的备份保护,实现云上云下云间的数据安全与管理;数据智能产品线为用户构建数据中台提供全环境的、敏捷智能的数据汇聚融合与共享管理,助力数据驱动业务。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )