为什么说云原生数据湖正在成为首选?

原标题:为什么说云原生数据湖正在成为首选?

“因为疫情的原因,银行业务线上化、数字化的趋势明显加快,基于数据驱动的业务场景不断涌现,业务变化多、弹性大、需要快速响应,数据量大、类型丰富,所以我们开始借助云原生数据湖服务实现对各类业务的快速支持。”一个城商行数据部主任去年向大数据在线如是说。

的确,随着千行百业数字化转型的深入,数据已经成为最重要的生产要素,犹如数字化时代的“石油”。不过,就像石油需要经过开采、精炼一样,数据要想挖掘其价值,也需要经过采集、汇聚、挖掘和分析,最终在各种应用场景中创造出价值。

所以用户近年来对于数据湖的理念、产品和方案愈发接受,加上云计算的日渐普及,云原生数据湖服务正在获得越来越多用户的青睐,成为用户挖掘数据价值的首选。

云与数据湖为何是最佳CP

在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用昂贵的数据仓库解决方案来存储和分析数据,这种方式模型范式固定,底层数据无法做到多样变化,逐渐跟不上企业业务变化的速度。

今天,在5G、物联网、人工智能等技术的驱动下,多个行业用户的数据量达到PB级,并且数据类型丰富,除了ERP等数据外,还有大量像文档、视音频、行为数据等非结构化和半结构化数据,业务对于数据分析的及时性也愈发苛刻,这使得很多用户将目光瞄准了云端。

云计算拥有极为灵活、弹性和可扩展的计算存储资源,使得数据的存储、分析和应用变得无比容易;而数据湖最大的价值在于将企业内各种格式的数据统一汇聚,在一份数据之上进行多种分析,高性价比且高效的挖掘数据价值。有专家甚至直言,以数据湖为底座的数据平台正在成为企业数字化转型的核心。

事实上,真正让数据湖发挥价值与作用的恰恰是云计算。自2010年数据湖概念被提出以来,云服务商将数据湖概念推向落地并且大获成功。云计算的分布式架构和对于开源技术体系的支持,可以让企业及时采用当下快速变化的数据技术,另外也有利于数据湖与机器学习、AI等技术服务集成,形成数据价值实现的闭环。以华为云云原生数据湖MRS服务为例,经历多年发展,已经广泛应用于公用事业、金融、运营商、医疗等行业3000+政企,成为云原生数据湖的突出代表。

那么,数据湖在经历十年的发展之后,会在云计算时代呈现出哪些新的趋势?我们从华为云云原生数据湖MRS四大核心能力和最近三大新特性中一见端倪。

数据湖再进化

回首数据湖过去十年,正是数据湖产品、技术和商业模式不断探索与落地之路。在这十年里,开源厂商、传统存储厂商和云服务商纷纷加入到数据湖的推广与落地之中。最终,云服务商们脱颖而出,推动着数据湖持续进化。

以华为云云原生数据湖MRS为例,其除了之前Hadoop生态的Spark、Flink、Kafka、HBase等各种高性能组件之外,持续添加像人工智能、数智融合元数据、缓存加速、跨源跨域分析等新能力,不断拓展数据分析的边界;并且同时支持混合云和公有云两种形态;更加重要的是,云原生数据湖MRS丰富的组件和丰富的数据生态有机结合,为开发者提供广泛的选择,可以让客户在公有云快速构建高性价比、灵活开放、安全可靠的一站式大数据平台。

事实上,华为云云原生数据湖MRS之所以能够引领数据湖的发展趋势,离不开其在诸多行业、不同用户的真实场景中的锤炼,通过各种需求趋势的洞察实现各种核心能力的不断提升。以近年来热门的“数据上云”为例,云原生数据湖MRS等服务就承接了华为大数据全面上云,经历了内部复杂、大体量业务的高压锤炼,像支持华为终端云触达全球7亿用户、PB级数据处理量和20000+大数据节点,对于产品服务不断成长都极具价值。

如今,华为云云原生数据湖MRS经过内部和全球客户交付的锤炼,已经形成企业级、易运维、高安全、低成本四大核心能力。

  • 首先是企业级,基于华为FusionInsight大数据企业级平台能力,历经行业数万节点部署量的考验,提供企业级调度实现不同作业之间的资源隔离,提供多级用户SLA保障。
  • 其次是易运维,用户无需关注硬件的购买和维护。专门研发的企业级集群管理系统,可让用户更好监控和管理大数据平台;并可通过短信/邮件的方式,提醒用户平台异常。
  • 第三是高安全,经由华为专业的安全团队和德国PSA安全认证测试,提供云上高安全的大数据服务。基于Kerberos认证,实现了基于角色的安全控制以及完善的审计功能。
  • 第四则是易用运维,基于多样化的云基础设施,提供了丰富的计算、存储设施的选择,MRS集群可以用时再创建、用时再扩容,用完就可以销毁、缩容,确保成本最优。

事实上,除了上述四大核心能力外,华为云云原生数据湖MRS近期还更新了三大新特性,进一步完善了服务功能与能力,更加贴近当前用户对于数据湖的使用需求。

MRS三大新特性值得关注

近期,华为云云原生数据湖MRS进行了全面升级,最为值得关注的就是Hudi、ClickHouse、Pulsar三大热门组件的引入。

传统数据湖不支持数据更新,导致数据采用T+1离线处理模式,完全无法匹配业务灵活多变的需求。因此,华为云云原生数据湖MRS引入Hudi组件,来有效解决数据时效性问题。Hudi可以支持数据更新、数据删除,还有ACID保证,保证数据实时入湖更新操作。

引入Hudi之后,华为云云原生数据湖MRS的数据时效更快,实现分钟级数据入湖,数据时效性从T+1到T+0;面对数据有删除、更新的场景,Hudi处理效率比传统采用Hive更新方式高10倍+;此外,Hudi可以让开发人员的数据更新操作和使用数据库一样简单,单条语句即可完成;而数据实时采集入湖,Hudi把入湖处理的工作分散到全天,把整个资源消耗的高峰和低峰抹平掉,大幅提升资源利用率。

Apache Pulsar是一个发布-订阅消息系统,使用计算与存储分离的云原生架构。作为一个云原生的分布式消息流平台,Pulsar采用了计算存储分离架构,拥有灵活扩展、多租户、更灵活订阅模式和分层存储等优势。从对比测试来看,Pulsar比Kafka更具优势。华为云云原生数据湖MRS已经发布Pulsar的POC版本,用户可以一键式部署Pulsar服务,包括Broker和Bookie角色。

ClickHouse则是最近这两年非常火的一款开源的分析型数据库,拥有极致压缩率和极速查询性能。传统OLAP引擎处理能力有限,数据一般需要先组织再与BI工具对接,导致BI用户与数据工程师沟通周期长、协作效率低。

此次华为云云原生数据湖MRS上线ClickHouse高性能引擎集群,用户只需要几分钟,就可以轻松方便地一键式完成集群部署搭建,快速拥有PB级数据的秒级交互查询分析能力,帮助用户带来极致的性能体验!

华为云云原生数据湖MRS的ClickHouse拥有手动挡集群模式升级、平滑的弹性扩容能力、多元的鲲鹏算力加持、灵活易用的配置管理、高可用HA部署架构、丰富的监控运维能力和可靠的安全防护能力等优势。目前,华为云云原生数据湖MRS的ClickHouse服务在华为内部实践已经取得很好效果,整体使用规模已经达到2000+节点,数据量规模达10+PB,日增数据量100TB。

让大数据迁移更容易

事实上,大数据和数据湖相关技术、方案经过十余年的发展已经日趋成熟,当前各大行业、不同用户中存在着大量特点迥异的数据湖解决方案。为此,华为云打造了大数据迁移上云解决方案,提供IDC上云、CDH上云、云上资源迁移等多种大数据迁移解决方案,可以实现业务零改造、不中断、便捷高效的大数据迁移。

以某车企的车联网业务为例,其采用CDH开源大数据解决方案,随着车联网数据不断增加,其自建机房空间不足,扩建与研发投入成本高,运维成本也持续上升,车辆状态分析、实时监控分析等数据分析需求却一直在增加,通过华为云大数据迁移方案将其车联网业务全面服务化和云化,实现资源弹性扩缩容、百万级车辆并发安全稳定介入和打通全价值链数据。

如今,华为云大数据已经成为久经各种业务场景考验、屡获市场殊荣的云服务,覆盖金融、互联网、交通、制造等多个行业超过3000家政企客户和超过10000家互联网客户,并且连续三年蝉联中国大数据平台软件市场份额榜首。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-03-25
为什么说云原生数据湖正在成为首选?
以华为云云原生数据湖MRS为例,其除了之前Hadoop生态的Spark、Flink、Kafka、HBase等各种高性能组件之外,持续添加像人工智能、数智融合元数据、缓存加速、跨源跨域分析等新能力,不

长按扫码 阅读全文