9月23日至25日,华为全联接2021以“深耕数字化”为主题,各行业领军人物分享最新成果与实践。其中在“华为云FusionInsight智能数据湖打造千行百业数据底座”专题演讲中,华为云FusionInsight技术专家,发表“华为云FusionInsight智能数据湖版本新能力解读”演讲。
进入智能数据时代,业界建设数据湖的十大共识
经过数十年的快速发展,大数据处理技术已日渐成熟,围绕数据湖衍生技术多如繁星,业界在多年的探索之中,也对未来数据湖形态有了十个重要共识,如充分利用云技术实现云原生的数据分析,支持混合云及多云部署,各种类型的数据、支持更多的数据用户类型,提供不同的数据引擎、不同的数据处理能力等,这些需求对大数据技术创新提出了诸多挑战。
面对这些挑战,华为云FusionInsight发布智能数据湖最新版本8.1.0去应对新时代对大数据的这些技术诉求。
华为云FusionInsight提供湖仓一体的解决方案,兼顾历史与未来
华为云FusionInisght智能数据湖为企业客户提供完整的大数据云服务产品组合,有单集群最大支持5W节点的云原生数据湖MRS服务和全球最大的商用部署的云数据仓库DWS服务,MRS和DWS既可以灵活按需部署,也可以融合演进到湖仓一体的架构;同时面向不断增长的数据探索分析、新型的图分析、可信计算等诉求,提供了完全托管式的DLI数据湖探索服务,完全自研的高性能一体化的GES图计算服务、创新的可信智能计算服务TICS,并提供源自华为自身数字化转型经验沉淀的DGC数据湖治理中心服务,用于海量数据的数据治理、离线分析、实时分析、数仓集市、多模分析等场景,帮助客户构建一站式的大数据分析平台,释放企业数据价值。
MRS云原生数据湖提供三湖一集市能力,让数据分析更敏捷
MRS云原生数据湖作为FusionInsight主打的云服务,是一款Lakehouse架构的云原生数据湖服务,解决传统大数据平台零散式建设、供数链路长、人工搬迁慢等问题,一个架构实现离线、实时、逻辑三种数据湖:
• 离线数据湖:提供交互式、BI、AI等多个计算引擎,基于云原生存储实现存算分离架构,使得云原生数据湖的架构更灵活,业务更敏捷。同时还支持单集群5万(通过集群联邦,支持10万+规模)节点的超大规模,支持集群滚动升级,保障关键业务升级不中断。
• 实时数据湖:提供生成数据CDL实时捕获入湖、Hudi数据湖存储引擎、ClickHouse毫秒级OLAP分析等构建实时更新处理能力,使得供数时效从T+1到T+0。
• 逻辑数据湖:HetuEngine提供跨湖、跨仓、跨云的协同分析,实现湖仓一体,减少80%数据搬迁,协同分析提效50倍。
MRS云原生数据湖实现数据全链路实时分析,价值兑现从T+1走向T+0
在华为云FusionInsight 8.1.0 新版本中,MRS云原生数据湖实现了数据全链路实时分析,让价值兑现从T+1走向T+0。传统方案从数据接入、数据入湖到数据入湖,不支持增量数据更新,数据处理采用离线批处理方式,数据分析则需提前制定各种CUBE,预聚合的方式费时费力,导致数据分析时效性T+1,无法满足新时代的业务诉求。
为解决上述问题,MRS云原生数据湖通过创新的CDL组件支持直接读取Binlog日志实时入湖,结合Flink/Spark实现数据实时合并、实时加工,打通信息生产到分析平台的最后一公里;通过引入Hudi,支持数据更新、数据删除,还有ACID能力,保证数据实时入湖更新操作;通过引入ClickHouse,可以把数据拉到一个大宽表内去做分析,只需要对接后端的BI工具,就可以自助式的完成报表开发。同时,ClickHouse支持实时OLAP,可实现毫秒级实时分析,且ClickHouse不需要建Cube,只要对接BI工具就能轻松完成新业务的开发。
MRS云原生数据湖通过CDL+Hudi+Clickhouse的新方案,实现全链路实时分析,快速构筑实时数据湖能力。
IoTDB工业物联网时序数据库,云边端协同轻松构建时序数据集市
MRS云原生数据湖提供一架构三湖能力的同时,还支持构建多模态数据集市,在新版本中引入了MRS IoTDB工业物联网时序数据库,实现云边端协同轻松构建时序数据集市。MRS IoTDB是由华为云FusionInsight团队与是清华大学共同开发,聚焦工业物联网领域的工业复杂时序数据的处理,如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业时序需求,解决通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈,高效管理海量工业物联网数据,形成跨越端、边、云的工业物联网大数据的利器,在海量时序数据处理场景发挥其“专、快、稳、省、易”能力。在实际应用落地中,一台IoTDB实例就能替代13台传统时序数据库,性能优势明显。
灾备:两地三中心高可用,确保业务连续性,SLA 99.999%
在增强数据湖平台全链路实时分析与工业物联网数据库能力的基础上,MRS云原生数据湖在数据可靠性上再次进行增强,提供了三个容灾方案:
提供原有的数据备份能力,支持将关键数据备份到异地中,一旦出现集群故障导致数据丢失,则可以将备份数据恢复回来。
新增了单集群跨AZ高可用方案:支持将一个集群部署在多个机房中,通过副本放置策略确保数据副本存放在不同的机房,通过YARN的任务调度机制的优化确保任务优先访问任务所在机房的数据副本,当一个机房出现故障后,任务会自动切换到其他机房的机器上,从而确保单AZ故障时数据不丢失,关键业务不中断。
同时,还新增了异地主备容灾方案:也就是分别建设主、备两个MRS集群,主集群数据会周期或实时自动同步到备集群上。当主集群故障时,将业务倒换到备集群上,确保业务快速恢复。
通过以上三种方案,MRS云原生数据湖可以实现从简单的数据备份到跨AZ高可用,到异地容灾的完整场景覆盖,业务可以根据自身业务特点以及需要应对的故障场景,灵活选择适合自己的方案。
DWS:新一代全场景云数据仓库
华为云FusionInsight智能数据湖另一主打云服务为DWS云数据仓库,它是一款具备分析及混合负载能力的云数据仓库服务,具有高性能、高扩展、高可用等特点,广泛应用于汽车、制造、零售、互联网、金融、政府、电信等行业的核心分析决策系统。它不仅仅是把数仓搬上云这么简单,而是真正面向未来的云原生架构的数仓服务。
作为全球最大的金融数仓,DWS通过了信通院单集群2048节点的规模认证,当前已经商用的最大集群有480个节点。
DWS通过一套内核一套架构同时支持标准数仓、实时数仓和云数仓,匹配了用户全场景需求。
DGC:一站式数据开发与治理,让开发者轻松驾驭数据
华为云FusionInsight智能数据湖不仅为政企客户提供湖仓一体的架构,还有DGC数据湖治理中心服务,提供一站式数据开发集成管理平台,提供统一的数据治理工具,加速数据资产沉淀。
DGC的特性主要集中在平台能力和生态两个方面:
在平台能力方面:DGC提供一站式数据开发集成管理平台,支持40多种异构数据源、全拖拽式开发、多维实时搜索、0代码API开发等能力;并提供基于华为10多年数据治理经验沉淀出的数据架构、标准规范、数据开发、数据质量等数据治理能力;
在生态建设方面:DGC通过开放API,使能行业 ISV 快速集成开发;通过合作伙伴提供数据标准、模型、指标、接口等行业数据模型,帮助企业快速构筑数据治理能力。
华为云FusionInsight深耕大数据10年+,持续创新引领大数据技术发展
华为云FusionInsight持续投入10年+,坚持开放路线,在扎根社区的同时,也积极回馈社区,为行业新技术发展贡献力量;同时,华为云FusionInsight智能数据湖将持续贯彻“平台+生态”战略,携手800+合作伙伴,服务于全球60+国家和地区3000+政企客户,已广泛应用于政府、金融、运营商、大企业等行业。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )