2020云栖大会召开,大数据时代,数禾科技力推数据湖

“数智未来,全速重构”,2020云栖大会于9月17日通过线上直播的方式正式开启。缘起2009年,历经11载,云栖大会不光成长为全世界科技工作者的一大盛会,同时也成为了一个分享和洞察未来科技产业发展趋势的舞台。

本次云栖大会共有400余位重磅嘉宾与会,包括10位国家院士、70余位顶级学者、300位国内外知名企业管理者、青年科学家; 上百款新品发布,涵盖云计算、人工智能、机器学习、量子计算、芯片、AIOT、组织协同、新零售、新金融、数字政府等领域……大会无疑成为了未来十数年产业与技术发展的风向标。

作为金融科技公司中的佼佼者,数禾科技也应邀参会。数字时代下,数据就好比工业的“原油”,如何高效的“提取炼制”,发挥其最大效用?对此,数禾科技大数据负责人万鹏发表了“金融科技云上数据湖构建和管理之道”主题演讲,指出了当下大数据于金融科技领域运用存在的问题以及瓶颈,分享了数禾科技云+数据湖解决方案,受到了广泛关注。

“成”也大数据,“败”也大数据

“你不会借钱给你不了解的人,因为信息不对称”,万鹏表示,“金融科技可以良性开展的核心点在于信贷风控,它要解决的核心问题是面对海量有着信贷需求的互联网用户,如何在信息不对称的情况下为其提供金融服务,而大数据在其中发挥了显著作用。”

目前,金融科技领域常用的风控体系,主要以基于各种风控模型收集的相关数据为基础数据,再经由风控策略驱动AI等技术实现调用,对用户风险进行多维度评估。比如通过图像监测模型、中介评估模型、申请评分模型等,对用户工作地区、工作情况、多头借贷等数据进行分析数据,实现对用户风险评估,在大幅降低信息不对称的情况下,做出是否提供信贷服务、服务额度多少等决定。

可以看到,大数据的运用起到了至关重要的作用,并且如果模型中的变量与策略足够丰富、科学,就可以有效应用更多有用数据,也就意味着系统更“认识”用户,风险评估也将更为准确有效。这种经由某种模型、规则处理过的数据通常称为结构化数据。不过随着业务的开展与拓展,金融活动的实时性与不间断性越发明显,金融风险构成的交叉性和复杂程度也更加突出,这就导致在服务场景复杂化的同时,数据积累出现了超出预期的暴增,传统大数据结构已经难承其重。

  深耕行业需求,“科技云+数据湖”破局

面对因为市场发展而带来的行业难题,数禾科技采用了“云+数据湖”的解决方案,它的特点就是灵活、高效、成本低。

“数据湖”概念自2011年被提出以来,就被业界广泛讨论,有人认为它是“新瓶装旧酒”,也有人认为它是新一代数据仓库。较为清晰的定义是,“数据湖是一个集中化存储海量的、多个来源、多种类型数据,并可以对数据进行快速加工、分析的平台,本质上是一套先进的企业数据架构”。但它如何对企业赋能,其实仍在摸索过程中。数禾科技在“云+数据湖”方案的应用,无论是在金融科技领域,还是其它大数据运用领域,已经成为了先行者。

首先,对于日益见长的数据体量,云技术的发展为新的数据存储架构与处理引擎的开发奠定了基础,数据湖就是其中一种。数据湖不但允许用户在其中存储任意形式、任意规模的数据,同时,不会在其内部对存储数据自动进行结构化,只有当用户调用数据时,才会利用强大的数据查询、处理、分析等组件,对系统进行相应的处理和应用,为用户数据的使用提供定制化支持。

换言之,数据湖可以存储并调用包括结构化、非结构化、半结构化数据等一切数据。事实上,数据显示,非结构化数据在企业数据中占比高达80%,并且每年还在以55%~65%的速度增长,对任何企业而言,这都是一笔难以估量的财富,仅对信贷风控一项进行赋能,就可以对风控能力的提升起到立竿见影的效果。

要搭建这样一套体系显然并非易事,数禾科技的做法就是摸着石头探索前行。

早在2016年创立之初,数禾科技就搭建了小而全的开源大数据集群,这套系统持续运行了两年。随着公司业务与数据规模的扩大,由于计算资源与存储资源无法弹性变化,集群出现了离线计算与实时计算争夺资源的问题。2018年,为跳出困境,数禾科技采取了剥离实时计算于EMR之上,关键应用场景以云上Hbase承接的做法,但仅在一年之后,存储成本高、权限管理难度大、架构过于复杂等问题的暴露又让公司苦不堪言。最终,公司壮士断腕,下线了原来全部的集群,设计出一种基于OSS对象存储和EMR的流批一体数据湖架构,一步到位解决了性能、数据隔离以及数据共享三大难题,享受到了结构简单、存储低廉、弹性计算带来的种种好处。

  精益数据管理,数禾科技的五大原则

为进一步挖掘数据湖持续产生价值的能力,数禾科技摸索出了精益数据管理的五大原则。一是全面纪录,在用户授权的前提下,以大数据收集技术驱动业务全流程数据收集的深度化、多维化、持续化;二是全面实时化,解决因时间变化而产生的持续性信息不对称问题,让人与系统实时做出决策;三是全面治理,进行数据质量、成本、架构、效率的全面治理,实现数据管理“降本增效”;四是场景驱动,大数据提供服务时围绕关键业务痛点展开,“好钢用在刀刃上”;五是安全合规,杜绝灰色空间,坚守数据管理合规底线。

正是因为这样的专业与专注,数禾科技得到了业内与用户的广泛认可。截至目前,包括银行、消费金融公司、信托、小贷、保险等机构,国内已有30余家持牌机构与数禾展开深度合作,数禾打造的智能获客、智能风控、精细运营等全链路金融科技技术,为中小金融机构与商业机构数字化转型提供了强大驱动力;其旗下分众小贷的“还呗”,面向年轻人提供账单分期与商品分期服务,及至目前,已被超过5000万消费者选用。

云栖大会不但是一场科技盛会,也是未来产业与科技发展趋势的一次集中体现,可以预见,这些新发布的技术、产品,必然会驱动产业的革新。数禾科技云+数据湖的提出不光是数禾科技研发能力与科技实力的表现,也是在互联网科技爆发的时代下,有志于积极探索新技术企业的一个缩影。未来,数禾科技将更加积极投身于新技术的研发与应用,为产业进步再立新功。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )