2019年9月份开始,一部分大数据公司在用户不知道的情况下通过网络爬虫爬取个人隐私数据,监管机构针对大数据风控行业进行了一场声势浩大的合规检查,数家大数据公司被协助调查甚至直接被查封。这场风暴,让整个大数据行业如履薄冰,很多人近日谈爬虫色变。
据了解,互联网上 超过50%以上的流量都是爬虫创造的,爬虫本身只是互联网中常见的一种工具,例如我们用的搜索引擎,还有很多热门数据都是通过高性能的爬虫,才能有效地为用户提供更好的服务,技术是中立的,其实并不存在非法的性质。
另一方面,国家十三五规划纲要在2016年出台时,就提出将在 2020 年把大数据产业做到一万亿产值。虽然国内的大数据行业还处于初级阶段,但每家金融机构潜在的大数据资源非常丰富,只是很多数据在企业内部是分散的、凌乱的、没有体系化的数据,属于破解等待发掘的“金矿”。
那么,在这种背景下,如何有效利用合规数据,避免违规陷阱呢?如何在监管机构允许的数据隐私保护条例下,将外部的合规数据与企业内部的数据内外结合,形成高价值的“大数据资产”呢?如何基于数据打造自己的独特核心竞争力呢?这就涉及一个金融机构的数据战略问题:如何有效利用合规数据,避免违规陷阱?这就需要我们对爬虫和数据,有个系统的了解与准确的认识。
一、网络爬虫是什么?有哪些价值?
网络爬虫又称网络机器人、网络蜘蛛,是互联网时代一项运用非常普遍的网络信息搜索技术。爬虫的本质是一种能自动获取网页信息并按照指定规则提取相应内容的程序。一个最简单的例子,我们经常看的今日头条、微博等,其新闻资讯大都来源于对合作媒体及相关网页采取的爬虫。通过网络爬虫,可以将互联网各个角落收集来的信息,汇总后再进行分类、排序,梳理出热点新闻,实现及时、动态更新推送。
在金融行业,以网络爬虫为基础获取合规数据,进而基于人工智能机器学习、NLP、知识图谱等技术,可以发挥高价值的应用场景主要包括:
1、精准营销领域:通过采集用户消费行为数据,分析和用户消费偏好,形成千人千面的“用户画像”,进而有针对性的推送商品、促销、广告等行为,提升营销效果。
2、风险控制领域:基于大数据、云计算、机器学习、知识图谱等技术,把网络采集到的工商、司法等合规数据与自有数据结合,挖掘数据资产的价值,对企业及用户的贷前、贷中、贷后等全领域进行更加准确的评估,最大程度的避免风险、减少损失;
3、舆情监测领域:通过爬取网页、论坛、微博、微信等开放的网络信息,自动分析出正面积极的或者色情、暴力、负面信息等,提前做风险预警。
二、什么是合规的数据?
一方面,网络爬虫技术,极大促进了数据资源的流通和变现;另一方面,随着金融、电商等各类场景的数据爬取案件频发,如何将这一“灰色地带”提上数据治理议程已成为非常紧迫的现实问题。
1、哪些是正确的爬法?
2019年10月30日,上海交通大学数据法律研究中心执行主任、数据法盟创始人何渊在2019数字信用与风控年会暨零壹财经新金融秋季峰会上表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3”。这个观点,可以作为一个参考。
2、哪些是违规的爬法?
通过侵入他人计算机信息安全系统去爬个人信息、国家秘密、商业秘密以及爬取数据导致影响市场竞争秩序的,就构成了违法。
在不能爬什么方面,可以总结为“三全一稳定,两秘密一隐私”。所谓“三全”是指国家安全、公共安全、经济安全;“一稳定”指社会稳定;“两秘密一隐私”是指国家秘密、商业秘密和个人隐私。
2019年12月,上海数据治理与安全产业发展专委会秘书处与赛博研究院联合发布了《数据爬取治理》研究报告,报告里提出,合规的爬虫,主要依赖于行为人在数据爬取的“访问进入-数据获取-使用数据”三个阶段下是否合规来进行综合的考量。
其实,在法律方面, 无论是我国的《著作权法》、《反不正当竞争法》、《反垄断法》、《民法》、《刑法》、《网络安全法》等,还是欧盟的 GDPR 合规落地方案,都对数据利用是否合规,制定了相应的条款。
总体而言,如果企业为了谋取自身利益,在未经当事人同意的情况下,通过爬虫软件爬取了公民的个人信息或者其他禁止类信息数据,就是不合法的,会受到相关的法律制裁。
三、如何利用合规数据,发挥数据资产的价值
目前,数据爬取在治理中面临着不少的挑战,包括:安全与发展难以平衡,数据基本权属仍无定论,数据法制体系尚不完善,行业性共识规范缺乏,数据壁垒严重,数据散乱而高质量数据较少等困境与难点。但另一方面,国家对人工智能和大数据行业,又鼓励创新,并给予了极大的支持。
在这种背景下,很多金融机构对如何发掘“数据资产”,产生了一定的困惑。
那么,金融机构如何合法的利用各种大数据信息,形成有价值的“数据资产”呢?在面临数据的采集和使用的壁垒变得越来越高的情况,结合一些领先的金融机构的做法,在东方林语的观点看来有两个思路可以借鉴:
首先,可以从三种维度获取合规数据,包括第一种,基于互联网的公开合规数据的挖掘;第二种,合法的第三方数据源的获取;第三种,企业内部分散的数据的统一整合。如果把这三种数据的价值能够统一梳理整合呈现,将会形成自己企业真正的“有价值数据资产”,进而形成基于数据的“核心竞争力”。
其次,打造企业内部的“数据中台”,将过往、现有、未来产生的数据,以及内部、外部的数据全部打通,继而再通过通过机器学习、NLP、知识图谱等领先型人工智能技术,将整合后的数据转化为业务上可以理解的“数据资产”,例如:精准用户画像、精准营销、风险控制、股权穿透、集团派系分析、反洗钱等场景。
总而言之, 通过构建内外部数据一体的数据中台架构,真正实现大数据的融合,再通过“数据升级”从而真正实现实体产业转型升级,进而建立“与数据对话”的分析流程,对内实现数据的智能服务,对外打造个性化产品和服务,才能真正实现金融机构的数字化转型和跨越式发展!
本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 马云现身支付宝20周年纪念日:AI将改变一切,但不意味着决定一切
- 万事达卡推出反欺诈AI模型 金融科技拥抱生成式AI
- OpenAI创始人的世界币悬了?高调收集虹膜数据引来欧洲监管调查
- 华为孟晚舟最新演讲:长风万里鹏正举,勇立潮头智为先
- 华为全球智慧金融峰会2023在上海开幕 携手共建数智金融未来
- 移动支付发展超预期:2022年交易额1.3万亿美元 注册账户16亿
- 定位“敏捷的财务收支管理平台”,合思品牌升级发布会上释放了哪些信号?
- 分贝通商旅+费控+支付一体化战略发布,一个平台管理企业所有费用支出
- IMF经济学家:加密资产背后的技术可以改善支付,增进公益
- 2022年加密货币“杀猪盘”涉案金额超20亿美元 英国银行业祭出限额措施
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。