信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE

近日,金融科技公司信也科技(NYSE:FINV)与浙江大学合作撰写的论文“Robust Network Enhancement from Flawed Networks”被国际顶级期刊IEEE TKDE正式收录。

IEEE TKDE(Transaction on Knowledge and Data Engineering)是数据挖掘与知识工程领域最具影响力的刊物,也是被中国计算机学会(CCF) 定位为数据库、数据挖掘和内容检索领域的A类国际期刊,属于值得我国学者去突破的顶级刊物。

据悉,IEEE TKDE主要关注知识发现和数据挖掘、数据库和数据建模、并行分布式数据管理系统、数据密集型可扩展计算系统结构、搜索引擎以及数据工程应用等领域的最新研究进展和技术。该期刊审稿过程专业严谨,在数据挖掘领域享有很高的学术声誉。信也科技与浙大的这篇合作论文被收录,这既是信也科技与高校合作成效的直接体现,也是信也科技始终致力科研斩获的又一硕果。

着眼复杂网络基础数据缺陷问题

“网络”或者“图”作为一种重要的数据形态,在很多领域中扮演着越来越重要的角色,如社交网络网络分析、搜索与推荐、生物化学分子结构分析等。而在金融领域,将用户、设备、公司、账户等作为节点,构建网络数据,并在此基础上进行反欺诈的方式也已经带来了实际的商业和社会价值。信也科技作为金融科技领域的领军企业具备较高的科技能力,在业务中已实际利用复杂网络结构,结合机器学习技术,快速、精准识别并锁定不良中介和欺诈团伙,并将相关成果发表于2019年CIKM的oral论文“Understanding Default Behavior in Online Lending” 。

然而,由于采样不完全、数据不可得、量化标准有误差等等原因,现实中收集到的数据一般带有偏差和噪声。而复杂网络数据由于关注节点之间的关联,更容易受到缺失和噪声的影响,从而波及下游任务,比如不良中介识别、欺诈团队识别等。

此次由信也科技与浙江大学杨洋副教授团队合作完成的论文“Robust Network Enhancement from Flawed Networks”,便旨在解决上述在复杂网络领域中基础而重要的问题:大规模网络数据中的缺陷检测。这种网络的缺陷,可能是由带缺陷的节点或者带缺陷的边引起的,此次发表的论文专注于解决带缺陷的边引发的问题。期望给整个领域提供一种独特视角出发的有效缺陷边检测算法,提升复杂网络领域算法的噪声鲁棒性,即系统的健壮性。

首次提出联合学习网络缺失边和噪声边

据了解,上述带缺陷的边可分为噪声边和缺失边。噪声边,即为真实情况下并不存在的边,比如用通话网络来构建社交状况,可能因为误拨的电话或者一些推销、外卖电话而加上了一些不反映社交状况的边;缺失边,则是真实情况下存在,数据中却并没有观测到的边,比如以用户之间的转账来构建关系网络,一家银行往往只有用户在本行转账的数据,而观察不到本来存在的他行转账数据。

许多学者已关注到,缺陷边的问题可能引发下游任务的误导性结论,并进行了大量的相关研究。而该篇论文的一个重要贡献是充分考虑了缺失边与噪声边的识别会相互影响(如图1(c)&(d)),提出了E-Net(Enhancement Network model),一个端到端的基于图神经网络的模型,来联合学习噪声边和缺失边。一方面,噪声边被识别出来并去除掉,会有利于缺失边的预测;另一方面,缺失边预测的目标函数可以为噪声边的识别提供间接的监督。由于在很多实际场景中都不容易获取一条边是否是噪声边的标签,这样的半监督学习框架使得模型对噪声具有很强的鲁棒性。

信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE

图1:在统一框架内识别缺失边和噪声边的示意图

对于大规模网络,使用整个网络去推断节点之间的关系(比如缺失边、噪声边)会带来无法承受的计算量。另一方面,使用整个网络进行训练,还会导致模型很难外推到新加入的节点和边上,从而影响应用到实际场景。许多学者采用了子图提取来解决这个问题,即针对任意一对关注的节点,仅提取它们周围子图来推断该节点对之间的关系。

论文的另一个重要贡献就是提出了一种RWR(Random Walk with Restart)子图提取方法(如图1(b))。相较于传统的子图提取方法(如图1(a)),RWR不再抽取固定的一跳或两跳邻居,从而可以(1)抽取的子图规模不随节点邻居数爆炸;(2)既包含局部又包含全局的图结构。

信也科技AI团队负责人王春平表示:“此算法最强大的优势在于不需事先知道噪声标签,就能通过缺失边的预测来对噪声边进行半监督学习,从而大大提升算法对噪声的鲁棒性。” 论文中工作的有效性已在多个实验中得到了验证。相对于不去噪的模型,对缺失边的预测F1可以提升大约10%,相对于分步识别噪声边和预测缺失边的模型,F1可以提升2%左右。在进行了去噪和缺失填补两方面的网络增强以后,对下游节点分类问题也有很大帮助,F1大概提升4~5%。网络增强已经成为信也科技复杂网络算法挖掘的一个重要环节,并已逐步投入实际业务应用,大大提升了算法的鲁棒性。

目前,信也科技完备的自研技术已实现了对业务流程的全覆盖,如人脸识别、多场景OCR、声纹识别等多模态核身、增信技术,语音识别、意图识别、对话管理、语音生成等全流程智能对话机器人技术,以及基于复杂网络的不良中介识别和团伙识别技术等。此外,还形成了智能投放、精准营销、核身、反欺诈、风控决策流、Automl模型平台和智能机器人等一系列AI产品。

科技领域累累硕果的背后,是信也科技始终着眼于科技并致力于科研的信念,亦是信也科技来自海内外顶级高校与知名科技企业的相关研究人员以及加州理工大学、加州大学洛杉矶分校、浙江大学等高校的多名担任科学顾问的教授的辛劳与汗水。此前,信也科技已与浙江大学共建人工智能实验室,并同中国人民大学建立了战略伙伴关系,长期保持积极的合作。本次被IEEE TKDE收录的论文即为校企科研合作的阶段性成果之一。

今后,信也科技将继续保持对科技研发的关注与投入,并进一步加深与高校的科研合作,力求在相关领域进行新尝试与新突破,努力实现“科技,让金融更美好”的使命。

(先睹为快:论文将刊登在下一期TKDE,Early Access电子版 )

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )