原标题:想弄懂图网络为何如此强大,我们跟极验聊了聊|白洞战报
此前我们多期《白洞计划》中,都在探讨以深度学习为代表的AI与产业接轨的细枝末节。
其中,数据难以收集、处理任务难、模型训练成本高等等,已经是老生常谈的槽点了。而在众多解决方法中,近期来被提到最多的词就是——“图网络”技术。
简单来说,就是基于图(Graph)数据搭建起来的神经网络。它的特点是,在一开始就能读懂数据,尤其是非结构化数据之间的种种隐秘联系。
比如深度学习看到一张照片,只知道“你和图中另一个女人长得像”,但图网络知道“你们长得像因为她是你妈并且此时内心还有点想揍你”。论逻辑推理能力,后者是不是厉害多了?
但图网络技术究竟该怎么训练?有哪些具体的应用场景?又有着怎样与众不同的坑?真的是让AI萌新们旧愁未解又添新愁。本期《白洞计划》专门寻访了以“图数据平台”实践交互安全的极验,以及其服务的技术应用方,来共同为大家揭开图网络在安全领域的神机妙用。
穿越生死门:萦绕在直播平台头顶的安全之困
按照节目传统,我们本期邀请到的技术应用方,是一家直播平台。在交流过程中,对方的安全负责人孙总可真没少吐苦水,我们这才知道,原来花团锦簇、热闹非凡的直播平台背后,真实的生存环境和技术迭代的需求,简直是“南上加南”。
大致总结一下,目前直播平台面临的安全难题主要有两点:
一个是严峻的黑灰产“薅羊毛”现状。简单来说就是犯罪团伙通过批量账号观看直播,利用签到领福利、充当水军、领活动红包等形式攫取不当收益,消耗平台原本应该发放给主播和真人用户的奖励。但平台在排查问题账号时,如果不能及时快速准确地识别出异常行为,产生漏封、误封,都会造成一定的经营损失,或是影响平台的用户体验,比如说错误地给一个真人用户降低了视频码率。
另一个则是安全防御的投入产出平衡。尽管直播平台往往都会拥有自己的安全技术团队,但从与孙总的交流中我们得知,许多黑灰产或黑客们也在不断更新技术,利用算法攻击服务器、模仿真实轨迹等都已经是常见操作了。对于这种“长期抗战”,企业自身在产业场景行为数据的积累、算法模型的快速迭代等方面往往“心有余而力不足”,如果过度追求安全领域的天顶技术和持续对抗,又会过度消耗企业宝贵的现金资源。
可以说,如何应用数据、应用AI,进而帮助平台降低运营成本,维护健康的直播环境,提升网安保障的性价比,正在成为直播平台,也是千行万业长久生存下去的前提条件与新赛点。
图数据基座上的安全堡垒:新兴网络防护需要怎样的AI?
上述问题为什么需要特别用图网络技术来解决?从极验的安全解决方案中,我们或许可以找到答案。
简单来说,图数据+深度学习所训练出的图网络,在新型网络安全业务中扮演了三个重要的角色:
第一重角色是“守卫者”。
最直观地表现在对平台运营安全的保障上。
在互联网领域存在许多欺诈行为或隐藏攻击行为,比如恶意爬虫窃取平台用户数据,亦或是金融领域一个村子的人组团诈骗借贷,或是电商领域恶意利用平台漏洞疯狂“薅羊毛”,如何识别、侦查这些异常行为,就成了一道难题。
而图网络的优势在于,能够针对一些“非结构化”的数据,发现它们之间的关联,进而更容易洞察用户的行为轨迹及意图。
比如说,许多黑灰产在攻击网站或App时都会采用一些自动化的脚本,更先进的还会模拟一些真实人类的行为轨迹,借助图数据平台对正常用户的行为数据进行分析建模,最终生成的神经网络能够更好地找出这些“工具”留下的把柄,做到提前预警,从而为平台的数据资产安全保驾护航。
第二重角色是“精算师”。
图数据加入神经网络的另一个好处,就是能够直观地提升平台的智能处理效率,进而有效地降低运营成本。
要理解这一点,来自极验交互安全实验室的闫先生为我们举了一个现实中的例子。
在服务直播平台的过程中,极验发现他们对于音视频流媒体的涉黄涉暴内容识别有很高的需求,稍有不慎就会面临审查、App下架整改等风险。但利用传统的深度学习图像分割技术,需要每一帧每一帧地进行处理、识别,背后对应的则是极高的算力成本。
如何对多维度的内容实现毫米级的精准识别,能够认知图像中复杂关联的图数据平台,采用分布式和并行训练的方式,对十亿级别的大图数据进行高效学习,能更好地适应此类企业的业务需求。
第三个角色是“激活酶”。
最直接的理解就是,作为关键媒介来激活企业深埋于数据库中的数据资产。
极验的闫先生告诉我们,目前还有大概60~70%的数据没有真正被大家所利用起来,原因之一就是里面有非常多的结构化数据,是传统深度学习神经网络很难处理的。
未来一旦激活了这些隐形资产,对产业价值和业务增长都将会是潜力的极大释放。
举个最直观的例子,社交网络就是最为典型的非结构化数据,A关注了B,B点赞了C的微博,D又转发了某个文章,人与人、人与内容、话题与文章之间都存在着千丝万缕的关系,很难用数据库的形式来储存。
而通过图数据建模平台的搭建,将这些关系型数据收集起来,进行上层的算法建模,就可以实现一些前所未有地分析。进而帮助平台改善用户体验,或者真正实现千人千面的商品推送等等,这些都会进一步激活产业对AI新的价值想象。
当然通过交流,我们也了解到了极验作为图网络技术的先行者与实践者,在现实中遇到的一些真实的阻碍。
其中最头疼的一个,就是客户层面的技术疑虑。
闫先生直言,刚开始接触对方直播平台的时候,他们对极验的产品是有一定疑虑的。一方面出于对图网络技术本身的不理解,另一方面则来自于技术与业务能否顺利耦合的困惑。
在此基础上,极验通过对直播行业的充分调研,比如分析平台的支出结构(一部分在宽带和CDN上,一部分在主播工资上),进而打造了交互模型打击黑灰产+内容模型提升计算效率,这样一个双效节省运营和工资成本的综合解决方案,才最终拿下。
极验也告诉我们,在今年7月份,他们刚刚发布了一款叫叠图的产品,基于GCN(图神经网络)来解决不限于安全领域的各行各业的业务难题。
由此看来,今天的产业智能化浪潮,需要的不仅仅是企业自身的认知迭代,AI技术也在一步步挑战更高的穹顶,突破自身的瓶颈。
与此同时,整个互联网和物理世界的数据复杂度也会越来越交融,也越来越复杂,无论是安全问题,还是其他诸如业务增长、体验优化,更优质的AI与技术服务,也孕育在这些变局之中。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。