百度推广信息审核的三重门

为大规模用户提供的互联网服务,从一开始就要提前考虑的问题是什么呢?答案是反垃圾(anti-spam)。如果互联网服务不具备反垃圾能力,正常的服务根本开展不下去,在流行起来之后分分钟会被网络垃圾摧毁。这也是为何美国第七大网站,分类目录鼻祖Craigslist只有几十个人的团队里,超过三分之二是反垃圾技术人员的原因。

近日,百度公布了一组数据来证明自身在信息审核方面的进展与努力,披露出来的数字极为惊人。百度目前已屏蔽有害链接38亿条,站点级别已超1亿个。2015年百度的广告系统已拒绝了不良账户438300个,判罚的违规消费金额达到了4.67亿元,还为公安机关提供了许多造假售假线索。

百度是世界上流量最大的网站之一,也是中国大陆流量最大的网站,日搜索请求达60亿次以上。百度用户是最具多样性特征的,用户属性可以说是无所不包,这也正应了那句话,林子大了什么鸟都有。门类齐全的有害信息,包括违法与有害广告,都想通过百度这个平台进行传播,如果百度不具备相应的反垃圾技术和有害信息过滤技术,是根本做不到如今这个规模的。

这世界上所有的搜索引擎,无一例外都会遇到类似问题。谷歌2015年全年共去除了7.8亿条违反其政策的广告,比2014年的5.24亿条增长了近50%。这个增长率比正常商业广告还快,有数不清的违法广告希望通过搜索引擎谋取利益,不把好关就天下大乱了。百度也一样,每天有4.7亿条广告通过百度广告系统送审,每秒要处理5000条以上,这基本已不是人力能解决的问题了。同谷歌一样,百度也主要是通过技术手段来对广告进行审查和过滤。据披露,百度为此有专门的“黑科技”系统,负责审查甄别各种虚假违规推广内容。

不同的反垃圾技术,在处理原则上都是一样的,首先是机器发现异常内容后提交进一步审核的预警机制、第二是发现异常内容后的批量处理机制、第三是处理完异常内容之后防止再次出现的屏蔽机制。这几个步骤说起来容易,做起来很难,尤其对百度这样流量巨大的公司来说。技术跟不上的话就只能增加人工审核力量,这会给公司造成巨额成本支出,而技术跟不上又花不起钱的话,公司迟早会被垃圾信息拖死。好在,经过十几年运营经验和技术研发的积累之后,百度已拥有了一套非常有效的机器审核过滤系统。

以大数据为基础的“雷达系统”,是百度在审核与过滤有害信息及非法广告的一个利器,可以实现对95%以上的信息进行自动审核。这个系统与百度搜索本身有相似之处,通过将信息的IP、ID,来源,语义内容等素材进行大数据比对,从而发现有害信息及违法广告。系统拥有强大的数据采集能力,丰富的数据分析维度,还有快速而准确的瞬时数据处理能力,这其中的每一种技术都不是大多数公司所能够掌握的。

在一个包含10万字节的word文档中,个人PC基本能做到瞬间就将相同的字词找出来,可如果需要查询的字节是10亿量级的,且来自于开发标准不同,包含各种层级体系的网页,还需要将不同维度的变量集中到一个结果中,且瞬间反应,那就不是一件容易的事情了。这首先需要相当高超的数据算法,还要有周密严谨的多个数据模型,更需要有搭建大规模计算机运算系统的能力。在互联网行业中,这些技术的总和相当于大当量“核武器”。

当然,在目前的技术条件下,机器系统再先进也不能解决所有问题。以百度的审核与过滤系统来说,系统最多能让审核与过滤过程更有效率,成本更低,但还是有一些特别有技术含量的有害信息及非法广告,还是需要依赖人工的。例如一些使用flash技术的动态广告,提交时是正常的,几个小时后也许就变成别的了。对这类广告,虽然用系统能过滤掉大部分,但还是会有一部分需要进行人工审核。

技术系统同人一样,无法做到见微知著,对任何细微的个性化特征都做到正确反应。在百度雷达系统里跑过一遍的信息,一定有漏网的,也一定有被冤杀的,一般情况下机器系统发现有问题但又难以下结论的信息,都会被提交到人工审核系统进行审核。目前百度的审核团队有几千人之众,这几千人负责漏杀或误杀的信息审核,三班倒24小时不间断对信息进行审核,尽量减少问题发生。

技术和人工共同发力抵制有害信息与非法广告,并不是完结,机制与规则方面的建设其实也非常重要。百度有自己对商家的加V认证体系,按照信用等级将企业和商家分为V1、V2、V3三个级别,根据实际情况动态升级和降级,2015年四季度有27000个诚信企业升级,同时也有29700个不良商家受到了降级的惩罚。信用等级的升降完全基于客观条件得出结论,找李彦宏也是没用的。

除了商家加V认证体系,百度口碑也是百度推广信誉体系的一个重要组成部分。百度口碑一方面是商家掌握用户口碑舆情、加强与用户互动、倾听消费者反馈的渠道,另一方面也是用户查询商家产品服务口碑、消费体验反馈、表达评价的平台。不同于其他“遍地好评”的平台,截至2016年1月,百度口碑的数据中,五星好评占79%,四星到二星的中评占15%,一星差评也有6%。

搜索引擎是通用的流量入口,也是用户寻找互联网信息及服务的一道门,太多形态各异的角色想要利用这扇门达到自己的暗黑目的。对于百度来说,虽然好客人和坏客人都能给自己带来收入,但百度还是一直在严格运用各种手段将坏客人拒之门外的,因为唯有保持一个良好的在线推广运营环境,一个始终是良币驱逐劣币的良性网络空间,百度的长期利益才能真正得到保障。

百度在消灭有害信息及非法推广方面的努力,包括技术上的和机制上的研发与建设,人力上财力上的投入与付出,都不会是一种无法收回的成本,而恰恰是一种相当重要的投资。百度把守着互联网的大门,亿万用户从百度经过,始终为用户营造良好的网络环境,百度义不容辞,其一直对违规虚假推广的严厉打击,也值得赞许。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2016-02-05
百度推广信息审核的三重门
为大规模用户提供的互联网服务,从一开始就要提前考虑的问题是什么呢?答案是反垃圾(anti-spam)。如果互联网服务不具备反垃圾能力,正常

长按扫码 阅读全文