过半电商网站访问量来自爬虫!“爬虫AI化”给防控威胁带来新挑战

8月6日消息,近日,负责支持和保护网络生活的云服务提供商Akamai发布的最新SOTI报告《侵蚀您的利润:网络爬虫程序对电商行业有何影响》显示,在针对电商网站的69亿次请求进行分析时发现,人类访问行为占据了49%,即接近一半的访问量来自真实用户,而剩余的略多于一半则是由各类机器人“爬虫”完成的。其中,高风险类别的爬虫占据了总爬虫活动的27%,它们对企业的运营构成了严重威胁,可能执行诸如撞库、数据窃取、库存恶意抓取等恶意行为。

爬虫是“Robot”(机器人)的缩写,它是一段能够模拟正常用户行为的代码。与浏览器不同,爬虫在执行任务时更为高效且针对性强,能够迅速抓取目标信息。

业内根据爬虫行为性质与影响,将爬虫分为几大类:善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利;中性爬虫往往很嘈杂,尽管它们仍然是合法的;它们实际上是好机器人的一个子类别,包括不断发送请求的合作伙伴机器人和其他频繁调用程序API的机器人;而有害的爬虫,则可能从事撞库攻击、库存抓取等恶意行为,严重损害企业利益与安全。

那么,在电商环境中,不法分子如何利用爬虫技术从中获利呢?

通过爬虫技术来抢购“全网最低价”商品,进而倒卖赚取差价,是其中重要的一种获利方式。首先,爬虫会广泛搜集销售这些产品的网站数据,包括价格、库存等关键信息。随后,通过对比分析,找出价格最优、优惠力度最大的电商平台。基于这些信息,不法分子可能在另一个平台上开设店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。

当然,爬虫带来的问题远不止于此。对于电商网站而言,由于爬虫与真实用户的访问量相当,且爬虫通常部署在云端或高性能服务器上,其访问效率远超普通用户。这导致电商网站在处理爬虫请求时可能消耗大量资源,进而影响正常用户的访问体验,降低网站转化率。此外,爬虫还可能干扰市场营销分析工具的数据收集,导致决策依据失真。更糟糕的是,某些爬虫专注于抓取特定产品页面的深层链接,可能导致这些页面因请求量过大而无法正常服务。

Akamai北亚区技术总监 刘烨

Akamai北亚区技术总监刘烨向TechWeb表示,电商领域爬虫如此活跃背后,有几个原因:

一是,在电商领域,设计或编写一个爬虫程序已变得相当便捷,得益于互联网上广泛提供的“爬虫即服务”(Scraper as a Service, SaaS)模式。这些服务不仅简化了爬虫的开发流程,还提供了丰富的功能选项,从内容抓取到数据分析一应俱全。尽管它们中的大多数聚焦于中性爬虫应用,旨在帮助用户进行市场调研、竞品分析等非恶意活动,但同时也需警惕其潜在的滥用风险。

二是,随着技术的进步,爬虫服务日益智能化,融入了AI和机器学习技术,Bot变成了AI Botnets,它们能够自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,最终辅助用户制定竞争策略、优化产品定位及价格策略等。这种一站式解决方案,无论是对于寻求业务增长的合法用户,还是意图不当的恶意使用者,都提供了极大的便利。

需要注意的是,爬虫越来越难以识别。特别是采用“无头浏览器”等技术的爬虫,能够模拟人类访问行为,使得传统安全手段难以有效识别与拦截。同时,很多Botnets,尤其是AI Botnets,采用了多种“反封禁”策略,导致技术上识别变得更加困难。此外,爬虫会不断变化,防住一次后,下一次可能会出现变种,这对企业构成了巨大的挑战。传统安全手段难以有效识别与拦截。这要求电商网站必须采取更为先进的策略来区分正常访问与恶意爬虫。

对于企业和安全厂商来说,最大挑战就是识别爬虫的难度加大,管理和封禁这些爬虫的难度也随之增加。

对此,刘烨给电商企业利用和防控爬虫技术提出两步走建议:首先,要能够识别Bot;其次,针对不同类型的Bot,采取相应的应对措施。

Akamai提出了双重应对策略:首先,在边缘网络层面,我们利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。其次,通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。例如,对于扫描漏洞、抓取内容或窃取用户信息的恶意爬虫,采用更为严格的防护机制;而对于那些有助于提升网站质量或服务的良性爬虫,则采取更加灵活的管理策略。同时,Akamai采取更多自动化策略。当出现新的攻击类型时,不需要人为干预,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。这是应对快速变化的攻击类型和产品演进的重要措施。

Akamai以双重应对策略、边缘网络快速识别及机器学习精细化识别技术,不仅能够有效抵御恶意爬虫的侵害,还确保了电商网站的稳定运行与数据安全。随着网络威胁的不断演变,Akamai将持续创新,为企业提供更加智能、高效的安全解决方案,引领行业安全标准的新高度。(果青)

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-08-06
过半电商网站访问量来自爬虫!“爬虫AI化”给防控威胁带来新挑战
爬虫是“Robot”(机器人)的缩写,它是一段能够模拟正常用户行为的代码。

长按扫码 阅读全文