21世纪是信息的社会,金钱总是和信息挂钩,掌握了有利信息,自然会有财富。

反爬虫是什么

要讲清楚反爬虫是什么,我们需要先知道爬虫是什么,有什么用?我们最常使用的百度和谷歌等 搜索引擎或者其他的网站导航,都是通过一种叫做爬虫的东西,先从互联网上面把内容爬取回来, 最后通过筛选和评级,选择出某个关键词内容的分级和分类,当你通过浏览器搜索某个关键词的 时候,浏览器会把相关的内容分类并分级发送给你,那么搜索引擎后台负责爬取互联网内容的工具 就是爬虫。广义上的爬虫就是指网页机器人,像搜索引擎这类爬虫,属于有利爬虫,另外一类通过 网页机器人非法获取网页上面有价值内容的机器人,我们就认为他是”bad bot”,反爬虫的重要 工作就是筛选出这类爬虫,然后予以一定的惩罚。

为什么需要反爬虫

这两年一个比较大的变化是很多桌面服务目前都在向云服务演变,几乎所有服务提供商都有其官网, 有的甚至是靠官网来发挥企业价值,随着越来越多的云服务出现,那么信息的大门也慢慢都敞开了, 正常用户和违规爬虫自然混杂在一起,但是这些违规爬虫会盗取企业有价值的“信息资产”,同时也会 增加服务提供商的服务成本,影响正常的运营。

为什么要做

国内市场

botsonar

目前市面上经过权威机构评级的反爬虫服务主要集中在国外,包括 Distil 和 shieldsquare两家, 国内市场处于初级阶段,这类产品中实际推出的很少,很大一部分都是作为边缘功能集成在其他安全 服务中,并不能灵活应对各种场景。

技术落伍

目前由于市面上没有大规模应用的、可信的反爬虫产品,所以这一块宣传也比较少,可以认为很大一部分 是传统的防御方式,比如常见的UA,IP防护,Cookie等,这种方式在当前资源成本下降的时代,攻击者 只需要付出极低的成本便可以达到盗取数据的目的,另外不排除市面上有利用传统机器学习来进行防御对抗的, 但是其需要大量可信的样本作为奠基,但是在产品没有得到推广以前,这部分AI的效果就很难评估,略胜于无。

本期主要介绍了:

  • 什么是爬虫?web机器人
  • 为什么这个产品是被需要的?信息社会,保护无形的信息资产
  • 为什么要自己做?国内市场空缺,技术有待改进

下期介绍常见网站爬虫。