VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > Python基础教程 >
  • 大厂在用的Python反爬虫手段,破了它!

SVG 映射反爬虫

SVG 是用于描述二维矢量图形的一种图形格式。它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量。矢量图形的这个特点使得它被广泛应用在 Web 网站中。

接下来我们要了解的反爬虫手段正是利用 SVG 实现的,这种反爬虫手段用矢量图形代替具体的文字,不会影响用户正常阅读,但爬虫程序却无法像读取文字那样获得 SVG 图形中的内容。由于 SVG 中的图形代表的也是一个个文字,所以在使用时必须在后端或前端将真实的文字与对应的 SVG 图形进行映射和替换,这种反爬虫手段被称为 SVG 映射反爬虫。

 

6.3.1 SVG 映射反爬虫绕过实战

示例 6:SVG 映射反爬虫示例。

网址:http://www.porters.vip/confusion/food.html。

任务:爬取美食商家评价网站页面中的商家联系电话、店铺地址和评分数据,页面内容如图 6-15

所示。

图 6-15 示例 6 页面

在编写 Python 代码之前,我们需要确定目标数据的元素定位。在定位过程中,发现一个与以往不同的现象:有些数字在 HTML 代码中并不存在。例如口味的评分数据,其元素定位如图 6-16 所示。

图 6-16 评分数据中口味分数元素定位

根据页面显示内容,HTML 代码中应该是 8.7 才对,但实际上我们看到的却是:

HTML 代码中有数字 7 和小数点,但没有 8 这个数字,似乎数字 8 的位置被 d 标签占据。而商家电话号码处的显示就更奇怪了,一个数字都没有。商家电话对应的 HTML 代码如下:

包含很多的 d 标签,难道它使用 d 标签进行占位,然后用元素进行覆盖吗?我们可以将 d 标签的数量和数字的数量进行对比,发现它们的数量是相同的,也就是说一对 d 标签代表一个数字。

每一对 d 标签都有 class 属性,有些 class 属性值是相同的,有些则不同。我们再将 class 属性值与数字进行对比,看一看能否找到规律,如图 6-17 所示。

图 6-17 class 属性值和数字的对比

从图 6-17 中可以看出,class 属性值和数字是一一对应的,如属性值 vhk08k 与数字 0 对应。根据这个线索,我们可以猜测每个数字都与一个属性值对应,对应关系如图 6-18 所示。

图 6-18 数字与属性值对应关系

浏览器在渲染页面的时候就会按照这个对应关系进行映射,所以页面中显示的是数字,而我们在 HTML 代码中看到的则是这些 class 属性值。浏览器在渲染时将 HTML 中的 d 标签与数字按照此关系进行映射,并将映射结果呈现在页面中。映射逻辑如图 6-19 所示。

图 6-19 映射逻辑

我们的爬虫代码可以按照同样的逻辑实现映射功能,在解析 HTML 代码时将 d 标签的 class 属性值取出来,然后进行映射即可得到页面中显示的数字。如何在爬虫代码中实现映射关系呢?实际上网页中使用的是“属性名数字”这种结构,Python 中内置的字典正好可以满足我们的需求。我们可以用 Python 代码测试一下,代码如下:

这段代码的逻辑是:首先定义属性值与数字的映射关系,然后假设一个 HTML 中 d 标签的属性值,接着将这个属性值的映射结果打印出来。代码运行后得到的结果为:

运行结果说明映射这种方法是可行的。接着我们试一试将商家的联系电话映射出来:

运行结果为:

我们使用映射的方法得到了商家联系电话,说明 SVG 映射反爬虫已经被我们绕过了。

6.3.2 大众点评反爬虫案例

这种映射手段不仅仅出现在本书的示例中,在大型网站中也有应用。大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为用户提供商户信息、消费点评及消费优惠等信息服务,同时提供团购、餐厅预订、外卖和电子会员卡等 O2O(Online To Offline)交易服务。大众点评网站也使用了映射型反爬虫手段,打开浏览器并访问 https://www.dianping.com/shop/14741057,页面如图 6-20 所示。

图 6-20 大众点评商家信息页

大众点评的商家信息页主要用于展示消费者对商家的各项评分、商家电话、店铺地址和推荐菜品等。我们可以看一看商家电话或评分的 HTML 代码,如图 6-21 所示。

图 6-21 商家电话 HTML 代码

大众点评中的商家号码并不是全部使用 d 标签代替,其中有部分使用了数字。但是仔细观察一下就可以发现商家号码的数量等于 d 标签数量加上数字的数量,说明 d 标签的 class 属性值与数字也有可能是一一对应的映射关系。感兴趣的同学可以使用示例 6 中的方法,尝试映射大众点评案例中的数字。

如果这种手段的绕过方法这么简单的话,那么它早就被淘汰了,为什么连大众点评这样的大型网站都会使用呢?我们继续往下看,大众点评的商家营业时间部分的 HTML 代码如图 6-22 所示。

图 6-22 大众点评商家营业时间

除了刚才的数字映射之外,大众点评还对中文进行了映射。此时如果按照示例 6 中人为地将 class 值和对应的文字进行映射的话,就非常麻烦了。试想一下,如果网页中所有的文字都使用这种映射反爬虫的手段,那么爬虫工程师要如何应对呢?对所有用到的文字进行映射吗?

这不可能做到,其中要完成映射的包括 10 个数字、26 个英文字母和几千个常用汉字。而且目标网站一旦更改文字的对应关系,那么爬虫工程师就需要重新映射所有文字。面对这样的问题,我们必须找到文字映射规律,并且能够使用 Python 语言实现映射算法。如此一来,无论目标网站文字映射的对应关系如何变化,我们都能够使用这套映射算法得到正确的结果。

这种映射关系在网页中是如何实现的呢?是使用 JavaScript 在页面中定义数组吗?还是异步请求API 拿到 JSON 数据?这都有可能,接下来我们就去寻找答案。

6.3.3 SVG 反爬虫原理

映射关系不可能凭空出现,一定使用了某种技术特性。HTML 中与标签 class 属性相关的只有 JavaScript 和 CSS。根据这个线索,我们需要继续对示例 6 进行分析。案例中商家电话的 HTML 代码为:

我们可以随意选择一对 d 标签,然后观察它对应的 CSS 样式有没有可以深入分析的线索,如果没有线索再看 JavaScript。 d 标签的 CSS 样式如下:

d 标签样式看上去没有什么特别之处,只是设置了 background 属性的坐标值。但是上方 d 标签的公共样式中设置了背景图片,我们可以复制背景图片的地址,在浏览器的新标签页中打开,d 标签背景图如图 6-23 所示。

图 6-23 标签背景图

d 标签的背景图中全部都是数字,这些无序的数字共有 4 行。但这好像不是一张大图片,我们查看该图片页面的源代码,内容如图 6-24 所示。

图 6-24 图片页面源代码

源代码中前两行表明这是一个 SVG 文件,该文件中使用 text 标签定义文本, style 标签用于设置文本样式, text 标签定义的文本正是图片页面显示的数字。难道这些无序的数字就是我们在页面中看到的电话号码和评分数字?

除了 class 属性值为 vhkbvu 的 d 标签,其他标签也使用了这个的 CSS 样式,但每对 d 标签的坐标定位都不同。它们的坐标定位如下:

坐标是定位数字的关键,要想知道坐标的计算方法,必须了解一些关于 SVG 的知识。

在本节开始的时候,我们简单地了解了 SVG 的概念,知道 SVG 是基于 XML 的。实际上它是用文本格式的描述性语言来描述图像内容的,因此 SVG 是一种与图像分辨率无关的矢量图形格式。打开文本编辑器,并在新建的文件中写入以下内容: