VB.net 2010 视频教程

VB.net 2010 视频教程

python基础视频教程

SQL Server 2008 视频教程

c#入门经典教程

Visual Basic从门到精通视频教程

当前位置:

首页 > 编程开发 > Python基础教程 >

python基础教程之【Python必学】Python爬虫反爬策略你肯定不会吧？

本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

正文

Python爬虫反爬策略三部曲，拥有这三步曲就可以在爬虫界立足了:

浏览器伪装
IP代理池和用户代理池构建
动态页面加载解决方法
注意：如果你Python基础不够扎实，建议先学好再来，缺Python最新教程的可以点击下方链接自行获取
http://note.youdao.com/noteshare?id=a3a533247e4c084a72c9ae88c271e3d1

网站反爬机制常用的方法：

1、通过识别访问的headers来判断是爬虫还是浏览器访问，其中最常用和最重要的就是User-Agent用户代理，服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端的操作系统，页面排版等信息，正是因为这个原因手机和电脑打开的同个网站的页面的排版是不同的，常用的还有Referer等字段；

2、通过用户行为，要是通过一个IP短时间内大量访问数据，该网站可能对这个IP进行短时间的禁止访问，这个可以增加访问延时时间，比如每访问一次延时time.sleep(5),延时5秒，要是爬取的数据量大的话这个爬取时间是挺蛋疼的，最好的方法就是同时构建用户代理池和IP代理池，每访问几次就换一个用户代理和IP代理就完美解决了；

3、动态页面加载，可以通过抓包分析出页面加载的规律然后构造批量请求，如果文件是加密的，可以使用selenium+phantomJS浏览器内核来访问，这个是真实的用户行为，速度比较慢，可以浏览器操作的部分交给selenium+phantomJS，爬取的功能交给爬虫实现，虽然比纯爬虫慢，但是也没办法了。

先来第一部曲

浏览器伪装

通过Request添加headers
通过Opener添加headers
批量添加headers

通过Request添加headers

import urllib.request
url="https://qiushibaike.com"
headers={"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36"}
req=urllib.request.Request(url,headers=headers)
#对request进行封装
data=urllib.request.urlopen(req).read().decode("utf-8","ignore")

通过Opener添加headers

基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能，要支持这些功能必须使用build_opener()函数来创建自己的自定义Opener对象

install_opener(opener)安装opener作为urlopen()使用的全局URL opener,即意味着以后调用urlopen()时都会使用安装的opener对象。

import urllib.request
url="https://www.qiushibaike.com/"
headers=("User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
#使用自定义的伪装浏览器进行访问
urllib.request.install_opener(opener)
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
#也可以安装为全局，意味着以后调用urlopen()函数都会使用安装的opener对象

通过批量添加headers

import urllib.request
url="https://qiushibaike.com"
headers={
"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36",
"Referer":"https://qiushibaike.com"
}
#这里只是做一个演示，可以添加更多的字段，有些字段是不用的，有些字段是要的，这个可以进行抓包分析请求需求
opener=urllib.request.build_opener()
headerall=[]
for key,value in headers.item():
item=(key,value)
headerall.apend(item)
#[("",""),("","")] 遍历存储以后的形式
opener.addheaders=headersall
urllib.request.install_opener(opener)
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

浏览器伪装可以解决大部分网站的反爬机制，大型网站反爬机制就比较复杂点了，后面更新构建IP代理和用户代理，动态页面加载的解决方法

栏目列表

JavaScript+JQuery从入门到精通视频教程

VB.net 2010 视频教程

VB.net 2010 视频教程

Java视频教程

VB.net 2010 视频教程

最新更新

MAC自带Apache配置python3

【Python必学】Python爬虫反爬策略你肯定不

flask与Flask-CORS的使用

flask 与 SQLAlchemy的使用

python连接Oracle工具类

python创建文件夹

如何利用python爬取网易新闻

Python 爬取猫眼电影《无名之辈》并对其进

Odoo12之开发过程中可能出现的问题

.Net Standard（.Net Core）实现获取配置信息

Linux PXE + Kickstart 自动装机

Shell 编程基础

Shell 编程条件语句

CentOS8-网卡配置及详解

Linux中LVM逻辑卷管理

1.数码相框-相框框架分析(1)

Ubuntu armhf 版本国内源

Linux中raid磁盘阵列

搭建简易网站

mysql 安装了最新版本8.x版本后的报错：

Mysql空间数据&空间索引(spatial)

如何远程连接SQL Server数据库的图文教程

复制SqlServer数据库的方法

搜索sql语句

sql中返回参数的值

sql中生成查询的模糊匹配字符串

数据定义功能

数据操作功能

将Session值储存于SQL Server中