VB.net 2010 视频教程

VB.net 2010 视频教程

python基础视频教程

SQL Server 2008 视频教程

c#入门经典教程

Visual Basic从门到精通视频教程

当前位置:

首页 > 编程开发 > 数据分析 >

带你入门Python爬虫，8个常用爬虫技巧盘点

python作为一门高级编程语言，它的定位是优雅、明确和简单。

我学用python差不多一年时间了，

用得最多的还是各类爬虫脚本，注意：很多人学Python过程中会遇到各种烦恼问题，没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙：七衣衣九起起巴而五（数字的谐音）转换下可以找到了，不懂的问题有老司机解决里面还有最新Python教程项目可拿,，一起相互监督共同进步！

写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本

写过自动收邮件的脚本、写过简单的验证码识别的脚本。

这些脚本有一个共性，都是和web相关的，

总要用到获取链接的一些方法，故累积了不少爬虫抓站的经验，

在此总结一下，那么以后做东西也就不用重复劳动了。

1、基本抓取网页

get方法

post方法

2.使用代理服务器

这在某些情况下比较有用，

比如IP被封了，或者比如IP访问的次数受到限制等等。

3.Cookies处理

是的没错，如果想同时用代理和cookie，

那就加入proxy_support然后operner改为，如下：

4.伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。

这时候我们需要伪装成浏览器，

这可以通过修改http包中的header来实现：

5、页面解析

对于页面解析最强大的当然是正则表达式，

这个对于不同网站不同的使用者都不一样，就不用过多的说明。

其次就是解析库了，常用的有两个lxml和BeautifulSoup。

对于这两个库，我的评价是，

都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，

但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；

lxmlC语言编码，高效，支持Xpath。

6.验证码的处理

碰到验证码咋办？

这里分两种情况处理：

google那种验证码，没办法。

简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，

这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，

然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，

然后把验证码和特征库进行比较。

这个比较复杂，这里就不展开了，

具体做法请弄本相关教科书好好研究一下。

7. gzip/deflate支持

现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，

以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。

这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩

要返回压缩格式，必须在request的header里面写明’accept-encoding’，

然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。

如何让urllib2自动支持gzip, defalte呢？

其实可以继承BaseHanlder类，

然后build_opener的方式来处理：

8、多线程并发抓取

单线程太慢的话，就需要多线程了，

这里给个简单的线程池模板这个程序只是简单地打印了1-10，

但是可以看出是并发的。

虽然说Python的多线程很鸡肋

但是对于爬虫这种网络频繁型，

还是能一定程度提高效率的。

9. 总结

阅读Python编写的代码感觉像在阅读英语一样，这让使用者可以专注于解决问题而不是去搞明白语言本身。

Python虽然是基于C语言编写，但是摒弃了C中复杂的指针，使其变得简明易学。

并且作为开源软件，Python允许对代码进行阅读，拷贝甚至改进。

这些性能成就了Python的高效率，有“人生苦短，我用Python”之说，是一种十分精彩又强大的语言。

栏目列表

JavaScript+JQuery从入门到精通视频教程

VB.net 2010 视频教程

VB.net 2010 视频教程

Java视频教程

VB.net 2010 视频教程

最新更新

Python正则表达式完全指南

爬取豆瓣Top250图书数据

shp 地图文件批量添加字段

爬虫小试牛刀（爬取学校通知公告）

【python基础】函数-初识函数

【python基础】函数-返回值

HTTP请求：requests模块基础使用必知必会

Python初学者友好丨详解参数传递类型

如何有效管理爬虫流量？

2个场景实例讲解GaussDB(DWS)基表统计信息估

常用的 SQL Server 关键字及其含义

动手分析SQL Server中的事务中使用的锁

openGauss内核分析：SQL by pass & 经典执行

一招教你如何高效批量导入与更新数据

天天写SQL，这些神奇的特性你知道吗？

openGauss内核分析：执行计划生成

[IM002]Navicat ODBC驱动器管理器未发现数据

初入Sql Server 之存储过程的简单使用

SQL Server -- 解决存储过程传入参数作为s

JavaScript判断两个数组相等的四类方法

js如何操作video标签

React实战--利用甘特图和看板，强化Paas平

【记录】正则替换的偏方

前端下载 Blob 类型整理

抽象语法树AST必知必会

关于JS定时器的整理

JS中使用Promise.all控制所有的异步请求都完

js中字符串的方法

import-local执行流程与node模块路径解析流程