当前位置:
首页 > Python基础教程 >
-
python爬虫框架scrapy实例详解(3)
让scrapy自动抓取网页上的所有链接
上面的示例中scrapy只抓取了start_urls里面的两个url的内容,但是通常我们想实现的是scrapy自动发现一个网页上的所有链接,然后再去抓取这些链接的内容。为了实现这一点我们可以在parse方法里面提取我们需要的链接,然后构造一些Request对象,并且把他们返回,scrapy会自动的去抓取这些链接。代码类似:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
class MySpider(BaseSpider): name = 'myspider' start_urls = ( 'http://example.com/page1' , 'http://example.com/page2' , ) def parse( self , response): # collect `item_urls` for item_url in item_urls: yield Request(url = item_url, callback = self .parse_item) def parse_item( self , response): item = MyItem() # populate `item` fields yield Request(url = item_details_url, meta = { 'item' : item}, callback = self .parse_details) def parse_details( self , response): item = response.meta[ 'item' ] # populate more `item` fields return item |
parse是默认的callback, 它返回了一个Request列表,scrapy自动的根据这个列表抓取网页,每当抓到一个网页,就会调用parse_item,parse_item也会返回一个列表,scrapy又会根据这个列表去抓网页,并且抓到后调用parse_details
为了让这样的工作更容易,scrapy提供了另一个spider基类,利用它我们可以方便的实现自动抓取链接. 我们要用到CrawlSpider
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class MininovaSpider(CrawlSpider): name = 'mininova.org' allowed_domains = [ 'mininova.org' ] start_urls = [ 'http://www.mininova.org/today' ] rules = [Rule(SgmlLinkExtractor(allow = [ '/tor/\d+' ])), Rule(SgmlLinkExtractor(allow = [ '/abc/\d+' ]), 'parse_torrent' )] def parse_torrent( self , response): x = HtmlXPathSelector(response) torrent = TorrentItem() torrent[ 'url' ] = response.url torrent[ 'name' ] = x.select( "//h1/text()" ).extract() torrent[ 'description' ] = x.select( "//div[@id='description']" ).extract() torrent[ 'size' ] = x.select( "//div[@id='info-left']/p[2]/text()[2]" ).extract() return torrent |
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式