python爬虫框架scrapy实例详解(4)

当前位置:

首页 > Python基础教程 >

python爬虫框架scrapy实例详解(4)

相比BaseSpider，新的类多了一个rules属性，这个属性是一个列表，它可以包含多个Rule，每个Rule描述了哪些链接需要抓取，哪些不需要。这是Rule类的文档http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

这些rule可以有callback，也可以没有，当没有callback的时候，scrapy简单的follow所有这些链接.

pipelines.py的使用

在pipelines.py中我们可以添加一些类来过滤掉我们不想要的item，把item保存到数据库。

						from scrapy.exceptionsimport DropItem

						class FilterWordsPipeline(object):

						    """A pipeline for filtering out items which contain certain words in their

						    description"""

						    # put all words in lowercase

						    words_to_filter= ['politics','religion']

						    def process_item(self, item, spider):

						        for wordin self.words_to_filter:

						            if wordin unicode(item['description']).lower():

						                raise DropItem("Contains forbidden word: %s" % word)

						        else:

						            return item

如果item不符合要求，那么就抛一个异常，这个item不会被输出到json文件中。

要使用pipelines，我们还需要修改settings.py

添加一行

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

现在执行scrapy crawl dmoz -o items.json -t json，不符合要求的item就被过滤掉了

栏目列表