当前位置:
首页 > temp > python入门教程 >
-
Python爬虫实战,Scrapy实战,爬取旅行家游记信息
前言
我们先爬些简单点的内容,爬取汽车之家旅行家中的所有游记信息,让我们愉快地开始吧~
开发工具
Python版本:3.6.4
相关模块:
scrapy模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
资料推荐
scrapy入门教程:
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
Scrapy框架入门简介:
https://segmentfault.com/a/1190000013178839
原理简介
首先,我们在cmd窗口输入下图所示的命令,从而新建一个爬虫项目:
我们需要爬的网站是:
https://you.autohome.com.cn/index/searchkeyword#pvareaid=2174276¤tView=best
简单抓包就可以发现这个:
那么我们就爬这个。我们可以发现这个ajax请求返回的数据有:
该页所有游记的标题、摘要、日期、浏览量等等。
OK,明确了爬取目标之后,我们就可以开始写代码了。首先,打开爬虫项目里的item.py文件,定义一下我们要爬取的内容:
然后打开setting.py文件,定义一下请求头,并选择不遵守robots协议:
最后,在spiders文件夹内新建一个spider.py文件,并在该文件内编写我们的爬虫代码:
文章到这里就结束了,感谢你的观看,关注我每天分享Python模拟登录系列,下篇文章分享爬取并简单分析安居客租房信息。
为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。
干货主要有:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
All done~完整源代码+干货详见个人简介或者私信获取相关文件。。
出 处:https://www.cnblogs.com/daimubai/p/14863003.html
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数