(3)写一个具体的URL来拉取网页信息。比如:
1
2
3
4
5
6
7
8
|
#获取全国所有城市列表的方法 def handle_city( self ): city_search = re. compile (r 'www\.lagou\.com\/.*\/">(.*?)</a>' ) city_url = "https://www.lagou.com/jobs/allCity.html" city_result = self .handle_request(method = "GET" ,url = city_url) #使用正则表达式获取城市列表 self .city_list = set (city_search.findall(city_result)) self .lagou_session.cookies.clear() |
第二部分:将拉取的数据存入数据库。
将数据库字段与获取到的JSON数据对应,代码简单就不举例了。
主要是用到数据库的session信息;通过导包,获得该数据库连接的Session对象,然后操作数据库。
1
2
3
4
|
#插入数据 self .mysql_session.add(data) #提交数据到数据库 self .mysql_session.commit() |
第三部分:将数据库数据以Echarts工具展示出来。
可以查看官网有教学: https://www.echartsjs.com/zh/index.html
主要也是去修改js文件,比较简单;这里就不做示范了。
全部代码,可以去本人的Githup上下载。
注意:本次爬虫教学并不是本人所原创,只是分享一下学习结果。