当前位置:
首页 > temp > python入门教程 >
-
python 爬去拉钩测试招聘信息
代码如下:
1 #coding:utf-8 2 import time 3 import urllib.request 4 from bs4 import BeautifulSoup 5 file=open(r'meituancde.txt','w') 6 def get_url(i): 7 url='https://www.lagou.com/zhaopin/ceshi/%s/?filterOption=%s'%(i,i) 8 return url 9 def get_html(i): 10 headers={ 11 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 12 } 13 response=urllib.request.Request(url=get_url(i),headers=headers) 14 html=urllib.request.urlopen(response).read().decode('utf-8') 15 sopu=BeautifulSoup(html) 16 return sopu 17 def parse(i): 18 soup=get_html(i) 19 me=soup.findAll('',{'class':'money'}) #工资 20 me1=soup.findAll('',{'class':'format-time'})#发布时间 21 me2=soup.findAll('',{'class':'li_b_r'})#福利 22 me3=soup.findAll('',{'data-lg-tj-id':'8F00'})#公司名字 23 meitu={} 24 i=0 25 for title in me: 26 meitu['gongzi'] =me[i].text 27 for jianjie in me1: 28 meitu['发布时间']=me1[i].text 29 for sellum in me2: 30 meitu['福利']=me2[i].text 31 for pire in me3: 32 meitu['公司名称']=me3[i].text 33 i+=1 34 print(meitu) 35 if len(meitu) !=0: 36 file.write(str(meitu)) 37 file.write("\n") 38 file.close 39 if __name__ == '__main__': 40 for i in range(1,31): 41 parse(i)
结果图:
来源:https://www.cnblogs.com/leiziv5/p/6533437.html
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数