当前位置:
首页 > temp > python入门教程 >
-
Python爬虫案例教学演示:爬取“绝对领域”二次元小姐姐图片
前言
今天带大家采集一个二次元图片网站, 里面漂亮的小姐姐层出不穷,图片的数据量也是比较大的, 来一睹为快吧! !
开发环境介绍:
python 3.6
pycharm
requests
parsel
os
爬虫案例数据采集一般步骤:
-
找数据对应的链接地址
-
代码发送地址的请求
-
数据解析<解析我们要的数据>
-
数据保存(本地)
1. 首先第一步,找到对应的链接地址
因为是静态网页,所以数据很容易就找到了
# url编码: 中文在请求和响应的时候转码, http协议默认不支持中文, 由 % 字母 数字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表浏览器身份标识 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 代码发送地址的请求
response = requests.get(url=request_address, headers=headers) html_data = response.text # 字符串 -- 正则 print(html_data)
请求一下,看看对不对
3. 数据解析<解析我们要的数据> html数据, xpath
selector = parsel.Selector(html_data) # 转换数据类型 lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相册的标签 for li in lis: # 一个一个操作相册标签对象 pic_title = li.xpath('.//h2/a/text()').get() # 相册标题 pic_href = li.xpath('.//h2/a/@href').get() # 相册地址 print(pic_title, pic_href)
4. 保存数据
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f: f.write(img_data) print('保存完成:', pic_name)
出处:https://www.cnblogs.com/qshhl/p/15040082.html
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数