当前位置:
首页 > 编程开发 > Python基础教程 >
-
Python采集古代精品大作,品味古典文学佳作
不是吧不是吧,不会有人不知道这本文学作品吧
金P梅作为古代精品文学作品,作者的笔功力确实厉害,小弟佩服至极,所以今天来爬一爬,但是不准备看,主要是看不懂。
相信各位也只是学学技术,书有什么好看的~
你需要先准备这些
首先你要安装这两个模块
requests
parsel
键盘上按住win+r ,在弹出来的运行框输入cmd,确定后在弹出的命令提示符窗口输入 pip install 模块名 ,回车即可。
下载时间太长了就加上镜像源 ,例如这是清华镜像源https://pypi.tuna.tsinghua.edu.cn/simple
在模块名前面加上 -i 镜像源地址,如:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 模块名
————————————————————————————————————————————————————————————
目标地址
效果展示
爬取过程
爬取结果
完整代码
import requests import parsel url = 'https://www.改成目标地址.com/shu/3801.html' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) page_urls = selector.css('.panel-body dd a::attr(href)').getall() for page_url in page_urls: # print(page_url) try: new_url = 'https://www.tianyabook.com' + page_url response = requests.get(url=new_url, headers=headers) response.encoding = response.apparent_encoding selector = parsel.Selector(response.text) content = selector.css('#htmlContent::text').getall() title = selector.css('.page-header h1::text').get() html_data = ''.join(content) html_content = html_data.strip().replace('\n', '') with open('金p梅.txt', mode='a', encoding='utf-8') as f: f.write(title) f.write('\n') f.write(html_content) f.write('\n') print('{}已下载完成'.format(title)) except: print('None')
本次分享就到这里结束了,兄弟们赶紧试试吧~
出处:https://www.cnblogs.com/hahaa/p/15883371.html
最新更新
Java编程的逻辑-面向对象
深入浅出 JAXB:自定义映射方式
Golang与Java的区别
Python第三方模块安装方法
Python常用模块之OS使用
python如何发送邮件(zmail模块)
Python中什么是类?如何定义?
Python使用xlrd读取Excel
Python使用xlrd写入Excel
go语言学习笔记-初识Go语言
三大常用数据库事务详解之三:事务运行
三大常用关系型数据库事务详解之二:基
三大关系型数据库事务详解之一:基本概
MongoDB常用命令(2)
MongoDB基本介绍与安装(1)
SQLServer触发器调用JavaWeb接口
SQL Server索引的原理深入解析
SqlServer2016模糊匹配的三种方式及效率问题
SQL中Truncate的用法
sqlserver 多表关联时在where语句中慎用tri
VB.NET中如何快速访问注册表
ASP.NET中图象处理过程详解
Vue(1)Vue安装与使用
JavaScript 语言入门
js将一段字符串的首字母转成大写
纯原生html编写的h5视频播放器
H5仿原生app短信验证码vue2.0组件附源码地
TypeScript(4)接口
TypeScript(3)基础类型
TypeScript(2)WebStorm自动编译TypeScript配置