当前位置:
首页 > Python基础教程 >
-
Python使用xpath对解析内容进行数据提取
XPath 使用路径表达式来选取HTML/ XML 文档中的节点或节点集,节点是通过沿着路径 (path) 或者步 (steps) 来选取的,本文将给大家介绍Python使用xpath对解析内容进行数据提取的方法,需要的朋友可以参考下
一、前言
在前面的文章当中,已经教大家如何去获取我们需要的数据原文内容,今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。
二、正文
XPath 使用路径表达式来选取HTML/ XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
使用到python中的一个lxml库:下载 pip install lxml
选取节点
路径表达式
谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
选取未知节点
--- 在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
选取若干节点
通过在路径表达式中使用"|"运算符,您可以选取若干个路径。
三、示例
下面给出一个示例代码
# -*- coding:utf-8 -*-
import requests
from lxml import etree
class DouGuo(object):
def __init__(self):
self.url = "https://www.douguo.com/caipu/%E5%AE%B6%E5%B8%B8%E8%8F%9C/0/20"
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}
def get_data_index(self):
response = requests.get(self.url, headers=self.headers)
response.encoding="utf-8"
if response.status_code == 200:
return response.text
else:
return None
def parse_data_index(self, response):
html = etree.HTML(response)
data_list = html.xpath('//ul[@class="cook-list"]//li[@class="clearfix"]')
for data in data_list:
# 提取文本值
title = data.xpath("./div/a/text()")[0]
major = data.xpath("./div/p/text()")[0]
# 提取属性值
head = data.xpath("./div/div[2]/a/img/@alt")[0]
score = data.xpath("./div/div[1]//span/text()")[0]
print(f"title: {title}\nmajor: {major}\nhead:{head}\nscore:{score}\n\n")
def run(self):
response = self.get_data_index()
# print(response)
self.parse_data_index(response)
if __name__ == '__main__':
spider = DouGuo()
spider.run()
复制
# -*- coding:utf-8 -*-
import requests
from lxml import etree
class DouGuo(object):
def __init__(self):
self.url = "https://www.douguo.com/caipu/%E5%AE%B6%E5%B8%B8%E8%8F%9C/0/20"
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}
def get_data_index(self):
response = requests.get(self.url, headers=self.headers)
response.encoding="utf-8"
if response.status_code == 200:
return response.text
else:
return None
def parse_data_index(self, response):
html = etree.HTML(response)
data_list = html.xpath('//ul[@class="cook-list"]//li[@class="clearfix"]')
for data in data_list:
# 提取文本值
title = data.xpath("./div/a/text()")[0]
major = data.xpath("./div/p/text()")[0]
# 提取属性值
head = data.xpath("./div/div[2]/a/img/@alt")[0]
score = data.xpath("./div/div[1]//span/text()")[0]
print(f"title: {title}\nmajor: {major}\nhead:{head}\nscore:{score}\n\n")
def run(self):
response = self.get_data_index()
# print(response)
self.parse_data_index(response)
if __name__ == '__main__':
spider = DouGuo()
spider.run()
四、结语
大家可以尝试去抓取这个url https://cs.lianjia.com/ershoufang/
获取第一页数据即可,同时也可以思考一下,如何进行多页的获取,实现翻页功能。
到此这篇关于Python使用xpath对解析内容进行数据提取的文章就介绍到这了,更多相关Python xpath数据提取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持
原文链接:https://juejin.cn/post/7374410972071362596
栏目列表
最新更新
使用Python发送电子邮件
SpringBoot中Session的使用及说明
springboot后台session的存储与取出方式
Springboot使用ResponseBody汉字返回问号问题
Springboot下载excel文件中文名乱码问题及解
SpringBoot整合weixin-java-pay实现微信小程序支
Java Socket报错打开文件过多的问题
使用nacos实现自定义文本配置的实时刷新
解决springboot文件上传提示临时文件夹不存
Springboot如何使用外部yml启动
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
uniapp/H5 获取手机桌面壁纸 (静态壁纸)
[前端] DNS解析与优化
为什么在js中需要添加addEventListener()?
JS模块化系统
js通过Object.defineProperty() 定义和控制对象
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比