当前位置:
首页 > temp > python入门教程 >
-
当我用Python爬取了京东商品所有评论后发现....
不知道各位网购的时候,是否会去留意商品评价,有些小伙伴是很在意评价的,看到差评就不想买了,而有些小伙伴则是会对差评进行理性分析,而还有一类人不在乎这个。
当然这都是题外话,咱们今天主要的目的是使用Python来爬取某东商品的评价,并保存到CSV表格。
1、数据采集逻辑
在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。3
2、数据Schema
3、数据爬取
抓取平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。
评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。
目标URL地址:
通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(商品评价页只显示前100页,所以page最大值为99)
导入库
import random import requests import json import re import csv import time import pymysql
对爬虫程序进行伪装
header = { 'refer': 'https: // item.jd.com /', 'cookie': '', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50' }
抓取商品评论信息
将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。
防止反爬,每爬取一页数据后,设置程序休眠环节。
# 程序休眠 time.sleep(random.randint(40, 80) * 0.1) print('第%d页正在爬取' % (page + 1)) ''' 爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。 使用正则对数据进行提取,返回字符串。 字符串转换为json格式数据。 ''' res.encoding = 'gb18030' html = res.text data = re.findall('fetchJSON_comment98\((.*?)\);', html) data = json.loads(data[0]) # 将处理的数据进行解析 comments = data['comments'] print(data['comments'])
4、数据存储
存储到csv
# 写入csv文件 f = open("evalution_data.csv", "a", newline='', encoding='gb18030') header = ["id", "content", "creationTime", "score", "productColor", "productSize"] # 创建一个DictWriter对象,第二个参数就是上面创建的表头 writer = csv.DictWriter(f, header) writer.writeheader() for i in comments: id = i['id'] content = i['content'] creationTime = i['creationTime'] score = i['score'] productColor = i['productColor'] productSize = i['productSize'] writer.writerow( {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor, "productSize": productSize}) f.close()
存储到数据库
# 写入数据库 conn = pymysql.connect(host='', user='', password='', port=, db='') cursor = conn.cursor() for i in comments: id = i['id'] content = i['content'] creationTime = i['creationTime'] score = i['score'] productColor = i['productColor'] productSize = i['productSize'] sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')" cursor.execute(sql) conn.commit() # 我还专门录制了视频讲解,以及进行可视化分析,完整代码和视频讲解都在这个扣裙了:708525271 cursor.close() conn.close()
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数