使用python爬取豆瓣电影短评评论内容

当前位置:

首页 > temp > python入门教程 >

使用python爬取豆瓣电影短评评论内容

需求：爬取豆瓣电影短评评论文本内容

目标：将爬取的文本存入 excel 中

爬虫步骤：

1.拼接分页网址，循环请求分页数据，获取HTML代码

2.分析获取到的HTML代码，解析出所需要的数据，提取内容

3.存储爬取到的数据

准备工作：

1.开发工具 pycharm

2.模块 requests、bs4或 pyquery

爬虫实际流程：

第一步：我们从豆瓣电影中选取一部电影（https://movie.douban.com/subject/35766491/），进入短评列表页面（https://movie.douban.com/subject/35766491/comments?status=P）

第二步：打开 f12开发者工具，我去取评论文本部分，查看网页结构。

目标评论文本部分对应的 class 类名为 comment，评论列表对应的类名为 comment-item

使用 pyquery 解析获取列表数据，代码如下：

form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
    comment = item(‘.comment’).text()

出处：https://www.cnblogs.com/dzlishen/p/17228408.html

栏目列表

最新更新

nodejs爬虫

HTTP请求：requests模块基础使用必知必会

Python初学者友好丨详解参数传递类型

如何有效管理爬虫流量？

2个场景实例讲解GaussDB(DWS)基表统计信息估

常用的 SQL Server 关键字及其含义

动手分析SQL Server中的事务中使用的锁

openGauss内核分析：SQL by pass & 经典执行

一招教你如何高效批量导入与更新数据

天天写SQL，这些神奇的特性你知道吗？

openGauss内核分析：执行计划生成

[IM002]Navicat ODBC驱动器管理器未发现数据

初入Sql Server 之存储过程的简单使用

SQL Server -- 解决存储过程传入参数作为s

关于JS定时器的整理

JS中使用Promise.all控制所有的异步请求都完

js中字符串的方法

import-local执行流程与node模块路径解析流程

检测数据类型的四种方法

js中数组的方法,32种方法

前端操作方法

数据类型

window.localStorage.setItem 和 localStorage.setIte

如何完美解决前端数字计算精度丢失与数