当前位置:
首页 > 编程开发 > Python基础教程 >
-
python基础教程之Python抓取豆瓣电影top250!
本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/
试听地址 https://www.xin3721.com/eschool/pythonxin3721/
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧。当然如果你学的不好,建议可以先去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目,一起交流学习进步!
实现目标:抓取豆瓣电影top250,并输出到文件中
1.找到对应的url:https://movie.douban.com/top250
2.进行页面元素的抓取:
3.编写代码:
第一步:实现抓取第一个页面;
第二步:将其他页面的信息也抓取到;
第三步:输出到文件;
4.代码:
import sys import io from selenium import webdriver #改变标准输出,解决输出到文件时遇到的编码问题。 # 如果输出到控制行,不要加这一行 # sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030') class DouBan: #初始化driver对象,打开页面,最大化页面 def __init__(self): self.driver=webdriver.Chrome() self.driver.get('https://movie.douban.com/top250') self.driver.maximize_window() # 分页判断,默认显示第一页,输出第一页后,点击下一页按钮,再输出。总共10页 def get_content(self): for page in range(1,10): #获取元素定位: 对当前页面中 单个电影元素进行定位 movie = self.driver.find_elements_by_class_name('info') # for循环:循环输出当前页面中单部影片的电影信息(text输出元素的文本内容); i = 1 for item in movie: #输出格式: 电影序号 + 电影介绍 +换行展示 print(str(i+ page*25-25)+": "+item.text+'') print("") i+=1 # 判断:如果当前页面码小于10,则查找页码的元素,并点击页码。否则不用进行查找,因为最多点击第10页; # 获取底部的页签元素(采用了format格式输出,根据当前页面做加1操作) if page<10: page_but = self.driver.find_element_by_xpath('//div[@class="paginator"]//a[contains(text(),{0})]'.format(page + 1)) page_but.click() else: pass if __name__ == '__main__': DouBan().get_content()
5.结果:
1)控制台输出部分截图:
2)如果想要输出到文件,执行命令并重定向到TXT文件中:
python xxxx.py >d:/out_test.txt
6.遇到的问题:
1.多页时,for循环的数字设置,来回试几次就可以了,不难。
2.输出到文件中
真的很简单,不知道你们都懂了没? 如果没懂可以去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目,一起交流学习进步!有问题留言问我吧~
栏目列表
最新更新
python爬虫--图片懒加载
Python抓取豆瓣电影top250!
Tornado—添加请求头允许跨域请求访问
pycharm设置开发模板/字体大小/背景颜色(
python爬虫公众号所有信息,并批量下载公
docker系列之一:初见docker
利用Python多线程来测试并发漏洞
Jupyter notebook 安装
Python连载56-发送带有附件、正文为HTML的邮
Django开发登录功能实战
.Net Standard(.Net Core)实现获取配置信息
Linux PXE + Kickstart 自动装机
Shell 编程 基础
Shell 编程 条件语句
CentOS8-网卡配置及详解
Linux中LVM逻辑卷管理
1.数码相框-相框框架分析(1)
Ubuntu armhf 版本国内源
Linux中raid磁盘阵列
搭建简易网站
mysql 安装了最新版本8.x版本后的报错:
Mysql空间数据&空间索引(spatial)
如何远程连接SQL Server数据库的图文教程
复制SqlServer数据库的方法
搜索sql语句
sql中返回参数的值
sql中生成查询的模糊匹配字符串
数据定义功能
数据操作功能
将Session值储存于SQL Server中