当前位置:
首页 > 编程开发 > Python基础教程 >
-
python基础教程之爬取豆瓣电影排名的代码以及思路
本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/
试听地址 https://www.xin3721.com/eschool/pythonxin3721/
博问上到有人问的,后自己帮他代码修正了一下,其实蛮简单的一个爬虫
代码以及思路
from requests_html import HTMLSession
session = HTMLSession() #定义一个session对象,和reuqests模块中的session是一样的
def get_movie():
movie_list=[]
for i in range(0, 10): #前250名
print(f'{i+1}页')
link = f'https://movie.douban.com/top250?start={i*25}' #这里呢稍微点几页你就知道规律了
print(link)
response = session.get(link) #这里很多人都有误区总是喜欢加User-Agen,个人感觉他反爬的时候用到这个再加,人家都没设这方面的反爬加了也没啥意义
div_list = response.html.find('.info') #你也可以获取info类下的电影信息
for each in div_list:
movie = each.text #获取里面所有字符串
movie_list.append(movie) #加列表你可以存数据库,这随意
return movie_list
if __name__ == '__main__':
print(get_movie())
栏目列表
最新更新
python 线程创建和传参(28)
爬取豆瓣电影排名的代码以及思路
如何让Python爬虫一天抓取100万张网页
Flask拾遗总汇1
python 异常处理(25)
pyinstaller打包python文件成exe(原理.安装.问
开发工具的安装与使用(第二弹)
python高阶函数的使用
开发工具的安装与使用(第三弹)
采用__call__ 实现装饰器模式
.Net Standard(.Net Core)实现获取配置信息
Linux PXE + Kickstart 自动装机
Shell 编程 基础
Shell 编程 条件语句
CentOS8-网卡配置及详解
Linux中LVM逻辑卷管理
1.数码相框-相框框架分析(1)
Ubuntu armhf 版本国内源
Linux中raid磁盘阵列
搭建简易网站
mysql 安装了最新版本8.x版本后的报错:
Mysql空间数据&空间索引(spatial)
如何远程连接SQL Server数据库的图文教程
复制SqlServer数据库的方法
搜索sql语句
sql中返回参数的值
sql中生成查询的模糊匹配字符串
数据定义功能
数据操作功能
将Session值储存于SQL Server中