当前位置:
首页 > python入门教程 >
-
怎么得到tuphub.today热榜和热度呢?
用到的模块有:requesst、re、pandas
步骤:1.得到url
2.设置请求头伪装浏览器,防止被反爬
3.请求获得文本文件
4.用re.compile()方法复制文本
5.用pd.DataFrame()让爬取的信息根据可读性,条理性。
|
import requests |
|
import re |
|
import pandas as pd |
|
|
|
url = "https://tophub.today/n/Jb0vmloB1G" |
|
|
|
headers = { |
|
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)" |
|
" AppleWebKit/537.36 (KHTML, like Gecko) " |
|
"Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44" |
|
} |
|
|
|
r = requests.get(url,headers=headers).text # 得到text文本。 |
|
|
|
title = re.compile('itemid="[0-9]*">(.*?)</a>') # 这些信息在网页开发者模式下可以获取 |
|
titles = title.findall(r)[0:31] # 用findall方法和切片获得1-30的排行榜 |
|
|
|
num = re.compile("<td>(.*?)</td>") #复制热度信息 |
|
nums = num.findall(r)[0:31] |
|
|
|
m = {"今日热点":titles,"热度":nums} |
|
file = pd.DataFrame(m) # 使用DataFrame方法使爬取的数据更具可读性。 |
|
print(file) |
爬取后的样子:
如果你把这段代码复制运行,你可能会发现爬取不到,因为热榜信息在更新,写的不太严谨,因为作者见解有限,在不断学习中,有啥不足或者补充的,欢迎各位大佬评论!
出处:https://www.cnblogs.com/Eliaukgit/p/16177676.html
栏目列表
最新更新
谷歌、微软、Meta?谁才是 Python 最大的金
VB.NET编程调用讯雷下载文件
Objective-C语法之代码块(block)的使用
URL Encode
python爬虫学习
python爬虫学习——列表
go语言写http踩得坑
【Python】爬虫笔记-从PyMySQL到DBUtils
【Python】爬虫笔记-开源代理池haipproxy使用
Python规范:提高可读性
SQL SERVER 查询所有表 统计每张表的大小
.NET MAUI (微软 .Net 6 跨多平台应用 UI)框架
获取树形数据的全路径
第十一章-并发控制
第十章-数据库恢复技术
第七章-概念结构设计
第六章-关系数据理论
第三章-标准SQL语句
第二章-关系数据库
第一章-绪论
JavaScript 中 Object,Map,Set 及数组遍历方法
微信小程序的全局弹窗以及全局实例
理解JS函数之call,apply,bind
解决未知的服务器标记“asp:ListView”。
css样式显示省略号
浅谈JS词法环境
js对象的理解
原型和原型链的深入浅出
JavaScript实现数组对象去重
关于 NodeJs 处理超长字符串问题的分析