VB.net 2010 视频教程

VB.net 2010 视频教程

python基础视频教程

SQL Server 2008 视频教程

c#入门经典教程

Visual Basic从门到精通视频教程

当前位置:

首页 > Python基础教程 >

爬取腾讯网的热点新闻文章并进行词频统计(Python爬虫+词频统计)

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：一棵程序树

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们以财经分栏为例，这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中，每一条新闻都是一个li,那么我们只要获取了所有的li（即li对应的ul）就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了，一行代码

二、首页要爬取的内容（上图绿色方框中的内容）

1、详情页的链接地址(一行代码)

2、该条新闻所属的标签(一行代码)

那么步骤如下:

2.1 先定义我们获取网页源码的函数

接下来我们就要获取一下所有的li，其实用beutlfulsouo一行代码就可以搞定

获取之后要做一步判断，find_all返回的是一个列表元素，因为页面上的ul（无序列表）有多个我们不知道新闻的列表对应的是哪一个，所以要自己看一下。这里我们要的新闻的列表是uls的第二个元素，即uls[1].

2.2解析首页中的新闻详情页的链接，标签

三、解析详情页

详情页就更好说了。把标题和正文部分解析保存即可

四、数据更新

因为爬取的新闻都是实时的热点新闻，每次爬取的内容都不同，所以加上一个此步骤。将每次爬取的与之前数据不重复的内容保存下来。

五、词频统计

这里我在网上下了一份停用词表，就是代码中的stop_words.txt.这个里面的内容网上随便搜一搜就有了。

六、主函数即效果实现

如果要爬取多个分类的内容，那么把子类的链接加入待爬取的链接列表中就好了。完整代码如下：

2020年最新Python教程：

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？

说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。

以上这些教程小编已经为大家打包准备好了，希望对正在学习的你有所帮助！

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

栏目列表

JavaScript+JQuery从入门到精通视频教程

VB.net 2010 视频教程

VB.net 2010 视频教程

Java视频教程

VB.net 2010 视频教程

最新更新

Python正则表达式完全指南

爬取豆瓣Top250图书数据

shp 地图文件批量添加字段

爬虫小试牛刀（爬取学校通知公告）

【python基础】函数-初识函数

【python基础】函数-返回值

HTTP请求：requests模块基础使用必知必会

Python初学者友好丨详解参数传递类型

如何有效管理爬虫流量？

SQL SERVER中递归

2个场景实例讲解GaussDB(DWS)基表统计信息估

常用的 SQL Server 关键字及其含义

动手分析SQL Server中的事务中使用的锁

openGauss内核分析：SQL by pass & 经典执行

一招教你如何高效批量导入与更新数据

天天写SQL，这些神奇的特性你知道吗？

openGauss内核分析：执行计划生成

[IM002]Navicat ODBC驱动器管理器未发现数据

初入Sql Server 之存储过程的简单使用

这是目前我见过最好的跨域解决方案！

减少回流与重绘

减少回流与重绘

如何使用KrpanoToolJS在浏览器切图

performance.now() 与 Date.now() 对比

一款纯 JS 实现的轻量化图片编辑器

关于开发 VS Code 插件遇到的 workbench.scm.

前端设计模式——观察者模式

前端设计模式——中介者模式

创建型-原型模式