首页 > Python基础教程 >
-
爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)
前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:一棵程序树
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun
我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了,一行代码


二、首页要爬取的内容(上图绿色方框中的内容)
1、详情页的链接地址(一行代码)

2、该条新闻所属的标签(一行代码)

那么步骤如下:
2.1 先定义我们获取网页源码的函数


接下来我们就要获取一下所有的li,其实用beutlfulsouo一行代码就可以搞定

获取之后要做一步判断,find_all返回的是一个列表元素,因为页面上的ul(无序列表)有多个我们不知道新闻的列表对应的是哪一个,所以要自己看一下。这里我们要的新闻的列表是uls的第二个元素,即uls[1].
2.2解析首页中的新闻详情页的链接,标签

三、解析详情页
详情页就更好说了。把标题和正文部分解析保存即可


四、数据更新
因为爬取的新闻都是实时的热点新闻,每次爬取的内容都不同,所以加上一个此步骤。将每次爬取的与之前数据不重复的内容保存下来。

五、词频统计
这里我在网上下了一份停用词表,就是代码中的stop_words.txt.这个里面的内容网上随便搜一搜就有了。

六、主函数即效果实现
如果要爬取多个分类的内容,那么把子类的链接加入待爬取的链接列表中就好了。完整代码如下:


2020年最新Python教程:
如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?
说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。




以上这些教程小编已经为大家打包准备好了,希望对正在学习的你有所帮助!