但是运行出现错误,
这是因为没有写明文本所在的绝对路径,以致找不到文本,打开文本属性找到位置复制即可。
但是这样依旧执行错误,
win10电脑文本编码默认为ASCII码,我们应将其改为UTF-8,打开 hongloumeng.txt --文件--另存为--编码--UTF-8,取名为 shitouji.txt ,按照上述方法找到新的文本位置即可。改正的代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#DreaminRedMansions.py import jieba #调用jieba库 txt = open ( "D:\我爱学习\python3\wenben\shitouji.txt" , "r" ,encoding = "UTF-8" ).read() #打开txt文件阅读 words = jieba.lcut(txt) #分词 counts = {} #建立一个空字典 for word in words: if len (word) = = 1 : continue else : counts[word] = counts.get(word, 0 ) + 1 #遍历每个中文单词,通过字典来计数 items = list (counts.items()) #将字典counts转换为列表类型 items.sort(key = lambda x:x[ 1 ],reverse = True ) #对列表进行排序 for i in range ( 20 ): word,count = items[i] print ( "{0:<10}{1:>5}" . format (word,count)) #打印出前20个词 |
效果如下:
三、词云展现
1、运用jieba库和wordcloud库,代码如下:注: .join( )函数: 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
from wordcloud import WordCloud import jieba def create_word_cloud(): path_txt = 'D:\我爱学习\python3\wenben\\shitouji.txt' text = open (path_txt, "r" ,encoding = "UTF-8" ).read() wordlist = jieba.lcut(text) # jieba分词 wl = " " .join(wordlist) # 设置词云 w = WordCloud( # 设置背景颜色为白色 background_color = "white" , # 设置最大显示的词云数为200 max_words = 200 , # 字体的一般路径--宋体 font_path = 'simsun.ttc' , height = 1200 , width = 1600 , # 设置字体最大的字体大小 max_font_size = 100 , # 设置配色方案 random_state = 100 , ) w.generate(wl) # 生成词云 w.to_file( 'img_book1.png' ) # 把词云保存下 if __name__ = = '__main__' : create_word_cloud() |
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式