当前位置:
首页 > Python基础教程 >
-
Jieba库使用和好玩的词云
一、关于词云
WordCloud库常规方法
- 以WordCloud对象为基础
- 配置参数、加载文本、输出文件
函数 | 简述 |
w.generate(txt) | 向WordCloud对象w中加载文本txt |
w.to_file(file name) | 将词云输出为图像文件,例如.png格式 |
步骤:
- 配置对象参数
- 加载词云文本
- 输出词云文件
配置对象参数
函数 | 简述 |
font_path | 字体路径,做中文词云必须设置字体,否则无法显示 |
width | 输出的画布宽度,默认为400像素 |
height | 输出的画布高度,默认为200像素 |
max_words | 要显示的词的最大个数,默认为200 |
stop_words | 指定词云的排除词列表,即不显示的单词列表 |
max_font_size | 显示的最大字体大小 |
min_font_size | 显示的最小字体大小 |
background_color | 指定词云图片的背景颜色,默认为黑色 |
mask | 指定词云形状,默认为长方形,需要引用imread()函数 |
二、文本词频统计(以《红楼梦》为例)
- 下载一个《红楼梦》文本 这里将文本命名为 hongloumeng.txt
-
编写代码如下:
1234567891011121314151617
#DreaminRedMansions.py
import
jieba
#调用jieba库
txt
=
open
(
"hongloumeng.txt"
,
"r"
,encoding
=
"UTF-8"
).read()
#打开txt文件阅读
words
=
jieba.lcut(txt)
#分词
counts
=
{}
#建立一个空字典
for
word
in
words:
if
len
(word)
=
=
1
:
continue
else
:
counts[word]
=
counts.get(word,
0
)
+
1
#遍历每个中文单词,通过字典来计数
items
=
list
(counts.items())
#将字典counts转换为列表类型
items.sort(key
=
lambda
x:x[
1
],reverse
=
True
)
#对列表进行排序
for
i
in
range
(
20
):
word,count
=
items[i]
print
(
"{0:<10}{1:>5}"
.
format
(word,count))
#打印出前20个词
栏目列表最新更新- nodejs爬虫
- Python正则表达式完全指南
- 爬取豆瓣Top250图书数据
- shp 地图文件批量添加字段
- 爬虫小试牛刀(爬取学校通知公告)
- 【python基础】函数-初识函数
- 【python基础】函数-返回值
- HTTP请求:requests模块基础使用必知必会
- Python初学者友好丨详解参数传递类型
- 如何有效管理爬虫流量?
- SQL SERVER中递归
- 2个场景实例讲解GaussDB(DWS)基表统计信息估
- 常用的 SQL Server 关键字及其含义
- 动手分析SQL Server中的事务中使用的锁
- openGauss内核分析:SQL by pass & 经典执行
- 一招教你如何高效批量导入与更新数据
- 天天写SQL,这些神奇的特性你知道吗?
- openGauss内核分析:执行计划生成
- [IM002]Navicat ODBC驱动器管理器 未发现数据
- 初入Sql Server 之 存储过程的简单使用
- 这是目前我见过最好的跨域解决方案!
- 减少回流与重绘
- 减少回流与重绘
- 如何使用KrpanoToolJS在浏览器切图
- performance.now() 与 Date.now() 对比
- 一款纯 JS 实现的轻量化图片编辑器
- 关于开发 VS Code 插件遇到的 workbench.scm.
- 前端设计模式——观察者模式
- 前端设计模式——中介者模式
- 创建型-原型模式