VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > Python基础教程 >
  • Jieba库使用和好玩的词云

一、关于词云

WordCloud库常规方法

  • 以WordCloud对象为基础
  • 配置参数、加载文本、输出文件
函数 简述
w.generate(txt) 向WordCloud对象w中加载文本txt
w.to_file(file name) 将词云输出为图像文件,例如.png格式

 

步骤:

  1. 配置对象参数
  2. 加载词云文本
  3. 输出词云文件 

配置对象参数

函数 简述
font_path 字体路径,做中文词云必须设置字体,否则无法显示
width 输出的画布宽度,默认为400像素
height 输出的画布高度,默认为200像素
max_words 要显示的词的最大个数,默认为200
stop_words 指定词云的排除词列表,即不显示的单词列表
max_font_size 显示的最大字体大小
min_font_size   显示的最小字体大小
 background_color  指定词云图片的背景颜色,默认为黑色
mask 指定词云形状,默认为长方形,需要引用imread()函数

 二、文本词频统计(以《红楼梦》为例)

  1. 下载一个《红楼梦》文本  这里将文本命名为 hongloumeng.txt
  2. 编写代码如下:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    #DreaminRedMansions.py
    import jieba   #调用jieba库
     
    txt = open("hongloumeng.txt","r",encoding="UTF-8").read()  #打开txt文件阅读
     
    words = jieba.lcut(txt)    #分词
    counts = {}   #建立一个空字典
    for word in words:
        if len(word)==1:
            continue
        else:
            counts[word]=counts.get(word,0+ 1    #遍历每个中文单词,通过字典来计数
    items = list(counts.items())    #将字典counts转换为列表类型
    items.sort(key=lambda x:x[1],reverse = True)   #对列表进行排序
    for in range(20):
        word,count = items[i]
        print("{0:<10}{1:>5}".format(word,count))     #打印出前20个词
  3. nodejs爬虫
  4. Python正则表达式完全指南
  5. 爬取豆瓣Top250图书数据
  6. shp 地图文件批量添加字段
  7. 爬虫小试牛刀(爬取学校通知公告)
  8. 【python基础】函数-初识函数
  9. 【python基础】函数-返回值
  10. HTTP请求:requests模块基础使用必知必会
  11. Python初学者友好丨详解参数传递类型
  12. 如何有效管理爬虫流量?
  13. SQL SERVER中递归
  14. 2个场景实例讲解GaussDB(DWS)基表统计信息估
  15. 常用的 SQL Server 关键字及其含义
  16. 动手分析SQL Server中的事务中使用的锁
  17. openGauss内核分析:SQL by pass & 经典执行
  18. 一招教你如何高效批量导入与更新数据
  19. 天天写SQL,这些神奇的特性你知道吗?
  20. openGauss内核分析:执行计划生成
  21. [IM002]Navicat ODBC驱动器管理器 未发现数据
  22. 初入Sql Server 之 存储过程的简单使用
  23. 这是目前我见过最好的跨域解决方案!
  24. 减少回流与重绘
  25. 减少回流与重绘
  26. 如何使用KrpanoToolJS在浏览器切图
  27. performance.now() 与 Date.now() 对比
  28. 一款纯 JS 实现的轻量化图片编辑器
  29. 关于开发 VS Code 插件遇到的 workbench.scm.
  30. 前端设计模式——观察者模式
  31. 前端设计模式——中介者模式
  32. 创建型-原型模式

相关教程