VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > temp > 简明python教程 >
  • 初识人工智能(二):机器学习(一):sklearn特征抽取(2)

  •  
  • if __name__ == "__main__":
  • countvec()
  • 运行结果:

    我们在处理文本的时候,不可能自己一个一个去分词吧,所以我们就要使用一个工具jieba。 

     pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

    
    	
    1. from sklearn.feature_extraction.text import CountVectorizer
    2. import jieba
    3.  
    4. def cutword():
    5.  
    6. con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
    7.  
    8. con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
    9.  
    10. con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
    11.  
    12. # 转换成列表
    13. content1 = list(con1)
    14. content2 = list(con2)
    15. content3 = list(con3)
    16.  
    17. # 吧列表转换成字符串
    18. c1 = ' '.join(content1)
    19. c2 = ' '.join(content2)
    20. c3 = ' '.join(content3)
    21.  
    22. return c1, c2, c3
    23.  
    24. def hanzivec():
    25. """
    26. 中文特征值化
    27. :return: None
    28. """
    29. c1, c2, c3 = cutword()
    30.  
    31. print(c1, c2, c3)
    32.  
    33. cv = CountVectorizer()
    34.  
    35. data = cv.fit_transform([c1, c2, c3])
    36.  
    37. print(cv.get_feature_names())
    38.  
    39. print(data.toarray())
    40.  
    41. return None
    42.  
    43. if __name__ == "__main__":
    44. hanzivec()

    运行结果:

    
    	
    1. Building prefix dict from the default dictionary ...
    2. Dumping model to file cache C:\Users\ACER\AppData\Local\Temp\jieba.cache
    3. Loading model cost 0.839 seconds.
    4. Prefix dict has been built successfully.
    5. 今天 残酷 明天 残酷 后天 美好 绝对 大部分 明天 晚上 所以 每个 不要 放弃 今天 我们 看到 星系 光是在 几百万年 之前 发出 这样 我们 看到 宇宙 我们 过去 如果 只用 一种 方式 了解 某样 事物 不会 真正 了解 了解 事物 真正 含义 秘密 取决于 如何 我们 了解 事物 联系
    6. ['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃
    
    相关教程