当前位置:
首页 > temp > 简明python教程 >
-
初识人工智能(二):机器学习(一):sklearn特征抽取
作者:@小灰灰
本文为作者原创,转载请注明出处:https://www.cnblogs.com/liuhui0308/p/12680798.html
回到顶部(go to top)
1. sklearn特征抽取
1.1 安装sklearn
pip install Scikit-learn -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
没有报错,导入命令查看是否可用:
- import sklearn
注:安装scikit-learn需要Numpy,pandas等库。
1.2 特征抽取
例子:
- # 特征抽取
- # 导入包
- from sklearn.feature_extraction.text import CountVectorizer
- # 实例化CountVectorizer
- vector = CountVectorizer()
- # 调用fit_transform输入并转换数据
- res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
- # 打印结果
- print(vector.get_feature_names())
- print(res.toarray())
运行结果:
通过例子我们可以得出结论,特征抽取对文本等数据进行特征值化。
1.3 字典特征抽取
作用:对字典数据进行特征值化。
类:sklearn.feature_extraction.DictVectorizer
DictVectorizer语法:
DictVectorizer(sparse=True,…)
-
DictVectorizer.fit_transform(X)
- X:字典或者包含字典的迭代器
- 返回值:返回sparse矩阵
-
DictVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- 返回值:转换之前数据格式
-
DictVectorizer.get_feature_names()
- 返回类别名称
-
DictVectorizer.transform(X)
- 按照原先的标准转换
- from sklearn.feature_extraction import DictVectorizer
- def dictvec():
- """
- 字典数据抽取
- :return: None
- """
- # 实例化
- dict = DictVectorizer()
- # 调用fit_transform
- data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
- print(dict.get_feature_names())
- print(dict.inverse_transform(data))
- print(data)
- return None
- if __name__ == "__main__":
- dictvec()
运行结果:
修改属性,让数据更直观。
- from sklearn.feature_extraction import DictVectorizer
- def dictvec():
- """
- 字典数据抽取
- :return: None
- """
- # 实例化
- dict = DictVectorizer(sparse=False)
- # 调用fit_transform
- data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
- print(dict.get_feature_names())
- print(dict.inverse_transform(data))
- print(data)
- return None
- if __name__ == "__main__":
- dictvec()
运行结果:
1.4 文本特征抽取
作用:对文本数据进行特征值化。
类:sklearn.feature_extraction.text.CountVectorizer
CountVectorizer语法:
CountVectorizer(max_df=1.0,min_df=1,…)
- 返回词频矩阵
-
CountVectorizer.fit_transform(X,y)
- X:文本或者包含文本字符串的可迭代对象
- 返回值:返回sparse矩阵
-
CountVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- 返回值:转换之前数据格式
-
CountVectorizer.get_feature_names()
- 返回值:单词列表
- from sklearn.feature_extraction.text import CountVectorizer
- def countvec():
- """
- 对文本进行特征值化
- :return: None
- """
- cv = CountVectorizer()
- data = cv.fit_transform(["人生 苦短,我 喜欢 python", "人生漫长,不用 python"])
- print(cv.get_feature_names())
- print(data.toarray())
- return None
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数