python sklearn数据预处理之数据缩放详解

当前位置:

首页 > Python基础教程 >

python sklearn数据预处理之数据缩放详解

数据的预处理是数据分析,或者机器学习训练前的重要步骤,这篇文章主要为大家详细介绍了sklearn数据预处理中数据缩放的相关知识,感兴趣的小伙伴可以学习一下

数据的预处理是数据分析，或者机器学习训练前的重要步骤。

通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的数据缩放处理，主要目的是消除数据的不同特征之间的量纲差异，使得每个特征的数值范围相同。这样可以避免某些特征对模型的影响过大，从而提高模型的性能。

原理
数据缩放有多种方式，其中有一种按照最小值-最大值缩放的算法是最常用的。
其主要步骤如下：

计算数据列的最小值（min）和最大值（max）
对数据列中的每个值进行最小-最大缩放，即将其转换为 **[0,1]区间 **之内的一个值
缩放公式为：new_data=(data−min)/(max−min)

实现缩放的代码如下：

# 数据缩放的实现原理
data = np.array([10, 20, 30, 40, 50])
min = np.min(data)
max = np.max(data)
data_new = (data - min) / (max-min)
print("处理前: {}".format(data))
print("处理后: {}".format(data_new))
# 运行结果
处理前: [10 20 30 40 50]
处理后: [0.   0.25 0.5  0.75 1.  ]

数值被缩放到 **[0,1]区间 **之内。

这个示例只是为了演示缩放的过程，实际场景中最好使用scikit-learn库中的函数。

scikit-learn中的minmax_scale函数是封装好的数据缩放函数。

from sklearn import preprocessing as pp
data = np.array([10, 20, 30, 40, 50])
pp.minmax_scale(data, feature_range=(0, 1))
# 运行结果
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函数得到的结果是一样的，数据也被压缩到 **[0,1]区间 **之内。

所以数据缩放的这个操作有时也被称为归一化。

不过，数据缩放不一定非得把数据压缩到 **[0,1]区间 **之内，

通过调整feature_range参数，可以把数据压缩到任意的区间。

# 压缩到[0, 1]
print(pp.minmax_scale(data, feature_range=(0, 1)))
# 压缩到[-1, 1]
print(pp.minmax_scale(data, feature_range=(-1, 1)))
# 压缩到[0, 5]
print(pp.minmax_scale(data, feature_range=(0, 5)))
# 运行结果
[0.   0.25 0.5  0.75 1.  ]
[-1.  -0.5  0.   0.5  1. ]
[0.   1.25 2.5  3.75 5.  ]