首页 > temp > python入门教程 >
-
30 分钟机器学习
30 分钟机器学习
原文:https://www . geesforgeks . org/30 分钟机器学习/
1。下载、安装和启动 Python SciPy
如果系统上还没有安装 Python 和 SciPy 平台,请将其安装到系统上。人们可以很容易地遵循安装指南。
1.1 安装 SciPy 库:
使用 Python 或 3.5+版本。 你需要安装 5 个关键库。下面是本教程所需的 Python SciPy 库列表:
- 我的天啊
- numpy
- 马特普洛特利布
- 熊猫
- 斯克里恩
1.2 启动 Python 并检查版本:
确保您的 Python 环境已成功安装并按预期工作是一个好主意。 下面的脚本将有助于测试环境。它导入本教程所需的每个库,并打印版本。 键入或复制并粘贴以下脚本:
Python 3
# Check the versions of libraries
# Python version
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
如果出现错误,请停止。现在是修复它的时候了。
2。加载数据:
数据集–虹膜数据
几乎每个人都将它作为机器学习和统计中的“你好世界”数据集。 数据集包含 150 个鸢尾花的观测值。有四列以厘米为单位的花朵尺寸。第五栏是观察到的花的种类。所有观察到的花都属于三种中的一种。
2.1 导入库:
首先,让我们导入所有要使用的模块、函数和对象。
Python 3
# Load libraries
import pandas
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
继续之前需要一个工作的 SciPy 环境。
2.2 加载数据集
数据可以直接加载到 UCI 机器学习存储库中。 利用熊猫加载数据,探索描述性统计和数据可视化。
注:加载数据时指定各列名称。这将有助于以后探索数据。
Python 3
url =
"https://raw.githubusercontent.com / jbrownlee / Datasets / master / iris.csv"
names = ['sepal-length', 'sepal-width', 'petal-length',
'petal-width', 'class']
dataset = pandas.read_csv(url, names = names)
如果您确实有网络问题,您可以将 iris.csv 文件下载到您的工作目录中,并使用相同的方法加载它,将 URL 更改为本地文件名。
3。汇总数据集:
现在是时候看看数据了。 以几种不同方式查看数据的步骤:
- 数据集的维度。
- 偷看数据本身。
- 所有属性的统计摘要。
- 按类变量对数据进行细分。
3.1 数据集维度
Python 3
# shape
print(dataset.shape)
(150, 5)
3.2 查看数据
Python 3
# head
print(dataset.head(20))
sepal-length sepal-width petal-length petal-width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
5 5.4 3.9 1.7 0.4 Iris-setosa
6 4.6 3.4 1.4 0.3 Iris-setosa
7 5.0 3.4 1.5 0.2 Iris-setosa
8 4.4 2.9 1.4 0.2 Iris-setosa
9 4.9 3.1 1.5 0.1 Iris-setosa
10 5.4 3.7 1.5 0.2 Iris-setosa
11 4.8 3.4 1.6 0.2 Iris-setosa
12 4.8 3.0 1.4 0.1 Iris-setosa
13 4.3 3.0 1.1 0.1 Iris-setosa
14 5.8 4.0 1.2 0.2 Iris-setosa
15 5.7 4.4 1.5 0.4 Iris-setosa
16 5.4 3.9 1.3 0.4 Iris-setosa
17 5.1 3.5 1.4 0.3 Iris-setosa
18 5.7 3.8 1.7 0.3 Iris-setosa
19 5.1 3.8 1.5 0.3 Iris-setosa
3.3 统计汇总
这包括计数、平均值、最小值和最大值以及一些百分位数。
Python 3
# descriptions
print(dataset.describe())
很明显,所有的数值都有相同的刻度(厘米)和相似的 0 到 8 厘米的范围。
sepal-length sepal-width petal-length petal-width
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.054000 3.758667 1.198667
std 0.828066 0.433594 1.764420 0.763161
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000
3.4 等级分布
Python 3
# class distribution
print(dataset.groupby('class').size())
class
Iris-setosa 50
Iris-versicolor 50
Iris-virginica 50
4。数据可视化
使用两种类型的图:
- 单变量图,以更好地理解每个属性。
- 多元图,以更好地理解属性之间的关系。
4.1 单变量图
单变量图–每个单独变量的图。 假设输入变量是数字,我们可以创建每个变量的方框图和触须图。
Python 3
# box and whisker plots
dataset.plot(kind ='box', subplots = True,
layout =(2, 2), sharex = False, sharey = False)
plt.show()
创建每个输入变量的直方图,以了解分布情况。
Python 3
# histograms
dataset.hist()
plt.show()
看起来可能有两个输入变量具有高斯分布。这一点值得注意,因为我们可以使用利用这一假设的算法。
4.2 多元图
变量之间的相互作用。 首先,我们来看看所有属性对的散点图。这有助于发现输入变量之间的结构化关系。
Python 3
# scatter plot matrix
scatter_matrix(dataset)
plt.show()
版权属于:月萌API www.moonapi.com,转载请注明出处
本文链接:https://www.moonapi.com/news/104.html