首页 > Python基础教程 >
-
机器学习概述
(1)测试anaconda
(2)Python环境及pip list截图
|视频学习笔记
bilibili:https://www.bilibili.com/video/BV1Tb411H7uC?p=1
P1 机器学习概论
机器学习中建模过程
数据处理
特征工程
模型选择
寻找最佳超参数
模型分析与模型融合
数据预处理方法
数据清洗:数据清洗的目的是清除错误点,冗余点和数据的噪声。
数据集成:将多个数据源中的数据进行合并,形成一个统一的表格。
数据变化:找到数据的特征表示,用维度变换来减少有效的数据
P4 Python基础
使用pip安装numpy、pandas、scipy、matplotlib
pip install numpy -i https://pypi.douban.com/simple
使用豆瓣仓库可以加速下载
负二项分布
其中是正整数,,.
负二项分布的概率恰好是的泰勒级数的项,分布因此得名.负二项分布亦称为帕斯卡分布,是几何分布的推广.伯努利试验恰好出现r次成功所需要的次数,服从参数为的负二项分布.
我们的程序的随机变量进行了一个变化.
|什么是机器学习,有哪些分类?
(1)什么是机器学习
让机器从数据中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。
机器学习的工作流程
(2)机器学习的分类
学习方式
- 监督学习:表示机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。这些标记作为预期效果,不断修正机器的预测结果。
- 半监督:输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。
- 无监督学习:表示机器学习的数据是没有标记的。机器从无标记的数据中探索并推断出潜在的联系。
- 强化学习:带有激励机制的,如果机器行动正确,将施予一定的“正激励”;如果行动错误,同样会给出一个惩罚,在这种情况下,机器将会考虑如何在一个环境中行动才能达到激励的最大化,具有一定的动态规划思想。
- 深度学习:深度学习是一种实现这种机器学习的优秀技术,深度学习本身是神经网络算法的衍生。
案例:
监督学习:
监督学习的输入是标注分类标签的样本集,通俗地说,就是给定了一组标准答案。监督学习从这样给定了分类标签的样本集中学习出一个函数,当新的数据到来时,就可以根据这个函数预测新数据的分类标签。
半监督学习:
如图论推理算法或者拉普拉斯支持向量机等。
无监督学习:
常见算法包括Apriori算法以及k-Means算法。
强化学习:
强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。
深度学习:
声音识别,图像识别。
算法
- 回归算法:是试图采用对误差的衡量来探索变量之间的关系的一类算法。
- 决策树学习:决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。
- 贝叶斯方法:是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。
- 关联规则学习:通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则。
- 神经网络:人工神经网络算法模拟生物神经网络,是一类模式匹配算法。
- 降低维度算法:像聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。
- 集成算法:用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。
__EOF__