雪月书韵茶香 雪月书韵茶香

专心做可以提升自己的事情
学习并拥有更好的技能
成为一个值得交往的人


目录
机器学习导论
/  

机器学习导论

机器学习笔记(一)机器学习导论

image.png

一、机器学习概念

1.机器学习的定义:

机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能。 --周志华

对于某类任务T和性能标准P,如果一个计算机程序在T上以P衡量西能,随着经验E自我完善,那么就称这个计算程序从经验E中学习。

定义:机器学习是从数据中自动分析获得模型,并利用模型是对未知数据进行预测

2.机器学习的核心要素

数据模型、和算法

机器学习=数据 + 模型 + 算法

3.机器学习的过程

机器学习一般流程

由图可知,机器学习大致上分为

收集数据-->探索数据-->预处理数据-->
训练模型-->评估模型-->优化模型

二、机器学习的发展历程

enter description here
人工智能架构

机器学习算法

三、机器学习的应用领域

机器学习应用已经渗透到个各行各业中
医疗、航空、教育、物流、电商、金融等等!

从大方向上来看主要又传统的数据挖掘和预测、图像识别和自然语言处理等。

数据挖掘和预测:量化投资、产品销量预测等。
图像识别:人脸识别、无人驾驶等。
自然语言处理:情感分析、词云、翻译等。

具体如下图所示
机器学习应用

模式学习=机器学习
数据挖掘=机器学习+数据库
统计学习=机器学习
计算机视觉=机器学习+图像处理
语音识别=机器学习+文本处理

四、机器学习算法的分类

在机器学习中,有一个定理被称为【没有免费的午餐】(No Free Lunch Theorem)。这个定理说明 若要学习算法 a 在处理某些问题上比算法 b 要好,那么必然存在 在处理另一些问题上算法 b 要比算法 a 表现更好。

简而言之,就是说没有一个算法可以完美解决所有问题,而且这对于监督学习(即对预测的建模)而言尤其如此。

举个例子,你不能说神经元网络算法在任何时候都比决策树算法优秀。反过来也是。
所以当我们在使用一个固定的数据测试集来评估性能,挑选合适算法时候,应该针对问题尝试多种不同的算法。

1.回归方法

回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例一般包括预测、股票走势或测试成绩等连续变化的案例。

回归任务的特点是标注的数据集具有数值型的目标变量。也就是说,每一个观察样本都有一个数值型的标注真值以监督算法。

2.分类方法

分类方法是一种对离散型随机变量建模或预测的监督型学习算法。使用案例包括邮件过滤、金融欺诈和预测雇员异动等输出为类别的任务。

许多回归算法都有与其相对应的分类算法,分类算法通常适用于预测一个类别(或类别的概率)而不是连续的数值。

3.聚类方法

聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。

因为聚类是一种无监督学习(即数据没有标注),并且通产使用数据可视化来评价结果。如果存在【正确的回答】 (即在训练集中国存在预标注的集群),那么分类算法可能更合适。

五、机器学习的十大经典算法

回归算法K-近邻(KNN)算法决策树朴素贝叶斯支持向量机(SVM)神经网络随机森林K-means 聚类关联规则降维

1.回归算法

回归算法包含线性回归和逻辑回归。

(1)线性回归

在机器学习中,输入变量 x 和输出变量之间存在某种关系,线性回归的目标是量化这种关系。关系的变现形式为 y=ax+b 的方程,线性回归的目标是找出系数 a 和 b 的值,a 是斜率,b 是截距。因为 y 是连续值,所以是回归问题。

线性回归

(2)逻辑回归

逻辑回归主要用于解决二分类问题,它是线性回归的(−∞,+∞)结果,通过 sigmoid 函数映射到(0,1)之间。以 0.5 为分界点,对预测的结果判定其属于正类还是负类。

逻辑回归

2.K-近邻(KMN)算法

K-近邻(K-NearestNeighbor)算法是数据挖掘分类技术中最简单的方法之一。所谓 K 近邻就是每个样本都可以用它最最接近的 K 个邻居来代表,是一种分类算法,通过测量不同特征值之间的距离来进行分类

基本思想:如果一个样本在特征空间中的K个最邻近的样本中的大多数属于某一个类别,则该样本也划分为这个类别。

KNN 算法

在这个算法中,关键是 k 的取值,k 为临近数,即在预测目标点时取几个临近的点来预测。若 k 的取值过小,模型变得复杂,容易发生过拟合;若取值太大,模型变得简单,容易欠拟合。一般的 K 的取值不超过 20,上限是 n 的开方。

3.决策树

决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

决策树中典型的算法又 ID3、C4.5、CART 等 ,即可做分类也可以做回归

决策树

4.朴素贝叶斯

朴素贝叶斯使用概率统计的知识对样本数据进行分类,它是以贝叶斯定理为基础并且假设特征条件之间相互独立,先通过已给定的训练集学习从输出的联合概率分布,再基于学习到的模型,输出 x 求出使得后验概率最大的输出 y。

此算法主要用于分类

贝叶斯公式如下:

贝叶斯公式

5.支持向量机(SVM)

此算法是分类算法,主要应用与计算机视觉、自然语言处理、生物信息学等。

基本思想:在分类问题中给定输出数据X和学习目标Y,其中Y∈{-1,1},表示负类和正类,若输入数据在由样本和特征构成的特征空间中促进你在作为*决策边界*(decision boundary) 的超平面酱学习目标按正类和负类分开,并使任意样本的点到平面距离大于等于1,则称该分类问题具有线性可分性,参数w,b分别为超平面的方向量和截距。

如下图所示:

SVM

6.神经网络

神经网络是一种模拟人脑的神经以期能够实现人工智能的机器学习技术,神经网络的结构一般由输入层、中间层(也可成为隐藏层)和输出层三部分组成,如下图所示:

神经网络的三层结构

在这个结构图中关键点不是圆圈,而是连接线,每条连接线对应一个不同的权值,权值大小训练得到。

神经网络是模拟人脑中的神经元,
一个神经元通常具有多个*树突*, 主要用来接受传入信息;而*轴突*只有一条,轴突尾端又许多*轴突末端*,跟其他神经元的树突产生连接,从而传递信号。

神经元结构如下图所示:

神经元结构

神经网络中的神经元模型是一个包含输入,输出与计算功能的模型。输出可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算可以类比为细胞核。

如下图所示:

神经网络类比神经元结构

7.随机森林

随机森林是一种集成学的方法,它是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树。

随机森林具有准确率高、能够处理高维特征的输入样本、而不需要降维、能够评估各个特征在分类问题上的重要性特点,在各大竞赛上经常用到。

8. K-means 聚类

K-means 算法是一个比较简单的聚类算法,是一种无监督学习。

K-means算法思想:
假设我们要把数据分成K个类,
1.先随机选取K个点,做为聚类中心;
2.然后计算每个点分别到K个聚类中心的聚类,
3.将该点分到最近的聚类中心,这样就形成了K个簇;
4,再重新计算每个簇的质心(均值);
重复2-4步直到质心的位置不再发生变化或者达到设定的迭代次数。

K-means 聚类

9.关联规则

关联规则是反应一个事物其他食物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。常见的又购物车分析。

主要概念是频繁项集。常用的频繁项集的评估标准有支持度,置信度和提升度三个。

·支持度:几个关联的数据在数据集中出现的次数占总数据集的比重。
·置信度:一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。
·提升都:表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比,

关联规则中常用的算法是Apriori算法。

10.降维

主成分分析法(PCA:Principal Component Analysis)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少次数的数据维度,同时保留较多的原数据点特性。

六、机器学习模型的评估

泛化学习能力指的是通过学习得到的模型适用于新样本的能力,对于预测任务,给定样本集,需要评估学习器的性能,就要把预测结果 Y^ 与真实标签 y 进行比较。

我们把预测值与真实值之间的差异称为误差,学习器在训练集上的误差称为训练误差;在新样本上的误差称为测试误差泛化误差

当学习器把训练样本学得太好了的时候就会导致泛化性能下降,这种现象称为过拟合,与之相对应的是欠拟合,
如下图所示:

拟合

在分类问题中,通常通过混淆矩阵求得准确率(Accuracy)、精确率(Precision)和查全率/召回率(Recall) 来度量模型的泛化能力.

混淆矩阵如下图所示:

混淆矩阵

除此之外,还有 ROC 曲线,AUC 等评价标准。

在回归任务中,最常用的性能度量是均方误差(MSE:Mean Squared Error)和均方根误差(RMSE)。
在聚类任务中,评估学习器的性能标准是尽量使得聚类结果得簇内相似度高,并且簇间相似度低。


机器学习 PDF 资料

image.png

百度网盘提取码:03p1

微信扫描二维码获取


标题:机器学习导论
作者:shuaibing90
版权声明:本站所有文章除特别声明外,均采用 CC BY-SA 4.0转载请于文章明显位置附上原文出处链接和本声明
地址:https://www.xysycx.cn/articles/2020/02/18/1582022103958.html
欢迎加入博主QQ群点击加入群聊:验证www.xysycx.cn