您的位置:首页 > 其它

机器学习基础理论

2016-11-21 16:55 169 查看

 聚类算法

对聚类算法进行简单的扫盲,方便以后的学习。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类,可分为五大类

如下图所示:



时间序列算法

时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

用随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在多数问题中,随机数据是依时间先后排成序列的,故称为时间序列。它包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。

推荐系统

推荐算法包括基于内容的推荐、协同过滤推荐、关联规则推荐、知识推荐和组合推荐。

内容推荐:用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料

协同过滤推荐:它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,再利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。

关联规则推荐:是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。

知识推荐:它不是建立在用户需要和偏好基础上推荐的,可以看成是一种推理技术

组合推荐:各种推荐方法都有优缺点,所以在实际中组合推荐(Hybrid Recommendation)经常被采用,研究和应用最多的是内容推荐和协同过滤推荐的组合。

回归分析

是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,一般步骤:

1.根据预测目标,确定自变量和因变量

明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

2.建立回归预测模型

依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

3.进行相关分析

回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

4.检验回归预测模型,计算预测误差

回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

5.计算并确定预测值

利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: