您的位置:首页 > 大数据 > 人工智能

机器学习入门笔记(一):有关概念介绍

2018-01-26 20:44 302 查看

1.什么是机器学习

简单来说就是在现有的以往数据基础上,通过相应的算法对机器进行训练生成模型,然后对未来做出预测。



2.机器学习流程



一个典型的机器学习流程大致可以分为以上几个步骤,下面对每一步骤进行简要的解释:
(1)场景解析
通过对所要实现的业务进行分析,对场景进行抽象,选择相应的算法。例如采取监督学习还是非监督学习,以及进一步的分类、聚类、文本分析、回归算法等的选取。

(2)数据预处理
主要对于业务数据进行相应的处理,如采样、归一化、标准化、去噪等处理。提高数据集的质量,对于数据的训练结果有很大的影响。主要是数据ETL工程。
(3)特征工程
对一些不易进行数学运算的特征进行数据抽象,使之易于运算。对特征进行评估,还包括特征衍生、特征降维等一些操作。是机器学习中非常重要的一环。
(4)模型训练
通过对数据进行预处理和特征工程后,把数据代入模型中进行训练,最后生成模型。并把要预测数据输入模型,得出结果。
(5)评估
对模型的质量进行评价,同时也是对整个机器学习过程进行评估。
(6)进行预测
对实际的需要进行预测。包括对每天新产生的数据进行训练,更新模型。

3.算法分类

具体的机器学习算法多达几十种,在这里我们主要分为四种算法:

(1)监督学习(supervised learning)

算法中用于训练的数据都有特征值和目标值,模型的生成本质上为特征值和目标值的映射关系的形成。

(2)无监督学习(unsupervised learning)

没有确定的目标值,不依赖于打包数据的机器学习算法。多通过距离和密度等进行相关算法。

(3)半监督学习(semi-supervised learning)

监督算法的打标是一件费时费力的事情,半监督算法对于分类的算法有一定的难度,半监督学习通过对部分数据进行打标训练来生成模型。目前在许多场景下有广泛的应用。

(4)强化学习(reinforcement learning)

整个算法系统不断的与外界进行交互,取得反馈,根据反馈做出相应的决策。如阿尔法狗的算法等。

具体的分类如下:

<

监督学习k-紧邻、逻辑回归、随机森林、朴素贝叶斯、支持向量机(svm)
非监督学习DBSCAN、协同过滤、LDA、K-means
半监督学习标签传播
强化学习隐马尔科夫

4.一些基本概念

(1)过拟合(over-fitting)

在对训练数据进行训练时准确率很高,但在实际的应用中准确率却下降,迁移性较低。模型偏离真正模型,过度符合训练集,

(2)精确率(precision)、召回率(Recall)、F1值

True Positive(真正, TP):将正类预测为正类数.
True Negative(真负 , TN):将负类预测为负类数.
False Positive(假正, FP):将负类预测为正类数 
False Negative(假负 , FN):将正类预测为负类数

计算公式

 
精确率 = TP/(TP+FP)

 
召回率 = TP/(TP+FN)

   F1值=2*精确率*召回率/(精确率+召回率)

精确率和覆盖度分别从不同的维度上对模型结果进行了评估,F1值则综合两者的准确性和覆盖度进行评估,是前两个指标的综合。

(3)ROC和AUC



如上图:fp值为横坐标,tp值为纵坐标,这个曲线称作ROC曲线,可以看出,图像越靠近左上角则模型的效果越好。

曲线与x轴所包含的面积成为AUC值,AUC值越大说明模型的拟合效果越好,AUC值在0--1之间,AUC值到达0.9以上时,说明这个模型的效果较好。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐