您的位置：首页 > 大数据 > 人工智能

机器学习入门笔记（一）：有关概念介绍

2018-01-26 20:44 302 查看

1.什么是机器学习

简单来说就是在现有的以往数据基础上，通过相应的算法对机器进行训练生成模型，然后对未来做出预测。

2.机器学习流程

一个典型的机器学习流程大致可以分为以上几个步骤，下面对每一步骤进行简要的解释：
（1）场景解析
通过对所要实现的业务进行分析，对场景进行抽象，选择相应的算法。例如采取监督学习还是非监督学习，以及进一步的分类、聚类、文本分析、回归算法等的选取。

（2）数据预处理
主要对于业务数据进行相应的处理，如采样、归一化、标准化、去噪等处理。提高数据集的质量，对于数据的训练结果有很大的影响。主要是数据ETL工程。
（3）特征工程
对一些不易进行数学运算的特征进行数据抽象，使之易于运算。对特征进行评估，还包括特征衍生、特征降维等一些操作。是机器学习中非常重要的一环。
（4）模型训练
通过对数据进行预处理和特征工程后，把数据代入模型中进行训练，最后生成模型。并把要预测数据输入模型，得出结果。
（5）评估
对模型的质量进行评价，同时也是对整个机器学习过程进行评估。
（6）进行预测
对实际的需要进行预测。包括对每天新产生的数据进行训练，更新模型。

3.算法分类

具体的机器学习算法多达几十种，在这里我们主要分为四种算法：

（1）监督学习（supervised learning）

算法中用于训练的数据都有特征值和目标值，模型的生成本质上为特征值和目标值的映射关系的形成。

（2）无监督学习（unsupervised learning）

没有确定的目标值，不依赖于打包数据的机器学习算法。多通过距离和密度等进行相关算法。

（3）半监督学习(semi-supervised learning)

监督算法的打标是一件费时费力的事情，半监督算法对于分类的算法有一定的难度，半监督学习通过对部分数据进行打标训练来生成模型。目前在许多场景下有广泛的应用。

（4）强化学习(reinforcement learning)

整个算法系统不断的与外界进行交互，取得反馈，根据反馈做出相应的决策。如阿尔法狗的算法等。

具体的分类如下：

<

监督学习	k-紧邻、逻辑回归、随机森林、朴素贝叶斯、支持向量机（svm）
非监督学习	DBSCAN、协同过滤、LDA、K-means
半监督学习	标签传播
强化学习	隐马尔科夫

4.一些基本概念

（1）过拟合（over-fitting）

在对训练数据进行训练时准确率很高，但在实际的应用中准确率却下降，迁移性较低。模型偏离真正模型，过度符合训练集，

（2）精确率（precision）、召回率（Recall）、F1值

True Positive(真正, TP)：将正类预测为正类数.
True Negative(真负 , TN)：将负类预测为负类数.
False Positive(假正, FP)：将负类预测为正类数
False Negative(假负 , FN)：将正类预测为负类数

计算公式

精确率 = TP/(TP+FP)

召回率 = TP/(TP+FN)

F1值=2*精确率*召回率/（精确率+召回率）

精确率和覆盖度分别从不同的维度上对模型结果进行了评估，F1值则综合两者的准确性和覆盖度进行评估，是前两个指标的综合。

（3）ROC和AUC

如上图：fp值为横坐标，tp值为纵坐标，这个曲线称作ROC曲线，可以看出，图像越靠近左上角则模型的效果越好。

曲线与x轴所包含的面积成为AUC值，AUC值越大说明模型的拟合效果越好，AUC值在0--1之间，AUC值到达0.9以上时，说明这个模型的效果较好。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 人工智能数据挖掘机器学习

相关文章推荐

新的分享

章节导航