您的位置：首页 > 编程语言 > Python开发

Python开源机器学习框架：Scikit-learn六大功能，安装和运行Scikit-learn

2017-08-21 22:58 429 查看

Python开源机器学习框架：Scikit-learn入门指南.

Scikit-learn的六大功能

Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理。

分类是指识别给定对象的所属类别，属于监督学习的范畴，最常见的应用场景包括垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括：支持向量机（SVM），最近邻，逻辑回归，随机森林，决策树以及多层感知器（MLP）神经网络等等。

需要指出的是，由于Scikit-learn本身不支持深度学习，也不支持GPU加速，因此这里对于MLP的实现并不适合于处理大规模问题。有相关需求的读者可以查看同样对Python有良好支持的Keras和Theano等框架。

回归是指预测与给定对象相关联的连续值属性，最常见的应用场景包括预测药物反应和预测股票价格等。目前Scikit-learn已经实现的算法包括：支持向量回归（SVR），脊回归，Lasso回归，弹性网络（Elastic Net），最小角回归（LARS ），贝叶斯回归，以及各种不同的鲁棒回归算法等。可以看到，这里实现的回归算法几乎涵盖了所有开发者的需求范围，而且更重要的是，Scikit-learn还针对每种算法都提供了简单明了的用例参考。

聚类是指自动识别具有相似属性的给定对象，并将其分组为集合，属于无监督学习的范畴，最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括：K-均值聚类，谱聚类，均值偏移，分层聚类，DBSCAN聚类等。

数据降维是指使用主成分分析（PCA）、非负矩阵分解（NMF）或特征选择等降维技术来减少要考虑的随机变量的个数，其主要应用场景包括可视化处理和效率提升。

模型选择是指对于给定参数和模型的比较、验证和选择，其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括：格点搜索，交叉验证和各种针对预测误差评估的度量函数。

数据预处理是指数据的特征提取和归一化，是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量，但因为大多数时候都做不到精确等于零，因此会设置一个可接受的范围，一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。

需要特别注意的是，这里的特征提取与上文在数据降维中提到的特征选择非常不同。特征选择是指通过去除不变、协变或其他统计上不重要的特征量来改进机器学习的一种方法。

总结来说，Scikit-learn实现了一整套用于数据降维，模型选择，特征提取和归一化的完整算法/模块，虽然缺少按步骤操作的参考教程，但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。

scikit-learn.org/stable

SciPy——一个开源的基于Python的科学计算工具包。基于SciPy，目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本，它们被统一称为Scikits，即SciPy工具包的意思。而在这些分支版本中，最有名，也是专门面向机器学习的一个就是Scikit-learn。

Scikit-learn项目最早由数据科学家 David Cournapeau 在 2007 年发起，需要NumPy和SciPy等其他包的支持，是Python语言中专门针对机器学习应用而发展起来的一款开源框架。

Scikit-learn的六大功能:分类，回归，聚类，数据降维，模型选择和数据预处理.
分类:识别给定对象的所属类别，属于监督学习的范畴，最常见的应用场景包括垃圾邮件检测和图像识别等
回归:预测与给定对象相关联的连续值属性，最常见的应用场景包括预测药物反应和预测股票价格等
聚类:
数据降维:
模型选择:
数据预处理

目前Scikit-learn已经实现的算法包括：
支持向量机（SVM），
最近邻，
逻辑回归，
随机森林，
决策树以及
多层感知器（MLP）神经网络等等。

详细参考；https://www.leiphone.com/news/201701/ZJMTak4Y8ch3Nwd0.html
由于Scikit-learn本身不支持深度学习，也不支持GPU加速

分析纬度可以高达4亿纬度。

特征分组

监督学习：数据，标签，分类，模型体系构建，知识体系构建
分类问题，

无监督学习：聚类，降维

增强学习：有延时的反馈，收益最大化

离散化

pandas,scikit learn

预处理分析数据60%(pandas)，数据降维，数据采样，清洗，数据特征处理，垃圾数据清理
日期：星期一，星期5 开车人多，

Learning30%：模式选择，参数配置，时间安排

evaluation10%：期末高考估计

prediction 掌握知识预言

数据量
机器原理：

贝叶斯（文本：一句话词的顺序不会影响这句话的意思，通过词越策算概率），
逻辑回归，
决策树，随机森林原来原理，SVM（三维，影射）
统计分析，数据处理，
knn

图像，文本
多媒体：深度学习
业务场景：逻辑回归，gbgt,pca 原理

分类
回归，
文本，

train_test_split

model.fit(X,y) #lihe
model.tranform(X) #wu jian du ,pc 数据预处理
model.transform(textx)#lihe

model.fit_transform(x)#及离合又数据预处理

model.predict(textx)#预测类别

model.predict_proba(testx)#预测概率

第8期机器学习

神经网络：曲折边界

随机森林：台阶边界

决策树：回归，分类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航