您的位置：首页 > 编程语言 > Python开发

7070-1.Python机器学习：scikit-learn核心代码解读

2018-03-22 08:11 876 查看

本章介绍scikit_learn中最基础也是最核心的机器学习算法，适合快速上手
这里以根据乘客名单信息预测该乘客目的地的数据为代表
将数据集文件导入后，通过scikit-learn建立机器学习模型只需以下几步：
【1】利用train_test_split将数据分为训练集（用于构建模型）与测试集（用于检验模型的正确性）
一般来说划分比例为75%和25%
代码如下：
X_train,X_test,y_train,y_test=train_test_split(data['Passenger'],data['Destination'])
其中data为导入数据文件的名称，[]中填写表格列名称
【2】调用模型，这里我们调用k临近算法
（scikit-learn）所有机器学习模型都是在各自的类中实现的，这些类被称为Estimator类，k临近算法是在neighbors模块的KNeighborsClassifier类中实现的，因此，我们需要这样两行代码：
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
这里n_neighbors=1是为了设置该模型函数的参数值，在之后的章节我们将会提到
【3】构建模型，基于我们的训练集数据，需要调用knn对象的fit方法：
knn.fit(X_train,y_train）
这样我们就构建出了第一个机器学习模型
【4】检验模型正确率
我们需要用测试集数据来检测模型是否能够正确预测，这里我们用knn的score 方法对模型进行评价：
print("Test score:{:.2f}",format(knn.score(X_test,y_test)))
程序会返回一个0-1之间的浮点数，代表着在测试集数据上模型预测的准确率

综上所述：
机器学习模型构建的顺序如下：
1、将数据随机拆分
2、调用算法
3、将数据fit入模型
4、模型评估
附代码：

from sklearn.neighbors import KNeighborsClassifier

X_train,X_test,y_train,y_test=train_test_split(data['Passenger'],data['Destination'])

knn=KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train,y_train）

print("Test score:{:.2f}",format(knn.score(X_test,y_test)))

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航