您的位置:首页 > 编程语言 > Python开发

7070-1.Python机器学习:scikit-learn核心代码解读

2018-03-22 08:11 876 查看
本章介绍scikit_learn中最基础也是最核心的机器学习算法,适合快速上手
这里以根据乘客名单信息预测该乘客目的地的数据为代表
将数据集文件导入后,通过scikit-learn建立机器学习模型只需以下几步:
【1】利用train_test_split将数据分为训练集(用于构建模型)与测试集(用于检验模型的正确性)
一般来说划分比例为75%和25%
代码如下:
X_train,X_test,y_train,y_test=train_test_split(data['Passenger'],data['Destination'])
其中data为导入数据文件的名称,[]中填写表格列名称
【2】调用模型,这里我们调用k临近算法
(scikit-learn)所有机器学习模型都是在各自的类中实现的,这些类被称为Estimator类,k临近算法是在neighbors模块的KNeighborsClassifier类中实现的,因此,我们需要这样两行代码:
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
这里n_neighbors=1是为了设置该模型函数的参数值,在之后的章节我们将会提到
【3】构建模型,基于我们的训练集数据,需要调用knn对象的fit方法:
knn.fit(X_train,y_train)
这样我们就构建出了第一个机器学习模型
【4】检验模型正确率
我们需要用测试集数据来检测模型是否能够正确预测,这里我们用knn的score 方法对模型进行评价:
print("Test score:{:.2f}",format(knn.score(X_test,y_test)))
程序会返回一个0-1之间的浮点数,代表着在测试集数据上模型预测的准确率

综上所述:
机器学习模型构建的顺序如下:
1、将数据随机拆分
2、调用算法
3、将数据fit入模型
4、模型评估
附代码:

from sklearn.neighbors import KNeighborsClassifier
X_train,X_test,y_train,y_test=train_test_split(data['Passenger'],data['Destination'])
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
print("Test score:{:.2f}",format(knn.score(X_test,y_test)))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: