数据挖掘-K-近邻分类器-Iris数据集分析-使用K-近邻分类器进行分类预测(四)
2017-01-30 19:06
645 查看
# coding: utf-8 #使用 scikit-learn库的K-近邻分类器完成分类 #1. 首先将数据集中的数据进行打乱 #2. 将数据分为训练集和测试集两部分 #3. 使用 k-means分类器进行分类训练,得到预测模型 #4. 使用模型对测试集进行测试,并与真实结果进行比较,计算错误率 import numpy as np from sklearn import datasets np.random.seed(0) iris=datasets.load_iris() x=iris.data y=iris.target #打乱数据集中的所有数据 # permutation函数: 随机排列 https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.permutation.html i=np.random.permutation(len(iris.data)) #训练集: 取出打乱后的前140条数据 x_train=x[i[:-40]] #前110条数据 y_train=y[i[:-40]] #前110条数据对应的花的类型 #输出x_train, y_train #x_train #y_train #测试集 x_test=x[i[-40:]] #最后40条数据 y_test=y[i[-40:]] #最后40条数据对应的花的类型 #使用k-近邻算法 引入kneighborsClassifier分类器,再使用fit()来训练 from sklearn.neighbors import KNeighborsClassifier # KneighborsClassifier参数详解: http://blog.csdn.net/helloworld6746/article/details/50817427 # http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html knn=KNeighborsClassifier() #使用构造函数创建分类器 knn.fit(x_train,y_train) #调用fit方法训练分类器,得到预测模型 #下面使用这个模型进行预测 y_predicted=knn.predict( x_test ) #对比标准结果 y_test #计算正确率 accuracy=np.mean( y_predicted==y_test)*100 print(u"模型正确率为:{:.1f}%".format( accuracy)) # 95%
相关文章推荐
- 使用spark和spark mllib进行股票预测
- 【2017 IT 预测】Mircosoft 询问 17 位女性对 2017 及未来 10 年的展望
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- 数据挖掘之Apriori算法详解和Python实现代码分享
- Sqlserver 高并发和大数据存储方案
- php+ajax导入大数据时产生的问题处理
- C# 大数据导出word的假死报错的处理方法
- 用Python实现协同过滤的教程
- Python利用多进程将大量数据放入有限内存的教程
- mongodb常遇到的错误。
- 微软BI专题-海量数据处理分析 3ff8
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Stack数据结构的特点后进先出的应用:大数据运算
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- Spark机器学习(二) 局部向量 Local-- Data Types - MLlib
- Spark机器学习(三) Labeled point-- Data Types
- YARN或将成为Hadoop新发力点
- Hadoop 1.x版本伪单机配置