数据挖掘笔记一【不定期更新】
2017-04-20 12:33
211 查看
#matplotlib中的小技巧
1.无法显示中文和负号(乱码)
#coding:utf-8import matplotlib.pyplot as plt
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#有中文出现的情况,需要u'内容'
2.独立数字转到one-hot
import numpy as np from keras.datasets import mnist from keras.utils import np_utils # X shape (60,000 28x28), y shape (10,000, ) (X_train,y_train),(X_test,y_test)=mnist.load_data() y_train = np_utils.to_categorical(y_train, num_classes=10) y_test = np_utils.to_categorical(y_test, num_classes=10)
print(y_train[:3]) """ [[ 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.] [ 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.] [ 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]]#变成了one hot 形式(即哪个位置正确哪个位置就是1)
3,将二维数组用图表现出来import matplotlib as mpl import matplotlib.pyplot as plt import numpy as np data=np.clip(np.random.randn(5,5),-1,1) #生成随机数据,5行5列,最大值1,最小值-1 fig = plt.figure() # 第一个子图,按照默认配置 ax = fig.add_subplot(111) ax.imshow(data)
4.图像数据白化
像数据预处理:在mnist的例子中,所有图像都是使用的原始像素值(从0到255)。在机器学习中,对于输入的特征做归一化(normalization)处理是常见的套路。而在图像分类的例子中,图像上的每个像素可以看做一个特征。在实践中,对每个特征减去平均值来中心化数据是非常重要的。在这些图片的例子中,该步骤意味着根据训练集中所有的图像计算出一个平均图像值,然后每个图像都减去这个平均值,这样图像的像素值就大约分布在[-127, 127]之间了。下一个常见步骤是,让所有数值分布的区间变为[-1, 1]。零均值的中心化是很重要的,等我们理解了梯度下降后再来详细解释。
相关文章推荐
- 【笔记】数据挖掘导论(持续更新)
- 《数据挖掘——概念和技术》笔记之概论
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- Analysis Server 2005数据挖掘笔记
- 数据挖掘学习笔记(一)
- 数据挖掘学习笔记(一)
- Gentle.Net学习笔记三:常用更新数据的方法总结
- ASP.NET 3.5核心编程学习笔记(23):Linq-to-SQL 数据的更新、事务、存储过程、函数
- 【个人学习笔记10之--数据修改之插入数据,更新数据,删除数据.】
- Ext使用笔记(不定期更新 2010-2-09)
- oracle ODM 数据挖掘笔记
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(四)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- 【T-MAC学习笔记10之--数据修改之插入数据,更新数据,删除数据】
- 《数据挖掘——概念和技术》笔记之数据预处理
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- 从书中体会到的数据挖掘(笔记)
- 《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(1/12-3/12)
- web数据挖掘(学习笔记)-观点挖掘