您的位置:首页 > 其它

数据挖掘csv文件与xls文件预处理

2018-03-07 18:30 274 查看
(1)、在windows下的csv文件,默认打开方式是GBK格式,在linux下打开的文件默认是utf-8的格式。所以windows下的格式在linux下会出现中文乱码的现象。使用iconv命令对整个文件进行转码的操作。

sudo iconv -f GBK -t UTF-8 d_train_20180102.csv -o new_d_train.csv


后面的第一个csv为需要转码操作的文件,后面的为生成的新文件。

(2)、对xls文件的内容操作

import xlrd
data = xlrd.open_workbook('data.xls')

grade = []
lik = []
sheet = data.sheet_by_index(0)  #此语句可以将xls按照索引进行查找
s = '优秀'       #判断某一个单元格的内容
s_utf8 = s.encode('UTF-8')   #中文的内容需要就行转码操作才能进行比较
print(sheet.nrows)      #打印列数

for i in range(1, sheet.nrows):
if sheet.cell(i, 7).value.encode('UTF-8') == s_utf8:  #把单元格的内容进行转码操作
grade.append(1)
else:
grade.append(0)

s2 = '是'
s2_utf8 = s2.encode('UTF-8')
for i in range(1, sheet.nrows):
if sheet.cell(i, 9).value.encode('UTF-8') == s2_utf8:
lik.append(1)
else:
lik.append(0)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  csv  xls 数据预处理