数据挖掘csv文件与xls文件预处理
2018-03-07 18:30
274 查看
(1)、在windows下的csv文件,默认打开方式是GBK格式,在linux下打开的文件默认是utf-8的格式。所以windows下的格式在linux下会出现中文乱码的现象。使用iconv命令对整个文件进行转码的操作。
后面的第一个csv为需要转码操作的文件,后面的为生成的新文件。
(2)、对xls文件的内容操作
sudo iconv -f GBK -t UTF-8 d_train_20180102.csv -o new_d_train.csv
后面的第一个csv为需要转码操作的文件,后面的为生成的新文件。
(2)、对xls文件的内容操作
import xlrd data = xlrd.open_workbook('data.xls') grade = [] lik = [] sheet = data.sheet_by_index(0) #此语句可以将xls按照索引进行查找 s = '优秀' #判断某一个单元格的内容 s_utf8 = s.encode('UTF-8') #中文的内容需要就行转码操作才能进行比较 print(sheet.nrows) #打印列数 for i in range(1, sheet.nrows): if sheet.cell(i, 7).value.encode('UTF-8') == s_utf8: #把单元格的内容进行转码操作 grade.append(1) else: grade.append(0) s2 = '是' s2_utf8 = s2.encode('UTF-8') for i in range(1, sheet.nrows): if sheet.cell(i, 9).value.encode('UTF-8') == s2_utf8: lik.append(1) else: lik.append(0)
相关文章推荐
- 数据挖掘csv文件与xls文件预处理
- ean13码的生成,python读取csv中数据并处理返回并写入到另一个csv文件中
- [数据科学] 从csv, xls文件中提取数据
- datagrid数据导出到excel文件给客户端下载的几种方法 (xls,csv,html)
- sql读取csv和xls格式的文件,数据源
- php将数据写入xls或csv文件里
- Hive 处理CSV格式文件数据
- Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(五)
- json格式转数据换为.xls .mdb.csv格式文件
- datagrid数据导出到excel文件给客户端下载的几种方法 (xls,csv,html)
- 正则表达式分割字符串但是不分割字符串中引号中间的数据,处理CSV文件必备!!
- python数据分析-处理CSV/EXCEL表格文件
- C#_把dataTable数据导出到CSV,XLS文件
- 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第14章 处理CSV文件和JSON数据】
- Python数据处理-将数据保存为txt、csv等文件格式方法
- C#_把dataTable数据导出到CSV,XLS文件
- 处理淘宝双11数据,使用pandas库快速切分海量csv文件
- csv 导出数据到csv或者xls文件
- 读取大csv文件数据插入到MySql或者Oracle数据库通用处理
- python处理CSV文件格式数据