您的位置：首页 > 编程语言 > Python开发

python/机器学习：读写机器学习中常用的.CSV数据文件t

2015-07-17 21:04 816 查看

最近在kaggle上做题，常用到.CSV数据文件。下面给出读写此类文件的代码：

读文件：

global trainIdDict
trainIdDict = {}
global lineCount
lineCount = 0

import csv
csvfile = file('train_set.csv', 'rb')
reader = csv.reader(csvfile)
for line in reader:
    lineCount += 1
    if lineCount==1: #过滤标题行
        continue
    ID = line[0]
    quantity = int(line[2])
    cost = float(line[3])
    if trainIdDict.has_key(ID):
        trainIdDict[ID][0] += quantity
        trainIdDict[ID][1] += cost*quantity
    else:
        trainIdDict[ID] = [quantity, cost*quantity]
    else:
        trainQuantityDict[quantity] = [1, cost] #第一个量记录quantity出现了几次
csvfile.close()

写文件：

import csv
csvfile = file('train_set_processResult.csv', 'wb')
writer = csv.writer(csvfile, dialect='excel')
for key in trainIdDict.keys():
    aveCost = trainIdDict[key][1] / (trainIdDict[key][0]*1.0) #每一个产品的averageCost
    writer.writerow([str(key), str(trainIdDict[key][0]), str(trainIdDict[key][1]), str(aveCost)])
csvfile.close()

加载完了数据，就可以使用scikit-learn介绍的方法处理数据啦。。。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航