您的位置:首页 > 编程语言 > Python开发

python/机器学习:读写机器学习中常用的.CSV数据文件t

2015-07-17 21:04 816 查看
最近在kaggle上做题,常用到.CSV数据文件。下面给出读写此类文件的代码:

读文件:






global trainIdDict
trainIdDict = {}
global lineCount
lineCount = 0

import csv
csvfile = file('train_set.csv', 'rb')
reader = csv.reader(csvfile)
for line in reader:
    lineCount += 1
    if lineCount==1: #过滤标题行
        continue
    ID = line[0]
    quantity = int(line[2])
    cost = float(line[3])
    if trainIdDict.has_key(ID):
        trainIdDict[ID][0] += quantity
        trainIdDict[ID][1] += cost*quantity
    else:
        trainIdDict[ID] = [quantity, cost*quantity]
    else:
        trainQuantityDict[quantity] = [1, cost] #第一个量记录quantity出现了几次
csvfile.close()


写文件:

import csv
csvfile = file('train_set_processResult.csv', 'wb')
writer = csv.writer(csvfile, dialect='excel')
for key in trainIdDict.keys():
    aveCost = trainIdDict[key][1] / (trainIdDict[key][0]*1.0) #每一个产品的averageCost
    writer.writerow([str(key), str(trainIdDict[key][0]), str(trainIdDict[key][1]), str(aveCost)])
csvfile.close()




加载完了数据,就可以使用scikit-learn介绍的方法处理数据啦。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: