您的位置:首页 > 其它

R转换.csv文件格式到.txt或.xlsx) [read.csv and export data to .txt or .xlsx]

2014-04-16 18:36 561 查看
现有多份文件名相似(比如文件名开头都以"Report"开头, "Report"之后跟进日期和时间)并且数据结构一致的.csv格式文件,需要用R把这些文件合并,并转化文件格式为.txt或者.xlsx。文件内容可参考如下范例:

IDNameAgeIQ
001路飞2080
002山治22120
003乌索普2070
需要考虑的因素有:

每次处理的文件数量可能不同
合并文件时,只需保留一个表头
那么我可以写一个这样的函数:

# read all .csv files (file name beginning with same characters, same data structure)
# combine them together and keep only the header of the first table
# export as an entity of .txt file

transcsv<-function(directory = "D:/RawData",startchar = "Report"){

# directory: the directory where you put the data source
# startchar: the common fields/characteristics the file names start with

setwd(directory)
filename <- paste(startchar, "*.csv", sep="")
filenames <- Sys.glob(filename)  # can also try list.files()

n <- 1
for (filename in filenames){
if (n == 1){
txtfile<-read.csv(filename, header = T, sep = ";")
}else{
txtfile<-rbind(txtfile,read.csv(filename, sep = ";"))
}
n <- n + 1
}
newname<-paste(startchar, "_All.txt", sep="")
write.table(txtfile, newname, sep=";")
}


上面涉及到的一些关键点有:

设定自定义函数的参数:原始数据的存储路径 以及 所有原始文件名的开始部分(当然,如果想要处理一个文件夹下的所有.csv文件,那么第二个参数只要设定成""这样的空值就可以了)
Sys.glob()(或者list.files()函数)用于抓取working directory下所有符合条件的文件名,并存储到一个vector中
写循环语句,从vector的第一个文件名读起,对应的第一个文件保留表头,之后的所有文件不保留表头(设定参数header),将所有这些数据用rbind结合起来
如果要将.csv转换成.xlsx格式(.xls格式的请自己去搜索package: WriteXLS,使用方法大同小异),需要在自定义函数里添加和修改一些地方:

在setwd()之前,用library()添加三个packages: rJava, xlsxjars 以及xlsx(使用函数前要确保这三个包已经安装了) -library(rJava, xlsxjars, xlsx)
将write.table改为write.xlsx,对相关参数做相应修改
==========================================================================================================
写这个函数的背景:
每周需要读取大量的.csv文件做报告,公司电脑是英文系统(不想在设置面板里改为中文),那么在用VBA读取.csv文件时,如果.csv里包含中文字符,读取到EXCEL之后会变成乱码,而将.csv变成.txt后再读取,就没有这种问题了(如果还是有问题,就要尝试一下在write.table()里添加一个arg:fileEncoding
= "UTF-8" 或者= "ANSI")。
另,如果是英文系统,即使读取了.csv文件并用write.xlsx()写成.xlsx文件,也无法显示里面的中文,这里只是提供另一种思路。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息