您的位置：首页 > 其它

FileReader读取文件,由于不确定源文件的编码格式不同，导致读出的文件乱码的问题

2011-12-14 00:00 656 查看

读取一个UTF-8编码格式的文件，代码中起初用FileReader读取到一个字符串，然后转换字符集，结果就出问题了：

文件读入时是按OS的默认字符集即GBK解码的，我先用默认字符集GBK编码str.getBytes(“GBK”)，此时应该还原为文件中的字节序列了，

然后再按UTF-8解码，生成的字符串按理说应该就应该是正确的。

为什么结果中还是有部分乱码呢？

问题出在FileReader读取文件的过程中，FileReader继承了InputStreamReader，但并没有实现父类中带字符集参数的构造函数，

所以FileReader只能按系统默认的字符集来解码，然后在UTF-8 -> GBK -> UTF-8的过程中编码出现损失，造成结果不能还原最初的字符。

之前还碰到过一个问题，读取一个别人上传的文件，本来约束是这个文件啊必须是UTF-8的，但是用户上传的文件，却是用GBK

编码的，导致将这个文件流读出，使用时，发现乱码无法真确识别其中信息。

如何解决呢？

首先，我不管源文件是采用什么编码，取得文件流，然后用org.apache.commons.io.IOUtils.toByteArray这个工具类中的API

FileInputStreamstream = new FileInputStream(targetFile);

byte[] bytes = IOUtils.toByteArray(stream);

这样，就将文件流转化成字节数组，并且不丢失字节；然后，每个文件都有一段头信息，描述文件的字符编码，文件大小等等的信息，同一类字符编码的文件，

头几个字节是相同的，可以以此来判断文件的字符编码类型例如：UTF-8的文件，头2个字节，分别是‘-17’和‘-69’,；接着可以用String的带字符集的构造函数，

把文件还原出来。

另外，clps中不单需要读取源代码，还需要修改源代码，这时候，一定要保证编码格式的一致性，我采用的方式，模仿了文件的格式，返回给页面的

是一个文件对象，包含了文件内容实体，字符编码格式等信息，这样保存的时候，就可以得到这些信息。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航