JSON保存文件时候不丢转义符号
2015-12-02 00:00
681 查看
这些天在给公司里做mcq,hbase版本升级的测试,要求数量千万级的mcq,hbase读写。
因为数据太大,中间需要保存json格式的文件,自己纱布呵呵地使用了FileWriter然后数据错误地一塌糊涂。
在各位需要保存json到文本时候,千万注意别用String形式保存,会有很多麻烦。个人使用的最后方案是
net.sf.json包+FileInputStream,代码如下:
其中的重点就是:使用sf.json组建json数据能够方便地实现字符转义,(公司很多人用阿里巴巴的fastjson,个人觉得没有普遍适用性...),第二步就是写文件时候要使用二进制写入文件这样json中的转义符号就不会丢掉!
白痴地测试过程。。。
--------------------------------------------------------------------------------------------------
测试过程是读取hbase数据解析为json再插入新的hbase,再将新hbase数据扫出解析为json,最终数据对比。中间的数据格式都是json。由于数据量太大不得不把json格式的数据保存到本地文件。但是hbase存储的是json解析后按照column拆分的数据,而且公司通讯过程中对部分数据使用了protobuf序列化了数据,使得从hbase扫出的数据比较混乱,生成json也比较复杂。
这时候出现了一个白痴的场景,为了拼接json更快捷,我自作聪明地自己写了一个json的字符串拼接,然后用FIleWriter写入文件。结果很悲剧:json数据中存在各种特殊字符
1.引号转译
2.反斜杠转译
3.换行符转译
4.特殊字符(韩文,日文等)
这些字符在使用String类型进行Writer时候会出现由于系统编码与内容编码不一致导致许多字符丢失!其中最明显的就是韩文的丢失。
因为数据太大,中间需要保存json格式的文件,自己纱布呵呵地使用了FileWriter然后数据错误地一塌糊涂。
在各位需要保存json到文本时候,千万注意别用String形式保存,会有很多麻烦。个人使用的最后方案是
net.sf.json包+FileInputStream,代码如下:
private static String protoToJson(List<Column> rowkey, List<Column> values, int tableId) { JSONObject json=new JSONObject(); json.accumulate("type", "mutation"); JSONArray mutations=new JSONArray(); JSONObject mutation=new JSONObject(); mutation.accumulate("kind", "PUT"); mutation.accumulate("table_id", tableId); mutation.accumulate("timestamp", 1445221080071L); JSONArray keys=new JSONArray(); JSONArray value=new JSONArray(); // 处理rowkey for (int i = 0; i < rowkey.size(); i++) { ColumnProto cp=rowkey.get(i).toProto(); JSONObject onekey=new JSONObject(); onekey.accumulate("column_id", cp.getColumnId()); switch(rowkey.get(i).getColumnType().getNumber()){ case 1: onekey.accumulate("int_value", cp.getIntValue()); break; case 3: onekey.accumulate("double_value", cp.getDoubleValue()); break; case 4: onekey.accumulate("string_value", cp.getBytesValue().toStringUtf8()); break; } keys.add(onekey); } mutation.accumulate("keys", keys); // 处理value for (int j = 0; j < values.size(); j++) { ColumnProto cp=values.get(j).toProto(); JSONObject onevalue=new JSONObject(); onevalue.accumulate("column_id", cp.getColumnId()); switch(values.get(j).getColumnType().getNumber()){ case 1: onevalue.accumulate("int_value", cp.getIntValue()); break; case 3: onevalue.accumulate("double_value", cp.getDoubleValue()); break; case 4: onevalue.accumulate("string_value", cp.getBytesValue().toStringUtf8()); break; } value.add(onevalue); } mutation.accumulate("value", value); mutations.add(mutation); json.accumulate("mutations", mutations); return json.toString(); }
其中的重点就是:使用sf.json组建json数据能够方便地实现字符转义,(公司很多人用阿里巴巴的fastjson,个人觉得没有普遍适用性...),第二步就是写文件时候要使用二进制写入文件这样json中的转义符号就不会丢掉!
private static void toWrite(String path, String content) { File f = new File(path); try { if (!f.exists()) { f.createNewFile(); } FileOutputStream fw = new FileOutputStream(f, true); fw.write(content.getBytes()); fw.write("\n".getBytes()); fw.close(); } catch (Exception e) { e.printStackTrace(); } }
白痴地测试过程。。。
--------------------------------------------------------------------------------------------------
测试过程是读取hbase数据解析为json再插入新的hbase,再将新hbase数据扫出解析为json,最终数据对比。中间的数据格式都是json。由于数据量太大不得不把json格式的数据保存到本地文件。但是hbase存储的是json解析后按照column拆分的数据,而且公司通讯过程中对部分数据使用了protobuf序列化了数据,使得从hbase扫出的数据比较混乱,生成json也比较复杂。
这时候出现了一个白痴的场景,为了拼接json更快捷,我自作聪明地自己写了一个json的字符串拼接,然后用FIleWriter写入文件。结果很悲剧:json数据中存在各种特殊字符
1.引号转译
2.反斜杠转译
3.换行符转译
4.特殊字符(韩文,日文等)
这些字符在使用String类型进行Writer时候会出现由于系统编码与内容编码不一致导致许多字符丢失!其中最明显的就是韩文的丢失。
相关文章推荐
- Web中的中文乱码问题
- JavaScript简介
- JavaScript变量
- 使用json web token(jwt)
- 关于如何在javascript中实现DI
- js的异步调用
- jsp调java代码输出图片
- javascript:Array.slice.call 到Array.prototype.slice.call
- JSP 自定义标签 (custom tags) 入门介绍
- js传参数的问题。
- 使用T4模板合并js文件
- 浅谈JavaScript浮点数及其运算
- JavaScript中的事件函数传参
- Protobuf与Json互转
- 搭建 tty.js:一款基于浏览器的终端模拟器
- javascript实现无兼容性问题返回顶部
- JSP之监听器Listener(二)
- 利用JS将后台返回的数据分页展示
- JavaScript初体验--Cookie
- JavaScript初体验--Cookie