Sqoop处理Clob与Blob字段
2015-06-27 20:45
423 查看
[Author]: kwu
Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本,Blob存储二进制文件。遇到这类字段导入hive或者hdfs需要特殊处理。
1、oracle中的测试表
测试数据
2、sqoop脚本
3、查看生成的HDFS文件
![](http://img.blog.csdn.net/20150627210438687?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvQkRDSG9tZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
可以看出,clob的字段是导入到hdfs上是正常显示文本,blob是二进制文件导出到hdfs上显示为16进制
16进制转换为string可采用如下方法,实际上通过移位操作来实现:
对于hive可以在入库前转换成string,或者直接入库后使用udf来转换
Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本,Blob存储二进制文件。遇到这类字段导入hive或者hdfs需要特殊处理。
1、oracle中的测试表
CREATE TABLE T_LOB ( A INTEGER, B CLOB, C BLOB )
测试数据
insert into T_LOB (A, B, C) values (1, 'clob测试',to_blob('3456'));
2、sqoop脚本
import --append --connect jdbc:oracle:thin:@localhost:1521/orcl --username wuke --password Abcd1234 --table BDC_TEST.T_LOB --columns "A,B,C" --target-dir /tmp/t_lob -m 1执行脚本
sqoop --options-file ./importHdfs.opt
3、查看生成的HDFS文件
可以看出,clob的字段是导入到hdfs上是正常显示文本,blob是二进制文件导出到hdfs上显示为16进制
16进制转换为string可采用如下方法,实际上通过移位操作来实现:
package com.ganymede.test; /** * 十六进制的转换操作 * @author Ganymede * */ public class Hex { /** * 用于建立十六进制字符的输出的小写字符数组 */ private static final char[] DIGITS_LOWER = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' }; /** * 用于建立十六进制字符的输出的大写字符数组 */ private static final char[] DIGITS_UPPER = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F' }; /** * 将字节数组转换为十六进制字符数组 * * @param data * byte[] * @return 十六进制char[] */ public static char[] encodeHex(byte[] data) { return encodeHex(data, true); } /** * 将字节数组转换为十六进制字符数组 * * @param data * byte[] * @param toLowerCase * <code>true</code> 传换成小写格式 , <code>false</code> 传换成大写格式 * @return 十六进制char[] */ public static char[] encodeHex(byte[] data, boolean toLowerCase) { return encodeHex(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER); } /** * 将字节数组转换为十六进制字符数组 * * @param data * byte[] * @param toDigits * 用于控制输出的char[] * @return 十六进制char[] */ protected static char[] encodeHex(byte[] data, char[] toDigits) { int l = data.length; char[] out = new char[l << 1]; // two characters form the hex value. for (int i = 0, j = 0; i < l; i++) { out[j++] = toDigits[(0xF0 & data[i]) >>> 4]; out[j++] = toDigits[0x0F & data[i]]; } return out; } /** * 将字节数组转换为十六进制字符串 * * @param data * byte[] * @return 十六进制String */ public static String encodeHexStr(byte[] data) { return encodeHexStr(data, true); } /** * 将字节数组转换为十六进制字符串 * * @param data * byte[] * @param toLowerCase * <code>true</code> 传换成小写格式 , <code>false</code> 传换成大写格式 * @return 十六进制String */ public static String encodeHexStr(byte[] data, boolean toLowerCase) { return encodeHexStr(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER); } /** * 将字节数组转换为十六进制字符串 * * @param data * byte[] * @param toDigits * 用于控制输出的char[] * @return 十六进制String */ protected static String encodeHexStr(byte[] data, char[] toDigits) { return new String(encodeHex(data, toDigits)); } /** * 将十六进制字符数组转换为字节数组 * * @param data * 十六进制char[] * @return byte[] * @throws RuntimeException * 如果源十六进制字符数组是一个奇怪的长度,将抛出运行时异常 */ public static byte[] decodeHex(char[] data) { int len = data.length; if ((len & 0x01) != 0) { throw new RuntimeException("Odd number of characters."); } byte[] out = new byte[len >> 1]; // two characters form the hex value. for (int i = 0, j = 0; j < len; i++) { int f = toDigit(data[j], j) << 4; j++; f = f | toDigit(data[j], j); j++; out[i] = (byte) (f & 0xFF); } return out; } /** * 将十六进制字符转换成一个整数 * * @param ch * 十六进制char * @param index * 十六进制字符在字符数组中的位置 * @return 一个整数 * @throws RuntimeException * 当ch不是一个合法的十六进制字符时,抛出运行时异常 */ protected static int toDigit(char ch, int index) { int digit = Character.digit(ch, 16); if (digit == -1) { throw new RuntimeException("Illegal hexadecimal character " + ch + " at index " + index); } return digit; } public static void main(String[] args) { String srcStr = "待转换字符串"; String encodeStr = encodeHexStr(srcStr.getBytes()); String decodeStr = new String(decodeHex(encodeStr.toCharArray())); System.out.println("转换前:" + srcStr); System.out.println("转换后:" + encodeStr); System.out.println("还原后:" + decodeStr); System.out.println("---------------------------------------"); decodeStr = new String(decodeHex("3435363738390d0a626c6f62".toCharArray())); System.out.println("还原后:" + decodeStr); } }
对于hive可以在入库前转换成string,或者直接入库后使用udf来转换
相关文章推荐
- openlayers3 在地图上叠加WFS查询矢量图层
- linux 环境变量设置方法总结(PATH/LD_LIBRARY_PATH)
- 不能再docker容器中使用宿主机的docker服务的解决方案
- Openlayers3 计算地图上任意两点间的距离
- 容器+AOP实现动态部署(三)
- 虚拟机Linux----Ubuntu1204----安装jdk1.8
- linux常用命令的英文单词缩写
- Linux图形界面与字符界面切换
- Hadoop优化 第一篇 : HDFS/MapReduce
- J2EE编辑中的中文乱码解决问题
- [Linux]在终端启动程序关闭终端不退出的方法
- 通过在shell脚本中用scp或rsync实现远程同步文件
- Bash中单引号和双引号的区别
- linux下一个eclipse组态jdk
- popupWindow使用详解
- popupWindow使用详解
- popupWindow使用详解
- popupWindow使用详解
- tomcat配置虚拟主机
- Kaggle Bike Sharing Demand Prediction – How I got in top 5 percentile of participants?