您的位置:首页 > 数据库 > Oracle

Oracle学习之Oracle字符集

2016-09-07 08:32 246 查看
Oracle字符集

一、什么是Oracle字符集

Oracle字符集是一个字节数据的解释的符号的集合,有大小之分,有相互的包容关系。Oracle支持国家语言的体系结构允许你使用本地化语言来存储,处理,检索数据。它使数据块工具,错误消息,排序次序,日期,时间,货币,数字和日历自动适应本地化语言和平台。

影响Oracle数据库字符集最重要的参数是NLS_LANG参数。

它的格式如下:NLS_LANG=language_territory.charset

它有三个组成部分(语言、地域和字符集),每个成分控制了NLS子集的特性。

其中Language:指定服务器消息的语言,影响提示信息是中文还是英文

Territory:指定服务器的日期和数字格式。

Charset:指定字符集

如:AMERICAN_AMERICA.ZHS16GBK

从NLS_LANG的组成我们可以看出,真正影响数据库字符集的其实是第三部分。

所以两个数据库之间的字符集只要第三部分一样就可以相互导入导出数据,前面影响的只是提示信息是中文还是英文。

二、字符集的相关知识

2.1 字符集

实质就是按照一定的字符编码方案,对一组特定的符号,分别赋予不同数值的编码的集合。Oracle数据库最早支持的编码方案是US7ASCII。

Oracle的字符集命名遵循以下命名规则:

<Language><bit size><encoding>

即:<语言><比特位数><编码>

比如:ZHS16GBK表示采用GBK编码格式、16位(两个字节)简体中文字符集

2.2字符编码方案

2.2.1单字节编码

(1)单字节7位字符集,可以定义128个字符,最常用的字符集为US7ASCII

(2)单位节8位字符集,可以定义256个字符,适合欧洲大部分国家

2.2.2多字节编码

(1)变长多字节编码

某些字符用一个字节表示,其它字符用两个或多个字符表示,变长多字节编码常用户对亚洲语言的支持

(2)定长多字节编码

每一个字符都使用固定长度字节的编码方案,目前oracle唯一支持的定长多字节编码是AF16UTF16,也是仅用于国家字符集

2.2.3unicode编码

UTF-16是unicode的16位编码方式,是一种定长多字节编码,用2个字节表示一个Unicode字符。

UTF-8是unicode的8位编码方式,是一种变长多字节编码

2.2.4字符集超级

2.3数据库字符集(Oracle服务器端字符集)

数据库字符集在创建数据库时指定,在创建后通常不能更改。在创建数据库时,可以指定字符集(CHARACTER SET)和国家字符集(NATIONAL CHARACTER SET)。

2.3.1字符集

(1)用来存储CHAR、VARCHAR2,CLOB,LONG等类型数据

(2)用来标示诸如表名、列名以及PL./SQL变量等。

(3)用来存储SQL和PL/SQL程序单元等

2.3.2国家字符集

(1)用以存储NCHAR,NVARCHAR2,NCLOB等类型数据

(2)国家字符集实质上是为Oracle选择的附加字符集,主要作用是为了增强Oracle的字符处理能力。国家字符集在oracle9i中进行了重新定义,,默认是AF16UTF16

2.3.3查询字符集参数

可以查询一下数据字典或视图查看字符集的设置情况

nls_database_parameters、props$、v$nls_parameters

查询结果中NLS_CHARACTERSET表示字符集,NLS_NCHAR_CHARACTERSET表示国家字符集

2.3.4修改数据库字符集

按照上文所说,数据库字符集在创建后原则上不能更改。不过有2中方法可行。

(1)如果需要修改字符集,通常需要导出数据库数据,重建数据库,再导入数据库数据的方式来转换。

(2)通过alter database characterset 语句修改字符集,但创建数据库修改字符集是有限制的,只有新的字符集是当前字符集的超集时才能修改数据库字符集,例如UTF8是UC7ASCII的超集。

2.3.5NLS参数查询

oracle提供若干NLS参数定制数据库和用户机以适应本地格式,例如有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,可以通过查询以下数据字典或V$视图查看。

NLS_DATABASE_PARAMETERS:显示数据库当前NLS参数取值,包括数据库字符集取值

NLS_SESSION_PARAMETERS:显示由NLS_LANG设置的参数,或经过alter session改变后的参数值(不包括NLS_LANG设置的客户端字符集)

NLS_INSTANCE_PARAMETEL:显示由参数文件init<SID>.ora 定义的参数

V$NLS_PARAMETERS:显示数据库当前NLS参数取值

2.3.6修改NLS参数

使用下列方法可以修改NLS参数

(1)修改实例启动时使用的初始化参数文件

(2)修改环境变量NLS_LANG

(3)使用ALTER SESSION语句,在oracle会话中修改

(4)使用某些SQL函数

NLS作用优先级别:SQL Function>alter session >环境变量或注册表>参数文件>数据库默认参数

三、EXP/IMP 与字符集

3.1 EXP/IMP

Export与Import是一对读写Oralce数据的工具。Export将Oracle数据库中的数据输出到操作系统文件中,Import把这些文件中的数据读到Oracle数据库中,由于使用exp/imp进行数据迁移时,数据从源数据库到目标数据库的过程中有四个环节涉及到字符集,如果四个环节的字符集不一致,将会发生字符集转换。

四个字符集是

(1)源数据库字符集

(2)Export过程中用户会话字符集(通过NLS_LANG设定)

(3)Import过程中用户会话字符集(通过NLS_LANG设定)

(4)目标数据库字符集

3.2导出的转换过程

在export过程中,如果源数据库字符集与Export用户会话字符集不一致,会发生字符集转换,并在导出文件的头部几个字节中存储export用户会话字符集的Id号。在这个转换过程中可能会发生数据的丢失。

3.3导入的转换过程

(1)确定导出数据库字符集环境

通过读取导出文件头,可以获得导出文件的字符集设置

(2)确定导入session的字符集,即导入session使用的NLS_LANG环境变量

(3)IMP读取导出文件

读取导出文件字符集ID,和导入进程的NLS_LANG进行比较

(4)如果导出文件字符集和导入Session字符集相同,那么在这一步骤内就不需要转换,如果不同,就需要把数据转换为导入session使用的字符集。可以看出,导入数据到数据库过程中发生两次字符集的转换。

第一次:导入文件字符集与导入session使用的字符集之间的转换,如果这个转换过程不能正确完成,Import向目标数据库的导入过程也就不能完成。

第二次:导入session字符集与数据库字符集之间的转换。

四、查看数据库字符集

涉及三方面的字符集:

1.oracle server 端的字符集

2.oracle client端的字符集

3.dmp文件的字符集

在做数据导入的时候,需要这三个字符集都一致才能正确导入。

4.1查询Oracle server端的字符集

有很多种方法可以查出oracle server端的字符集,比较直观的查询方法是以下这种:

SQL> select userenv('language') from dual;

USERENV('LANGUAGE')

----------------------------------------------------

SIMPLIFIED CHINESE_CHINA.ZHS16GBK

4.2 如何查询dmp文件的字符集

用oracle的exp工具导出的dmp文件也包含了字符集信息, dmp文件的第2个和第3个字节记录了dmp文件的字符集。如0354,然后用一下sql查出它对应的字符集:

SQL> select nls_charset_name(to_number('0345','XXXX')) from dual;

NLS_CHARSET_NAME(TO_NUMBER('03

----------------------------------------

JA16EUCTILDE

使用下面命令查看

cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6

然后用上面的SQL也可以看到它对应的字符集。

4.3 查询oracle client端的字符集

在windows平台下,就是注册表里面相应OracleHome的NLS_LANG。还可以再dos窗口里面自己设置

比如:set nls_lang=AMERICAN_AMERICA.ZHS16GBK

这样就只影响这个窗口里面的环境变量。

在UNIX平台下,就是环境变量NLS_LANG。

echo $NLS_LANG

如果检查的结果发现server端与client端的字符集不一致,要修改为同server端相同的字符集。

补充:

(1)数据库服务器字符集

SQL> select * from nls_database_parameters;

来源于props$,是表示数据库的字符集。

(2)客户端字符集环境

SQL> select * from nls_instance_parameters;

其来源于v$parameter,表示客户端的字符集的设置,可能是参数文件,环境变量或者是注册表。

(3)会话字符集环境

SQL> select * from nls_session_parameters;

来源于v$nls_parameters,表示会话自己的设置,可能是会话的环境变量或者是alter session完成,如果会话没有特殊的设置,将与nls_instance_parameters一致。

(4)客户端的字符集要求与服务器一致,才能正确线束数据库的非ascii字符。

如果多个设置存在的时候,NLS作用优先级别:sql function >alter session >环境变量或者注册表 >参数文件>数据库默认参数。

字符集要求一致,但是语言却可以设置不同,语言设置建议用中文。如字符集是zhs16gbk,则nls_lang可以使American_Anerica,zhs16gbk.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  oracle