您的位置：首页 > 编程语言

Symbian OS平台简体汉字编程编码处理

2010-12-10 17:09 148 查看

相信大家都在处理symbian中文显示的时候遇到了编码的问题，我现在就给总结一下这种问题的解决方法：
字符串编码中文表示常用的有：GB2312,GBK,Unicode,UTF-8
其中GBK是GB2312的超集，也就是涵盖了GB2312编码的所有内容；
UTF-8是Unicode的在网络传输中的一种编码格式。
如果我们使用vc做为开发工具，在win下面进行开发，那么win的默认字符集是GBK的；由于中文资源文件采用UTF-8存储，所以也有种情况是将代码文件也采用用UTF-8编码（目前我们在Carbide上就是这样做的）。然而symbian系统默认的编码方式却是Unicode，所以说直接写在程序里面的汉字在手机上显示的时候,就会变成乱码。
以下对S60应用处理简体汉字编码情况分为两大类即UTF-8和非UTF-8（通称GBK）：
一UTF-8编码字串
1.资源文件中的UTF-8编码字串
理论上,从资源文件中获取的字串可以直接用于显示（直接写屏、应用标题、按钮、菜单及各种UI控件）和写文件等操作。但关键是：由于 Symbian OS默认编码与Windows等操作系统默认编码不同，所以在Windows等环境中编辑资源源文件（.rss、.rls、.loc）时必须将文件的头部加入CHARACTER_SET UTF8设置，并以UTF-8编码保存，如此编译后的资源文件字串才能得到正常处理。特别是对于汉字这种非ASCII标准字符（这里的ASCII标准字符是指单字节编码字符，汉字是扩展的多字节编码字符，一般为GBK/GB2312编码）。
能将文件以UTF-8编码保存的编辑器有许多（例如Windows的记事本），但最好是用一些16位的编辑器将以UTF-8编码保存的文件开头的3个字节长的字节序标记（Byte Order Mark）删除以便编译系统识别（例如Windows中命令行的Edit），这一点对于S60 3.0平台更是如此。（在这里做下延伸，本人在编程中就遇到过类似问题，代码原先用Utf8的，后来用记事本打开修改了下，之后存储就多了3个字节序的标记，编译时就问题多多了）
2.程序文件中的UTF-8编码字串
同样，程序源文件（.cpp）中的字串默认情况下也不是UTF-8编码，如要直接使用也必须以UTF-8编码保存程序源文件。例如某程序源文件中：
LIT( KUTF8String, "简体汉字串");
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( KUTF8String);
用记事本将此源文件保存为UTF-8编码，这样编译后可正常显示，无需编码转换，不过由于编译环境的识别问题需要注意的是：
1).模拟器平台应用（WINS、WINSCW等）不可将文件开头的字节序标记（Byte Order Mark）删除；
2).真机平台应用（THUMB、ARMI、GCCE等）必须将文件开头的字节序标记（Byte Order Mark）删除。
顺便提一下Carbide中简体汉字的处理，重点是修改工程或文件的文本编码方式。对于通过.inf或.mmp导入的工程（这种方法比较好），只要导入前源文件符合前面以UTF-8编码保存的那些要求，就不必修改文本编码方式。而对于新工程，资源源文件中除了加入CHARACTER_SET UTF8设置，最好将源文件的文本编码方式改为UTF-8，否则Carbide将不按UTF-8编码处理文本，显示将不正常。具体方法如下：
1).右键点击工程文件夹的某个资源源文件->properties->Info，将Text file ecoding改为others中的UTF-8；
2).右键点击工程文件夹->properties->Info，将Text file encoding改为others中的UTF-8。
两者取一即可，只是后一种将使工程所有源文件的文本编码方式变为UTF-8。另外需要注意，Carbide中一旦有文本编码方式的修改，特别是资源源文件，最好重新写入字串，清除（clean）之后再建立应用或运行（build或run）,否则上一次的结果仍可能会存在而影响这一次的建立。
二.非UTF-8编码字串
如前所述，如果不以UTF-8编码保存程序源文件，则程序源文件（.cpp）中的字串即为非UTF-8 编码字串。要想正常操作，则必须进行编码转换，但不是转换为UTF-8编码，而是必须转换成Unicode（标准的Unicode也称UTF-16）编码。例如：
_LIT8( KNonUnicodeString, "简体汉字串");
TPtrC8 point8( KNonUnicodeString );
CCnvCharacterSetConverter* converter = CCnvCharacterSetConverter::NewLC();

//一般简体中文Windows使用的简体汉字编码是Gb2312或Gbk（ASCII字符集的扩展,
//也称ASCI字符集），所以如果既不是这两者则直接报异常KErrNotSupported
if(converter ->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
else if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession()) != CCnvCharacterSetConverter::EAvailable)
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}

//进行GBK到Unicode的转换
TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if(CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}
CleanupStack::PopAndDestroy(2); // converter UnicodeString

UnicodeString即为Unicode编码的字串，可以直接用于显示及写文件等操作。简体汉字串的显示除了编码问题，还要注意字体的选择，特别是对UI控件，最好是用LatinBold12()（2版），AknLayoutUtils::FontFromId( ELatinBold12 )（3版）。简体汉字串显示的相关文档，例程很多，在这里就不多说了。至于文件中读写简体汉字串则要提几点注意：
1.自己写自己读
借助Symbian的文件服务将字串写入文件，一般都是带格式的,文件的首字符用来表示紧跟字串的长度和编码，所以不是什么文件都可以读的,例如用记事本编辑的文件一般就无法正确读出，除非写对了格式，而这种格式手工写是很烦琐的。所以对于程序内部文件读写，最好是：拿什么写就用什么读，要拿什么读就用什么写。
2.UTF-8编码简体汉字串读写文件
无论是从资源文件中读取的，还是.cpp中定义的UTF-8编码字串，都可以直接写直接读，无需编码转换。例如：
//写文件
_LIT( KFileName, "//private//xxxxxxxx//aTextFile.txt" );
_LIT( KUTF8String, "简体汉字串");
//或者HBufC* UTF8String=StringLoader::LoadLC(R_UTF8_RESOURCE_STRING );

RFs FileServerSession;
User::LeaveIfError(FileServerSession.Connect());
RFile file;
if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )
{
return;
}
CleanupClosePushL( file );

RFileWriteStream StreamWriteToFile(file);
CleanupClosePushL( StreamWriteToFile );
StreamWriteToFile << KUTF8String;//或者StreamWriteToFile << *UTF8String
CleanupStack::PopAndDestroy(2); //file StreamWriteToFile

//读文件
RFs FileServerSession;
RFile file;
User::LeaveIfError(FileServerSession.Connect());
CleanupClosePushL(FileServerSession);
User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));
CleanupClosePushL(file);
RFileReadStream StreamReadFromFile(file);
CleanupClosePushL(StreamReadFromFile);
HBufC* StreamData= HBufC::NewLC(StreamReadFromFile, 32);
CleanupStack::PopAndDestroy(3); //file StreamReadFromFile StreamData
FileServerSession.Close();

以上得到的StreamData可以通过：
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( *StreamData )
加以显示验证。
3.非UTF-8编码简体汉字串读写文件
如前所述，非UTF8编码简体汉字串必须进行编码转换，主要有两种方法：
1).将字串转换为Unicode编码写入文件后直接读取
//转换后写文件前面部分代码跟之前GBK转Unicode的转换是一样的
_LIT( KFileName, "//private//xxxxxxxx//aTextFile.txt" );
RFs FileServerSession;
User::LeaveIfError(FileServerSession.Connect());
RFile file;
if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )
{
return;
}
CleanupClosePushL( file );

_LIT8( KNonUnicodeString, "简体汉字串");
TPtrC8 point8( KNonUnicodeString );
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();
if( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
elseif ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable )
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}

TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if( CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}

RFileWriteStream StreamWriteToFile( file );
CleanupClosePushL( StreamWriteToFile );
StreamWriteToFile << *UnicodeString;
CleanupStack::PopAndDestroy(4);//file StreamWriteToFile converter UnicodeString
FileServerSession.Close();
直接读取的方法与UTF-8编码简体汉字串读写文件的读文件操作相同。
2).将字串直接写入文件后再读取转换
直接写文件的方法与UTF-8编码简体汉字串读写文件的写文件操作相同。
//读取后转换先写文件，GBK也是8位的编码
RFs FileServerSession;
RFile file;
User::LeaveIfError(FileServerSession.Connect());
CleanupClosePushL(FileServerSession);
User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));
CleanupClosePushL(file);
RFileReadStream StreamReadFromFile(file);
CleanupClosePushL(StreamReadFromFile);
HBufC* StreamData = HBufC::NewLC(StreamReadFromFile, 32);
HBufC8* StreamData8 = HBufC8::NewLC( StreamData->Length() );
StreamData8->Des().Copy(*StreamData);

//转换 GBK转Unicode，代码跟之前的一样
TPtrC8 point8( *StreamData8 );
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();
if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
else if ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable )
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}
TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if( CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}

CleanupStack::PopAndDestroy(6); //file StreamReadFromFile StreamData StreamData8 converter UnicodeString
FileServerSession.Close();
得到的UnicodeString也可以通过：
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( *UnicodeString );
加以显示验证。（）

以上代码的集成开发环境为：
Active Perl 5.6.1 build 631
Java Runtime Enviroment v1.5.0_07
CodeWarrior Personal Edition 3.1
S60 3RD EDITION SDK FOR SYMBIAN OS, FOR C++
在以命令行建立的应用中验证正常（WINSCW、GCCE）。如果是其它的建立应用方式或IDE可能需要做相应的变化，或根本不可行，在这里只是给大家提供一种思路和方法。
总之，简体汉字的处理，最重要的在于对字符编码的掌握，说到底就是要依据不同的编码情况进行相应的编码转换操作。最为理想和不受开发环境影响的方法个人认为是：资源文件法，也就是将字符串以UTF-8编码保存在资源源文件中，并设置以UTF-8编码去处理。它最为简便，也最为有效，且便于本地化的移植。其它方法只是提供一种参考，一个可行的方案。
其实，本文所讨论的方法不仅仅对简体汉字有效，理论上对所有非ANSII标准字符都适用。
补记一：字节序标记（Byte Order Mark）
BOM(Byte Order Mark)，是在Unicode标准（UTF-16）引入后，对于Unicode纯文本文件判断其比特顺序的标记，在UTF-16 Little Endian字节序下为（0xFF，0xFE），在UTF-16 Big Endian下为（0xFE，0xFF）；如果进行相应的UTF-16到UTF-8转换，该处两个字节会被处理成为三个字节的UTF-8编码字节序标记。（在Windows系统中是小端字节序的，所以保存为UTF16带BOM的前面字节序为0xFF 0xFE；同理UTF-8在Windows小端字节序下为0xEF 0xBB 0xBF）。

补记二：网上流传的GBK和Unicode互转函数
代码中添加头文件
#include <charconv.h> // for char set convert GBK - Unicode
在mmp里面添加
LIBRARY charconv.lib // for GBK to Unicode converter
这两步完成后，将下面的这两个函数就可以正常编译和使用了。
//GBK转Unicode
void ConvGbk2Uni(TDesC8& original, TDes& res)
{
RFs fileServerSession;
aFileServerSession.Connect();
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();

if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk, aFileServerSession) != CCnvCharacterSetConverter::EAvailable)
{
User::Leave(KErrNotSupported);
}

TInt state=CCnvCharacterSetConverter::KStateDefault;
TPtrC8 str(original);
HBufC* iInfoText = HBufC::NewL(str.Length());
TPtr16 ptr = iInfoText->Des();
if(CCnvCharacterSetConverter::EErrorIllFormedInput == converter->ConvertToUnicode(ptr, str, state))
{
User::Leave(KErrArgument);
}

res.Zero();
res.Copy(ptr);
fileServerSession.Close();
CleanupStack::PopAndDestroy();
delete iInfoText;
}

//Unicode 转GBK，也许有些人觉得没必要转GBK但是数据库中文排序之类的就需要
void ConvUni2Gbk(TDesC& original, TDes8& res)
{
TInt state=CCnvCharacterSetConverter::KStateDefault ;
CCnvCharacterSetConverter* iConv ;
iConv = CCnvCharacterSetConverter::NewLC();
if(iConv->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession())!=CCnvCharacterSetConverter::EAvailable)
{
User::Leave(KErrNotSupported);
}
iConv->ConvertFromUnicode(res, original, state) ;
CleanupStack::PopAndDestroy();
}

具体的使用方法：
TBuf8<20> title8 ;
TBuf<20> title16 ;
TBuf8<20> msg8 ;
TBuf<20> msg16 ;
title8.Format(_L8("友情提示")) ;
ConvGbk2Uni(title8, title16) ;
msg8.Format(_L8(" 谢谢您的使用")) ;
ConvGbk2Uni(msg8, msg16) ;
现在title16和msg16里面都存放的是16位的unicode中文字符串了，

本文是对网上两篇文档的合并，具体见下面链接
http://my.sdlgame.com/programming/116-symbian/3175-s60
http://soft6.com/tech/6/60568.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航