您的位置：首页 > 运维架构 > Linux

在Linux下使用iconv转换字符串编码

2016-01-15 17:01 861 查看

http://c4fun.cn/blog/2014/03/04/linux-iconv/

在Linux下写C程序，尤其是网络通信程序时经常遇到编码转换的问题，这里要用到iconv函数库。

iconv函数库有以下三个函数

#include <iconv.h>
iconv_t iconv_open(const char *tocode, const char *fromcode);   //return (iconv_t)-1 if failed
size_t iconv(iconv_t cd,
char **inbuf, size_t *inbytesleft,
char **outbuf, size_t *outbytesleft);       //return (size_t)-1 if failed
int iconv_close(iconv_t cd);                                    //return -1 if failed

这三个函数的功能显而易见，分别是打开一个iconv_t句柄，转换字符串以及关闭一个iconv_t句柄。其中有必要一说的是iconv函数，这个函数十分容易用错。

iconv函数的五个参数中，第一个参数是iconv句柄，第二、三个参数是需要转换的字符串的地址和长度的地址，第四、五个参数是存储结果的字符串的地址和长度的地址，注意这里传的都是地址，因为这四个参数的值都有会被

iconv

函数改变。

iconv

会逐步的将

*inbuf

中的字符转换到

*outbuf

中，并增加

*inbuf

指针减少

*inbytesleft

的值，以及增加

*outbuf

指针减少

*outbytesleft

的值。

iconv函数会因为以下四种原因停止并返回：

*input

中遇到了一个非法的多字节序列，返回(size_t)-1并置errno=EILSEQ，返回时

*inbuf

指向非法字符的开头。

*input

全部转换完，返回不可转换的字符数。

*input

中遇到了一个不完整的多字节序列，返回(size_t)-1并置errno=EINVAL，返回时

*inbuf

指向不完整字符的开头。

*output

空间不够，返回(size_t)-1并置errno=E2BIG。

以下给出一个示例函数，将一个字符串从utf-8转换成gbk后再重新转换成utf-8。

#include <iconv.h>
#include <string.h>
#include <stdio.h>
#include <errno.h>
#include <stdlib.h>

int charset_convert(const char *from_charset, const char *to_charset,
char *in_buf, size_t in_left, char *out_buf, size_t out_left) {
iconv_t icd;
char *pin = in_buf;
char *pout = out_buf;
size_t out_len = out_left;
if ((iconv_t)-1 == (icd = iconv_open(to_charset,from_charset))) {
return -1;
}
if ((size_t)-1 == iconv(icd, &pin, &in_left, &pout, &out_left)) {
iconv_close(icd);
return -1;
}
out_buf[out_len - out_left] = 0;
iconv_close(icd);
return (int)out_len - out_left;
}

int main(int argc, char *argv[]) {
char *from_str = "你好，中南。- Hello, CSU.";
char *to_str_gbk, *to_str_utf8;
int len;
//utf-8 => gbk
to_str_gbk = (char*)calloc(1, strlen(from_str) * 3);
if (-1 == (len = charset_convert("UTF-8", "GB2312", from_str,
strlen(from_str), to_str_gbk, strlen(from_str) * 3))) {
perror("UTF8=>GBK error");
}
//gbk => utf8
to_str_utf8 = (char*)calloc(1, len * 3);
if (-1 == (len = charset_convert("GB2312", "UTF-8", to_str_gbk,
len, to_str_utf8, len * 3))) {
perror("GBK=>UTF8 error");
}
//output
printf("original   : %s\n", from_str);
printf("to gbk     : %s\n", to_str_gbk);
printf("gbk to utf8: %s\n", to_str_utf8);
}

我用的xshell连接到虚拟机，先将terminal的编码设置为utf-8运行，结果如下

original   : 你好，中南。- Hello, CSU.
to gbk     : ţºã¬אŏ¡£- Hello, CSU.
gbk to utf8: 你好，中南。- Hello, CSU.

再将terminal的编码设置为gbk运行，结果如下

original   : 浣犲ソ锛屼腑鍗椼€? Hello, CSU.
to gbk     : 你好，中南。- Hello, CSU.
gbk to utf8: 浣犲ソ锛屼腑鍗椼€? Hello, CSU.

可见，在相应的编码下，对应的字符串能正常显示。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航