PHP中转换编码问题 GBK/UTF-8等
2014-11-18 22:22
357 查看
在实际项目中,有时候会遇到远程接收到的编码,或者数据库里取出的编码与实际文件编码不一致的情况,这样就非常容易出现乱码,如果简单的用iconv函数转码的话,有时又无法保证对方传过来的一定是某种编码。
举个例子:我现在的项目开发编码是GBK,而又有很多地方需要用JSON来接收、发送数据,接收到的数据一定是UTF-8编码(非UTF-8中文无法encode和decode),但我需要把接收来的数据用在我们的系统中,这样就必须转码一次,当我们需要发送JSON数据给其他接收者的时候,又必须将编码从GBK转成UTF-8。超级麻烦,而且极易出错,因为我们无法特别准确的定位文本现在的编码。于是诞生了下面两个函数。
这两个函数均可以接收1:字符串、2:一维数组、3:多维数组,并将转码后的内容原样返回去。
在这里我想多唠叨一句,可能会给很多经验不是很丰富的程序员节省很多时间。
当我们在进行字符串拼接的时候,一定要把编码转一致了再拼接,否则可能会出现一个字符串,前半部分是UTF-8,后半部分是GBK,这样无论我们怎样转码,都会存在乱码的。
当然还有一个更好的解决办法,就是我们在建立项目的时候,统一建成UTF-8编码,虽然对于中文网站,GBK会节省空间,但是现在硬盘都是白菜价了,没有人再在意这些了。而且使用了UTF-8编码,你再也不用担心外国朋友访问到你的网页会全是乱码了。再而且,现在网站通过接口交互的需求是越来越大,用UTF-8也避免了不少麻烦~~~
/**
* 将非GBK字符集的编码转为GBK
*
* @param mixed $mixed 源数据
*
* @return mixed GBK格式数据
*/
function charsetToGBK($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToGBK($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'UTF-8')
{
$mixed[$k]
= iconv('UTF-8',
'GBK', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
//var_dump($encode);
if
($encode
==
'UTF-8')
{
$mixed = iconv('UTF-8',
'GBK', $mixed);
}
}
return $mixed;
}
/**
* 将非UTF-8字符集的编码转为UTF-8
*
* @param mixed $mixed 源数据
*
* @return mixed utf-8格式数据
*/
function charsetToUTF8($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToUTF8($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed[$k]
= iconv('GBK',
'UTF-8', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed = iconv('GBK',
'UTF-8', $mixed);
}
}
return $mixed;
}
/**
* 将非GBK字符集的编码转为GBK
*
* @param mixed $mixed 源数据
*
* @return mixed GBK格式数据
*/
function charsetToGBK($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToGBK($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'UTF-8')
{
$mixed[$k]
= iconv('UTF-8',
'GBK', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
//var_dump($encode);
if
($encode
==
'UTF-8')
{
$mixed = iconv('UTF-8',
'GBK', $mixed);
}
}
return $mixed;
}
/**
* 将非UTF-8字符集的编码转为UTF-8
*
* @param mixed $mixed 源数据
*
* @return mixed utf-8格式数据
*/
function charsetToUTF8($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToUTF8($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed[$k]
= iconv('GBK',
'UTF-8', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed = iconv('GBK',
'UTF-8', $mixed);
}
}
return $mixed;
}
举个例子:我现在的项目开发编码是GBK,而又有很多地方需要用JSON来接收、发送数据,接收到的数据一定是UTF-8编码(非UTF-8中文无法encode和decode),但我需要把接收来的数据用在我们的系统中,这样就必须转码一次,当我们需要发送JSON数据给其他接收者的时候,又必须将编码从GBK转成UTF-8。超级麻烦,而且极易出错,因为我们无法特别准确的定位文本现在的编码。于是诞生了下面两个函数。
这两个函数均可以接收1:字符串、2:一维数组、3:多维数组,并将转码后的内容原样返回去。
在这里我想多唠叨一句,可能会给很多经验不是很丰富的程序员节省很多时间。
当我们在进行字符串拼接的时候,一定要把编码转一致了再拼接,否则可能会出现一个字符串,前半部分是UTF-8,后半部分是GBK,这样无论我们怎样转码,都会存在乱码的。
当然还有一个更好的解决办法,就是我们在建立项目的时候,统一建成UTF-8编码,虽然对于中文网站,GBK会节省空间,但是现在硬盘都是白菜价了,没有人再在意这些了。而且使用了UTF-8编码,你再也不用担心外国朋友访问到你的网页会全是乱码了。再而且,现在网站通过接口交互的需求是越来越大,用UTF-8也避免了不少麻烦~~~
/**
* 将非GBK字符集的编码转为GBK
*
* @param mixed $mixed 源数据
*
* @return mixed GBK格式数据
*/
function charsetToGBK($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToGBK($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'UTF-8')
{
$mixed[$k]
= iconv('UTF-8',
'GBK', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
//var_dump($encode);
if
($encode
==
'UTF-8')
{
$mixed = iconv('UTF-8',
'GBK', $mixed);
}
}
return $mixed;
}
/**
* 将非UTF-8字符集的编码转为UTF-8
*
* @param mixed $mixed 源数据
*
* @return mixed utf-8格式数据
*/
function charsetToUTF8($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToUTF8($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed[$k]
= iconv('GBK',
'UTF-8', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed = iconv('GBK',
'UTF-8', $mixed);
}
}
return $mixed;
}
/**
* 将非GBK字符集的编码转为GBK
*
* @param mixed $mixed 源数据
*
* @return mixed GBK格式数据
*/
function charsetToGBK($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToGBK($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'UTF-8')
{
$mixed[$k]
= iconv('UTF-8',
'GBK', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
//var_dump($encode);
if
($encode
==
'UTF-8')
{
$mixed = iconv('UTF-8',
'GBK', $mixed);
}
}
return $mixed;
}
/**
* 将非UTF-8字符集的编码转为UTF-8
*
* @param mixed $mixed 源数据
*
* @return mixed utf-8格式数据
*/
function charsetToUTF8($mixed)
{
if
(is_array($mixed))
{
foreach
($mixed
as $k
=> $v)
{
if
(is_array($v))
{
$mixed[$k]
= charsetToUTF8($v);
}
else
{
$encode = mb_detect_encoding($v,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed[$k]
= iconv('GBK',
'UTF-8', $v);
}
}
}
}
else
{
$encode = mb_detect_encoding($mixed,
array('ASCII',
'UTF-8',
'GB2312',
'GBK',
'BIG5'));
if
($encode
==
'EUC-CN')
{
$mixed = iconv('GBK',
'UTF-8', $mixed);
}
}
return $mixed;
}
相关文章推荐
- PHP转换编码问题GBK/UTF-8
- PHP转换编码问题GBK/UTF-8
- PHP中文字符gbk编码与UTF-8编码的转换
- PHP中的GBK与UTF-8等字符串编码形式的自由转换工具iconv
- PHP中的GBK与UTF-8等字符串编码形式的自由转换工具iconv
- 有关编码(GBK、utf-8、iso8859-1、)相互转换问题
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- ANSI,UNICODE,UTF-8,GB2312,GBK)编码问题(转)
- 关于PHP在数组对象与JSON数据之间的转换问题(编码问题)
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- java使用gbk编码读取utf-8的js文件吃掉回车问题
- php ajax 中文乱码问题解决办法(接收发送)utf-8 GBK GB2312
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- 中文编码问题(Unicode UTF-8 GBK ...)
- Python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。
- 内码转换:以 GBK 编码到 UTF-8 编码为例
- Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换
- LINUX 转换文件编码 GBK->UTF-8文件编码批量转换脚本[zt]
- Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- php文件代码采用UTF-8编码的BOM问题