PHP iconv()函数转字符编码的问题(转)
2011-08-25 20:04
211 查看
载自:http://www.nowamagic.net/php/php_FunctionIconv.php
在php函数库有一个函数:iconv(),iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。
最近在做一个小偷程序,需要用到iconv函数把抓取来过的utf-8编码的页面转成gb2312,发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。让我郁闷了好一会儿,去网上一查资料才知道这是iconv函数的一个bug。iconv在转换字符"—"到gb2312时会出错。
下面慢慢看一下这个函数的用法。
最简单的应用,把gb2312置换成utf-8:
在用$text=iconv("UTF-8","GB2312",$text)过程中,如果遇到一些特别字符时,如:"—",英文名中的"."等等字符,转换就断掉了。这些字符后的文字都没法继续转换了。
针对这的问题,可以用如下代码实现:
你没有看错,就这么简单,不使用gb2312,而写成GBK,就可以了。
还有一种方法,第二个参数,加上//IGNORE,忽略错误,如下:
没有具体比较这两种方法,感觉第一种(GBK代替gb2312)方法更好。
php手册中iconv()说明:
在使用这个函数进行字符串编码转换时,需要注意,如果将utf-8转换为gb2312时,可能会出现字符串被截断的情况发生。此时可以使用以下方法解决:
即在第二个参数出添加红色字部分,表示:如果在目标编码中找不到与源编码相匹配的字符,会选择相似的字符进行转换。此处也可以使用://IGNORE这个参数,表示忽略不能转换的字符。
ignore的意思是忽略转换时的错误,如果没有ignore参数,所有该字符后面的字符串都无法被保存。
iconv不是php的默认函数,也是默认安装的模块。需要安装才能用的。
如果是windows2000+php,你可以修改php.ini文件,将extension=php_iconv.dll前的";"去掉,同时你要copy你的原php安装文件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是这个目录)。在linux环境下,用静态安装的方式,在configure时加多一项--with-iconv就可以了,phpinfo看得到iconv的项。(Linux7.3+Apache4.06+php4.3.2)。
做一个GBKToUTF-8:
再来个GB2312ToBig5:
不过要使用上面的函数需要安装但是需要先enablembstring扩展库。
stringmb_convert_encoding(stringstr,stringto_encoding[,mixedfrom_encoding])需要先enablembstring扩展库,在php.ini里将;extension=php_mbstring.dll前面的;去掉mb_convert_encoding可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;
stringiconv(stringin_charset,stringout_charset,stringstr)注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT和//IGNORE,其中//TRANSLIT会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
一般情况下用iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding函数。
在php函数库有一个函数:iconv(),iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。
最近在做一个小偷程序,需要用到iconv函数把抓取来过的utf-8编码的页面转成gb2312,发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。让我郁闷了好一会儿,去网上一查资料才知道这是iconv函数的一个bug。iconv在转换字符"—"到gb2312时会出错。
下面慢慢看一下这个函数的用法。
最简单的应用,把gb2312置换成utf-8:
1 | $text =iconv( "GB2312" , "UTF-8" , $text ); |
针对这的问题,可以用如下代码实现:
1 | $text =iconv( "UTF-8" , "GBK" , $text ); |
还有一种方法,第二个参数,加上//IGNORE,忽略错误,如下:
1 | iconv( "UTF-8" , "GB2312//IGNORE" , $data ); |
php手册中iconv()说明:
1 | iconv |
2 |
3 | (PHP4>=4.0.5,PHP5) |
4 | iconv–Convertstringtorequestedcharacterencoding |
5 | Description |
6 | stringiconv(stringin_charset,stringout_charset,stringstr) |
7 | Performsacharactersetconversiononthestringstrfromin_charsettoout_charset.ReturnstheconvertedstringorFALSEonfailure. |
8 | Ifyouappendthestring//TRANSLITtoout_charsettransliterationisactivated.Thismeansthatwhenacharactercan'tberepresentedinthetargetcharset,itcanbeapproximatedthroughoneorseveralsimilarlylookingcharacters.Ifyouappendthestring//IGNORE,charactersthatcannotberepresentedinthetargetcharsetaresilentlydiscarded.Otherwise,striscutfromthefirstillegalcharacter. |
1 | $str =iconv( 'utf-8' , "gb2312//TRANSLIT" , file_get_contents ( $filepath )); |
ignore的意思是忽略转换时的错误,如果没有ignore参数,所有该字符后面的字符串都无法被保存。
iconv不是php的默认函数,也是默认安装的模块。需要安装才能用的。
如果是windows2000+php,你可以修改php.ini文件,将extension=php_iconv.dll前的";"去掉,同时你要copy你的原php安装文件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是这个目录)。在linux环境下,用静态安装的方式,在configure时加多一项--with-iconv就可以了,phpinfo看得到iconv的项。(Linux7.3+Apache4.06+php4.3.2)。
mb_convert_encoding与iconv函数介绍
mb_convert_encoding这个函数是用来转换编码的。原来一直对程序编码这一概念不理解,不过现在好像有点开窍了。不过英文一般不会存在编码问题,只有中文数据才会有这个问题。比如你用ZendStudio或Editplus写程序时,用的是gbk编码,如果数据需要入数据库,而数据库的编码为utf8时,这时就要把数据进行编码转换,不然进到数据库就会变成乱码。做一个GBKToUTF-8:
1 | <?php |
2 | header( "content-Type:text/html;charset=Utf-8" ); |
3 | echo mb_convert_encoding( "妳係我的友仔" , "UTF-8" , "GBK" ); |
4 | ?> |
1 | <?php |
2 | header( "content-Type:text/html;charset=big5" ); |
3 | echo mb_convert_encoding( "你是我的朋友" , "big5" , "GB2312" ); |
4 | ?> |
stringmb_convert_encoding(stringstr,stringto_encoding[,mixedfrom_encoding])需要先enablembstring扩展库,在php.ini里将;extension=php_mbstring.dll前面的;去掉mb_convert_encoding可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;
stringiconv(stringin_charset,stringout_charset,stringstr)注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT和//IGNORE,其中//TRANSLIT会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
一般情况下用iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding函数。
1 | $content =iconv( "GBK" ,"UTF-8″, $content ); |
2 | $content =mb_convert_encoding( $content , "UTF-8″," GBK"); |
相关文章推荐
- PHP iconv()函数转字符编码的问题
- PHP iconv()函数转字符编码的问题
- PHP iconv()函数转字符编码的问题
- PHP iconv()函数转字符编码的问题(转)
- PHP iconv()函数转字符编码的问题
- php关于使用iconv(...)函数对字符进行中文转换时,遇到的一个问题
- PHP中json_encode()函数编码问题的解决
- JS 字符串编码函数(解决URL特殊字符传递问题):escape()、encodeURI()、encodeURIComponent()区别详解
- php中文字符编码的长度,以及设置得到当前(内部)编码的函数
- [完]PHP文件下载 下载GET值中含有中文字符的文件,保存中文文件名,文件不能打开,遇到的编码问题
- PHP字符处理函数的问题总结
- (原创)PHP利用iconv()函数实现任何编码之间的转换
- JS 字符串编码函数(解决URL特殊字符传递问题):escape()、encodeURI()、encodeURIComponent()区别详解
- 关于php内部编码与mysql字符差异问题的研究
- 关于PHP内部编码与mysql字符差异问题的研究
- php转化编码函数iconv与mb_convert_encoding
- 『PHP』UTF8编码页面存入GBK数据时使用iconv遇到无法转码的字符时中断内容丢失及解决方法
- php的ord函数——解决中文字符截断问题
- 关于PHP内部编码与mysql字符差异问题的研究
- PHP-函数-mb_strlen函数由于版本问题导致中文字符截断问题