您的位置:首页 > 其它

第一篇博客-关于采集来编码的问题

2017-09-11 10:38 274 查看
1.关于编码:不要轻易相信你采集人家网页上面写的编码格式,很有可能是骗你的,找了大量相关资料,甚至去阅读了 unicall ascll utf-8 gbk gb2312这些编码产生的历史,尼玛,我都会背这些编码了,之前还要百度的。切入正题,之前说了不要相信人家网页上面写的,我之前不断地用iconv或者mb_convert_encoding转码,怎么转都不成功,一度的相信网页上面写的gb2312就是gb2312,走了很多歪路后,算了,我还是打印这些截取过来的字符到底是不是网页上面写的gb2312编码,在脚本之jia找到,先用mb_detect_encoding打印了,出现cu-。。。编码,尼玛,从来没见过这种编码啊!不是吧,我先引用这个变量放进去转了码再说,神奇的出现了。果然!ok下面贴代码

$html = $this->getContentByMatch('http://view.news.qq.com/original/intouchtoday/n3131.html');
//标题
$pattern_title="/<title>(.*)<\/title>/iUs";
preg_match($pattern_title, $html, $arr_title);//根据正则找到匹配的代码

$encode = mb_detect_encoding($arr_title[1], array('ASCII','UTF-8','GB2312','GBK','BIG5'));
$string = iconv($encode,"utf-8",$arr_title[1]);
echo $string;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: