您的位置:首页 > 编程语言 > PHP开发

php实习tips(如何生成简单摘要)

2016-05-06 16:58 531 查看

产生摘要

最近需要加一个需求,有一个send_article的接口,需要从html代码里提取出来中文字符,变成摘要,先后试了很多方法,比如:

//匹配中文utf8编码
function utf8_summary($article) {
$match = "/^[\x{4e00}-\x{9fa5}]+$/u";//正则表达式,匹配中文
preg_match_all($match,$article,$temp);
$summary = "";
foreach ($temp as $key => $value) {
$sum = implode('' , $value);
$summary = $sumary . $sum;
}//将中文拼接起来
return $summary;
}


问题为:

1.当出现连续的中文时,会出现无法取出的情况

2.当出现中文与字符混排时,该方法有效

原因:

可能当纯中文时,会使编码改变为其他的,所以正则表达式无法匹配,但是当出现有中文与字符混排时,字符编码为utf8,所以可以匹配,其实客户端可以将中文包裹在标签里,并加入head头,使用setchars=utf8来指明,但是客户端的实体类已经写好,改动太麻烦,只有后台想办法,于是尝试了第二个办法:

$function url_summary($article) {
$article = urlencode();
$match = "/^%[a-zA-Z0-9]{2}/";
preg_match_all($match,$article,$temp);
$summary = "";
foreach ($temp as $key => $value) {
$sum = implode('' , $value);
$summary = $sumary . $sum;
}
$summary = decode($summary);
return $summary;
}


该方法的思路是:观察到当非字母与数字经过url编码以后,会变成类似于%e7的字符串,所以是取出这些,再把这些字符串拼接起来,在解码,会得到中文。

后来发现:其实是一个函数的事儿

发现有一个函数,可以改变编码

iconv("gbk","utf-8","php中文转码");//把中文gbk编码转为utf8

iconv("utf-8","gbk","php中文转码");//把中文utf8编码转为gbk


但是该函数,要使用的话,需要到php.ini文件中去把extension=php_iconv.dll这一项打开,并且安装iconv函数库才可以使用

,比较麻烦。

最后发现,使用strip_tags()函数可以解决

该函数可以去除html标签,然后截取一段即可,

mb_substr(summary,0,50);//截取一段字符
并且需要去除转义字符,比如 ;
str_replace(’ ’,‘’,summary,0,50);//截取一段字符
并且需要去除转义字符,比如 ;
str_replace(’ ’,‘’,summary);//去除转义字符

即可生成摘要,后期可以加入更多功能,比如断句,换行;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: