中文字符串截取函数 substr_for_gb2312 and substr_for_utf8
2007-04-29 09:13
561 查看
/*
*gb2312中文字符串截取
*/
function substr_for_gb2312($str,$start,$len=null)
{
$totlelength = strlen($str);
//特例情况
if ($len == null) $len = $totlelength;
if ($len ==0) return "";
if ($len >= $totlelength && $start == 0 ) return $str;
if ($start > $totlelength) return "";
//分析$start
if ($start < 0 ) //$start<0时,转化为$start>0时的定位.
{
if ( abs($start) >= $totlelength ) $start = 0;
else $start = $totlelength - abs($start);
}
//确定起始位置,当起始位拆分某汉字时,返回值包含此汉字.
if ($start > 0)
{
$i = $start-1;
$flag = -1;
while ($i >= 0)
{
if ( ord(substr($str,$i,1)) > 160)
{
$flag = -1*$flag;
}
else break;
$i--;
}
if($flag==1)
{
$start = $start - 1;
$len++; //保证不位移.
}
}
$str = substr($str,$start);//截除字符串$str的$start位前的字符
$totlelength = strlen($str);
//确定结束位置,当结束位拆分某汉字时,返回值不包含此汉字.
if ($len<0) $len = $totlelength - abs($len);
if ($len <= 0) return "";
$i=min($len,$totlelength);
$i--;
$flag = -1;
while ($i >= 0)
{
if (ord(substr($str,$i,1))>160)
{
$flag=-1*$flag;
}
else break;
$i--;
}
if($flag == 1)
$len=$len-1;
$subit=substr($str,0,$len);
return $subit;
}
/******************************************************************
* PHP截取UTF-8字符串,解决半字符问题。
* 英文、数字(半角)为1字节(8位),中文(全角)为3字节
* @return 取出的字符串, 当$len小于等于0时, 会返回整个字符串
* @param $str 源字符串
* $len 左边的子串的长度
****************************************************************/
function substr_for_utf($str,$len)
{
for($i=0;$i<$len;$i++)
{
$temp_str=substr($str,0,1);
if(ord($temp_str) > 127)
{
$i++;
if($i<$len)
{
$new_str[]=substr($str,0,3);
$str=substr($str,3);
}
}
else
{
$new_str[]=substr($str,0,1);
$str=substr($str,1);
}
}
return join($new_str);
}
?>
/*带start位置的utf8截取函数*/
function utf8_substr($string, $start, $length) {
preg_match_all ('/[/x00-/x7F]|[/xC2-/xDF][/x80-/xBF]|[/xE0-/xEF][/x80-/xBF][/x80-/xBF]|[/xF0-/xF4][/x80-/xBF][/x80-/xBF][/x80-/x
BF]/', $string, $rs);
$out = '';
$size = count ($rs[0]);
$end = $start + $length;
if ($end > $size ) {
$end = $size;
}
for ($i = $start; $i < $end; $i++) {
$out .= $rs[0][$i];
}
return $out;
}
*gb2312中文字符串截取
*/
function substr_for_gb2312($str,$start,$len=null)
{
$totlelength = strlen($str);
//特例情况
if ($len == null) $len = $totlelength;
if ($len ==0) return "";
if ($len >= $totlelength && $start == 0 ) return $str;
if ($start > $totlelength) return "";
//分析$start
if ($start < 0 ) //$start<0时,转化为$start>0时的定位.
{
if ( abs($start) >= $totlelength ) $start = 0;
else $start = $totlelength - abs($start);
}
//确定起始位置,当起始位拆分某汉字时,返回值包含此汉字.
if ($start > 0)
{
$i = $start-1;
$flag = -1;
while ($i >= 0)
{
if ( ord(substr($str,$i,1)) > 160)
{
$flag = -1*$flag;
}
else break;
$i--;
}
if($flag==1)
{
$start = $start - 1;
$len++; //保证不位移.
}
}
$str = substr($str,$start);//截除字符串$str的$start位前的字符
$totlelength = strlen($str);
//确定结束位置,当结束位拆分某汉字时,返回值不包含此汉字.
if ($len<0) $len = $totlelength - abs($len);
if ($len <= 0) return "";
$i=min($len,$totlelength);
$i--;
$flag = -1;
while ($i >= 0)
{
if (ord(substr($str,$i,1))>160)
{
$flag=-1*$flag;
}
else break;
$i--;
}
if($flag == 1)
$len=$len-1;
$subit=substr($str,0,$len);
return $subit;
}
/******************************************************************
* PHP截取UTF-8字符串,解决半字符问题。
* 英文、数字(半角)为1字节(8位),中文(全角)为3字节
* @return 取出的字符串, 当$len小于等于0时, 会返回整个字符串
* @param $str 源字符串
* $len 左边的子串的长度
****************************************************************/
function substr_for_utf($str,$len)
{
for($i=0;$i<$len;$i++)
{
$temp_str=substr($str,0,1);
if(ord($temp_str) > 127)
{
$i++;
if($i<$len)
{
$new_str[]=substr($str,0,3);
$str=substr($str,3);
}
}
else
{
$new_str[]=substr($str,0,1);
$str=substr($str,1);
}
}
return join($new_str);
}
?>
/*带start位置的utf8截取函数*/
function utf8_substr($string, $start, $length) {
preg_match_all ('/[/x00-/x7F]|[/xC2-/xDF][/x80-/xBF]|[/xE0-/xEF][/x80-/xBF][/x80-/xBF]|[/xF0-/xF4][/x80-/xBF][/x80-/xBF][/x80-/x
BF]/', $string, $rs);
$out = '';
$size = count ($rs[0]);
$end = $start + $length;
if ($end > $size ) {
$end = $size;
}
for ($i = $start; $i < $end; $i++) {
$out .= $rs[0][$i];
}
return $out;
}
相关文章推荐
- php自定义中文字符串截取函数substr_for_gb2312及substr_for_utf8示例
- php自定义中文字符串截取函数substr_for_gb2312及substr_for_utf8示例
- php截取中文字符串长度的mb_substr()、mb_strcut()函数
- php截取中文字符串无乱码的函数(主函数:ord()、substr())
- php 字符串操作函数substr()截取中文子串乱码问题
- php截取中文字符串长度的mb_substr()、mb_strcut()函数 附strlen/mb_strlen
- dedecms 的cn_substr_utf8字符串截取函数商榷
- 支持汉字的字符串截取函数 substr_for_gb2312
- IE6和IE8下对js字符串截取函数substr兼容性问题
- js字符串截取函数slice()、substring()、substr()
- 用javascript实现截取字符串包含中文处理的函数
- 收藏几个支持中文的PHP字符串截取函数
- PHP用substr截取字符串出现中文乱码问题用mb_substr
- PHP中使用substr()截取字符串出现中文乱码问题该怎么办
- 解析使用substr截取UTF-8中文字符串出现乱码的问题
- php中常用的字符串截取函数mb_substr实例解释
- mysql字符串截取函数SUBSTR
- php自动截取中文字符串 和 取出html、css、js格式函数
- PHP substr 截取字符串出现乱码问题解决方法[utf8与gb2312]
- 字符串系统函数2文字截取substr