您的位置:首页 > 编程语言 > C#

C#按字节长度截取字符串

2016-05-04 10:27 225 查看
产生这个问题的原因是将Substring方法将双字节的汉字当成一个字节的字符(UCS2字符)处理了,导致长度变短。

两个扩展方法按字节长度截取字符串

/// <summary>
/// 根据字节长度来截取字符串
/// </summary>
///<param name="origStr">原始字符串</param>
///<param name="length">提取前length个字节</param>
/// <returns></returns>
public static String SubstringByByte(this string origStr, int length)
{
byte[] bytes = System.Text.Encoding.Unicode.GetBytes(origStr);
int n = 0; //  表示当前的字节数
int i = 0; //  要截取的字节数
for (; i < bytes.GetLength(0) && n < length; i++)
{
//  偶数位置,如0、2、4等,为UCS2编码中两个字节的第一个字节
if (i%2 == 0)
{
n++; //  在UCS2第一个字节时n加1
}
else
{
//  当UCS2编码的第二个字节大于0时,该UCS2字符为汉字,一个汉字算两个字节
if (bytes[i] > 0)
{
n++;
}
}
}
//  如果i为奇数时,处理成偶数
if (i%2 == 1)
{
//  该UCS2字符是汉字时,去掉这个截一半的汉字

if (bytes[i] > 0)
i = i - 1;

//  该UCS2字符是字母或数字,则保留该字符
else
i = i + 1;
}
return Encoding.Unicode.GetString(bytes, 0, i);
}

/// <summary>
/// 按指定长度(单字节)截取字符串
/// </summary>
/// <param name="str">源字符串</param>
/// <param name="startIndex">开始索引</param>
/// <param name="len">截取字节数</param>
/// <returns>string</returns>
public static string SubstringByByte(this string str, int startIndex, int len)
{
if (str == null || str.Trim() == "")
{
return "";
}
if (Encoding.Default.GetByteCount(str) < startIndex + 1 + len)
{
return str;
}
int i = 0;//字节数
int j = 0;//实际截取长度
foreach (char newChar in str)
{
if ((int)newChar > 127)
{
//汉字
i += 2;
}
else
{
i++;
}
if (i > startIndex + len)
{
str = str.Substring(startIndex, j);
break;
}
if (i > startIndex)
{
j++;
}
}
return str;
}


  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: