python 利用utf-8编码判断中文英文字符
2019-05-29 10:15
701 查看
下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作。
# -*- coding: UTF-8 -*- """判断一个unicode是否是汉字""" def is_chinese(uchar): if uchar >= u'\u4e00' and uchar <= u'\u9fa5': return True else: return False """判断一个unicode是否是数字""" def is_number(uchar): if uchar >= u'\u0030' and uchar <= u'\u0039': return True else: return False """判断一个unicode是否是英文字母""" def is_alphabet(uchar): if (uchar >= u'\u0041' and uchar <= u'\u005a') or (uchar >= u'\u0061' and uchar <= u'\u007a'): return True else: return False """判断是否是(汉字,数字和英文字符之外的)其他字符""" def is_other(uchar): if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)): return True else: return False """半角转全角""" def B2Q(uchar): inside_code = ord(uchar) if inside_code < 0x0020 or inside_code > 0x7e: # 不是半角字符就返回原来的字符 return uchar if inside_code == 0x0020: # 除了空格其他的全角半角的公式为:半角=全角-0xfee0 inside_code = 0x3000 else: inside_code += 0xfee0 return unichr(inside_code) """全角转半角""" def Q2B(uchar): inside_code = ord(uchar) if inside_code == 0x3000: inside_code = 0x0020 else: inside_code -= 0xfee0 if inside_code < 0x0020 or inside_code > 0x7e: # 转完之后不是半角字符返回原来的字符 return uchar return unichr(inside_code) """把字符串全角转半角""" def stringQ2B(ustring): return "".join([Q2B(uchar) for uchar in ustring]) """将UTF-8编码转换为Unicode编码""" def convert_toUnicode(string): ustring = string if not isinstance(string, unicode): ustring = string.decode('UTF-8') return ustring if __name__ == "__main__": ustring1 = u'收割季节 麦浪和月光 洗着快镰刀' string1 = 'Sky0天地Earth1*' ustring1 = convert_toUnicode(ustring1) string1 = convert_toUnicode(string1) for item in string1: # print is_chinese(item) # print is_number(item) # print is_alphabet(item) print is_other(item)
相关文章推荐
- python 利用utf-8编码判断中文英文字符
- python利用utf-8编码判断中文英文字符
- python利用utf-8编码判断中文英文字符
- python(40):利用utf-8编码判断中文英文字符
- python利用utf-8编码判断中文英文字符(转)
- python利用utf-8编码判断中文英文字符(转)
- python利用utf-8编码判断中文英文字符(转)
- python利用utf-8编码判断中文字符
- 字符编码——在python2中如何将txt中的utf-8转换成中文
- python替换UTF-8编码文本中任意特殊字符,包括中文符号问题:大量文本,将其中的特殊字符用空
- Python2.7 中文字符编码 & Pycharm utf-8设置、Unicode与utf-8的区别
- python替换UTF-8编码文本中任意特殊字符,包括中文符号
- python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断
- python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断
- [转]Python正则表达式中匹配GBK/UTF-8编码中文字符_绝冬之地_百度空间
- SQL判断某列中是否包含中文字符、英文字符、纯数字
- python 判断字符串中是否只有中文字符
- 中文字符编码之GBK,UTF-16和UTF-8
- python 学习 1、英文字符分析 2、中文字符分析 DAY19
- source-insight中文:utf-8编码的中文字符在source in sight如何正常显示