Python中如何进行HTML特殊字符与Unicode代码的转换
2012-02-01 00:34
911 查看
======================================================
注:本文源代码点此下载
======================================================
python中如何进行html特殊字符与unicode代码的转换
在处理html内容的时候经常会遇到 1405; 816;、 这样的怪字符,一般称为html特殊符号,而后面加一串数值,则是网页中unicode的表示形式。
html特殊符号编码对照表
通过cgi模块中的escape函数可以将常见的特殊符号转换为html的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。
在网上找到一篇介绍如何进行这种反向转换的文章:escaping html
另外,如果得到的html代码中含有 1405; 816;这样的unicode代码,可以使用unichr函数来进行转换:
代码
def unescape_word(s):
words = re.findall("(\d+);", s)
if words:
result = unicode(s, "gb18030")
u = unicode()
for word in map(int, words):
h, l = word / 0x100, word % 0x100
u = unichr(l * 0x100 + h)
result = result.replace("%s;" % word, u)
result = result.encode("gb18030")
else:
result = s
return result
标签:
python
绿色通道:好文要顶关注我收藏该文与我联系
posted @ 2010-07-27 15:32
叮叮当当 阅读(391)
评论(0)编辑
收藏
======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定
这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
注:本文源代码点此下载
======================================================
python中如何进行html特殊字符与unicode代码的转换
在处理html内容的时候经常会遇到 1405; 816;、 这样的怪字符,一般称为html特殊符号,而后面加一串数值,则是网页中unicode的表示形式。
html特殊符号编码对照表
通过cgi模块中的escape函数可以将常见的特殊符号转换为html的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。
在网上找到一篇介绍如何进行这种反向转换的文章:escaping html
另外,如果得到的html代码中含有 1405; 816;这样的unicode代码,可以使用unichr函数来进行转换:
代码
def unescape_word(s):
words = re.findall("(\d+);", s)
if words:
result = unicode(s, "gb18030")
u = unicode()
for word in map(int, words):
h, l = word / 0x100, word % 0x100
u = unichr(l * 0x100 + h)
result = result.replace("%s;" % word, u)
result = result.encode("gb18030")
else:
result = s
return result
标签:
python
绿色通道:好文要顶关注我收藏该文与我联系
posted @ 2010-07-27 15:32
叮叮当当 阅读(391)
评论(0)编辑
收藏
======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定
这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
相关文章推荐
- php应用如何转换HTML特殊字符
- php应用如何转换HTML特殊字符
- 将用户输入的字符串转换为可换行、替换Html编码、无危害数据库特殊字符、去掉首尾空白、的安全方便代码
- Python:如何将文本里的字典里的unicode字符转换成中文
- Python中,如何将反斜杠u类型(\uXXXX)的字符串,转换为对应的unicode的字符
- 将用户输入的字符串转换为可换行、替换Html编码、无危害数据库特殊字符、去掉首尾空白、的安全方便代码
- 【整理】Python中,如何将反斜杠u类型(\uXXXX)的字符串,转换为对应的unicode的字符
- TrueTypeFont(2)--如何将转换为在 Windows 95 中的 TrueType 标志符号索引的 Unicode 字符代码
- 写了一个html特殊字符的转换代码.
- Java获取字符的Unicode编码以及如何过滤特殊字符ZWNJ
- php对数组或字符串中的特殊字符进行转换
- 如何理解python3的unicode,以及全角半角转换
- 如何使用java代码进行视频格式的转换(FLV)
- Robot Framework RIDE中的字符转换、中文、python的gbk解码 unicode('${org_name}',"utf-8")
- 如何进行文字和unicode相互转换
- Python写的英文字符大小写转换代码示例
- asp下实现对HTML代码进行转换的函数
- html xml 转义符号 java 转换 HTML 字符 java 特殊字符转义字符串
- HTML特殊字符代码大全
- UTF-8与Unicode字符的相互转换 与 16进制Unicode转换汉字 重用代码