原文链接:http://yuren.space/blog/2016/07/31/python如何解决汉字编码问题/
2017-03-26 17:30
363 查看
ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字
unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度
内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间
那么python的默认编码是什么?
?
python的默认编码是ascii,可以通过
python中可以通过encode和decode的方式改变数据的编码,比如:
?
我们可以通过这两个函数设置编码。
那么,python中的str是什么类型?
?
binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'
总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:
unicode => encode(‘合适的编码') => str
str => decode(‘合适的编码') => unicode
还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:
?
对于第二个问题,是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式,两者的差别好像在bom文件比无bom文件多了一个头,导致以utf-8方式读文件时报错,我先前曾尝试读文件的时候先对有无bom进行判断,跳过bom文件的头,后来失败了,真尴尬~~。
还得上google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。
?
unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度
内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间
那么python的默认编码是什么?
?
sys.setdefaultencoding('utf-8')函数设置python的默认编码。
python中可以通过encode和decode的方式改变数据的编码,比如:
?
那么,python中的str是什么类型?
?
.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。
总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:
unicode => encode(‘合适的编码') => str
str => decode(‘合适的编码') => unicode
还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:
?
还得上google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。
?
相关文章推荐
- 如何在cmd下切换不同版本的Python 原文:windows 安装python2 与python3 共存 地址:http://blog.csdn.net/liulucaro/article/de
- ORACLE中的物化视图(原文链接http://blog.chinaunix.net/space.php?uid=8329266&do=blog&id=2032099)
- 解决jsp或serverlet 不能解析multipart/form-data 类型的表单域的问题 --http://ckasj.vicp.net/blog/index.php/archives/236
- 如何提高阅读速度本文转自:中小学教育资源站(http://www.edudown.net )原文链接:http://www.edudown.net/student/jingyan/fangfa/200608/8938.html
- StackOverflowError spaceOutOfMemoryError 通过jvm调优解决(转自http://blog.sina.com.cn/s/blog_790229d301015vz)
- Android开发:用getDrawingCache方法获取ImageView中的图像需要注意的问题 本篇文章来源于 Linux公社网站(www.linuxidc.com) 原文链接:http:/
- 如何解决MSYS中Couldn’t reserve space for cygwin’s heap问题
- cookie与session(再比较) 转载 原文链接http://blog.sina.com.cn/s/blog_4745d1c10100ihnq.html
- fckeditor-java-core-2.5.jar上传中文文件显示问题的解决---http://blog.163.com/djm886@126/blog/static/88909942010024
- 用TSVN和Wordpress搭建个人blog,解决如何更换主题问题(最新版)(大牛勿进)
- 如何解决Outlook2010邮件中的链接点击无法打开问题
- 总算把blog中的链接问题解决
- 如何检查C++中的内存泄漏 (原文地址:http://www.cppblog.com/Lyt/archive/2009/03/22/77517.html)
- 移动时代的信息需求(原文链接http://blog.sina.com.cn/s/blog_593af2a70101ac1k.html)
- 如何解决XmlHttp.responseText的乱码问题
- tomcat java.lang.OutOfMemoryError: Java heap space 问题解决;Java垃圾回收机制详解和调优相关链接
- 关于linux动态链接共享库(如何解决应用程序跑不起来not found等问题)
- 如何解决Python脚本在Linux和Windows上的格式问题
- include和merge标记的作用主要是为了解决layout的重用问题。[轉 from:http://blog.sina.com.cn/s/blog_67d95f400100zk3d.html]
- Tomcat的参数配置及一般问题的解决---http://www.blogjava.net/Steven-bot/archive/2011/10/08/360161.html