关于python的命令行输出中文
2017-01-12 10:48
211 查看
这几天在尝试用python抓取网页内容,以及模拟浏览器行为。
当我抓取一个包含中文的网页时,在命令行内输出总是出现乱码,但是当输出到文件中后显示正常。网页是utf-8编码的。
经过一番查询后,发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。
什么是MBCS编码呢?
MBCS(Multi-Byte Chactacter System(Set))
多字节字符系统或者字符集,基于ANSI编码的原理上,对一个字符的表示实际上无法确定他需要占用几个字节的,只能从编码本身来区分和解释。因此计算机在存储的时候,就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节,比如A我给你放一个字节,比如"中“,我就给你放两个字节,这样的字符表示形式就是MBCS。
在基于GBK的windows中,不会超过2个字节,所以windows这种表示形式有叫做DBCS(Double-Byte Chactacter System),其实算是MBCS的一个特例。
C语言默认存放字符串就是用的MBCS格式。
所以,想要在命令行输出正确的文字,需要对你抓取到的东西进行解码后重新编码。例如下面
print soup.prettify('utf-8').decode('utf8').encode('mbcs')
这下,命令行就能正确得输出中文啦。
当我抓取一个包含中文的网页时,在命令行内输出总是出现乱码,但是当输出到文件中后显示正常。网页是utf-8编码的。
经过一番查询后,发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。
什么是MBCS编码呢?
MBCS(Multi-Byte Chactacter System(Set))
多字节字符系统或者字符集,基于ANSI编码的原理上,对一个字符的表示实际上无法确定他需要占用几个字节的,只能从编码本身来区分和解释。因此计算机在存储的时候,就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节,比如A我给你放一个字节,比如"中“,我就给你放两个字节,这样的字符表示形式就是MBCS。
在基于GBK的windows中,不会超过2个字节,所以windows这种表示形式有叫做DBCS(Double-Byte Chactacter System),其实算是MBCS的一个特例。
C语言默认存放字符串就是用的MBCS格式。
所以,想要在命令行输出正确的文字,需要对你抓取到的东西进行解码后重新编码。例如下面
print soup.prettify('utf-8').decode('utf8').encode('mbcs')
这下,命令行就能正确得输出中文啦。
相关文章推荐
- Windows 命令行下解决python utf-8中文输出的终极解决方案!
- 关于win终端下python输出中文乱码问题
- 关于python在cmd中输出中文乱码的问题
- Python 3.0 在Windows 命令行下输出中文
- python2.7中关于编码,json格式的中文输出显示
- python2.7中关于编码,json格式的中文输出显示
- 【python】 关于去掉转义字符\,输出中文字符(decode("string_escape"))
- python关于输出中文乱码的解决方式
- 关于python在cmd中输出中文乱码的问题
- 关于Python中输出中文的一点疑问
- 关于python中文输出乱码的处理
- Windows 命令行下解决python utf-8中文输出的终极解决方案!
- python2.7中关于编码,json格式的中文输出显示
- 【python】如何读取命令行的输出
- Python中文全攻略 中文乱码 输出中文乱码
- All About JAVA 关于英文服务器下输出含有中文字符文件乱码的问题
- python输出中文
- 关于python源代码中中文问题
- 关于Android Logcat打印输出中文乱码问题的解决方法
- 关于VS2005下中文输出的问题