您的位置:首页 > 编程语言 > Python开发

关于python的命令行输出中文

2017-01-12 10:48 211 查看
这几天在尝试用python抓取网页内容,以及模拟浏览器行为。

当我抓取一个包含中文的网页时,在命令行内输出总是出现乱码,但是当输出到文件中后显示正常。网页是utf-8编码的。

经过一番查询后,发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。

什么是MBCS编码呢?

MBCS(Multi-Byte Chactacter System(Set))

  多字节字符系统或者字符集,基于ANSI编码的原理上,对一个字符的表示实际上无法确定他需要占用几个字节的,只能从编码本身来区分和解释。因此计算机在存储的时候,就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节,比如A我给你放一个字节,比如"中“,我就给你放两个字节,这样的字符表示形式就是MBCS。

在基于GBK的windows中,不会超过2个字节,所以windows这种表示形式有叫做DBCS(Double-Byte Chactacter System),其实算是MBCS的一个特例。
C语言默认存放字符串就是用的MBCS格式。
所以,想要在命令行输出正确的文字,需要对你抓取到的东西进行解码后重新编码。例如下面
print soup.prettify('utf-8').decode('utf8').encode('mbcs')
这下,命令行就能正确得输出中文啦。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python