您的位置：首页 > 编程语言 > Python开发

Python中使用中文的方法

2013-01-28 11:41 549 查看

先来看看python的版本：

>>> import sys

>>> sys.version

'2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit
(Intel)]'

（一）

用记事本创建一个文件ChineseTest.py，默认ANSI：

s = "中文"

print s

测试一下瞧瞧：

E:\Project\Python\Test>python ChineseTest.py

File "ChineseTest.py", line 1

SyntaxError: Non-ASCII character '\xd6' in file ChineseTest.py
on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

偷偷地把文件编码改成UTF-8：

E:\Project\Python\Test>python ChineseTest.py

File "ChineseTest.py", line 1

SyntaxError: Non-ASCII character '\xe4' in file ChineseTest.py
on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

无济于事。。。

既然它提供了网址，那就看看吧。简单地浏览一下，终于知道如果文件里有非ASCII字符，需要在第一行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI，并加上编码声明：

# coding=gbk

s = "中文"

print s

再试一下：

E:\Project\Python\Test>python ChineseTest.py

中文

正常咯：）

（二）

看一看它的长度：

# coding=gbk

s = "中文"

print len(s)

结果：4。

s这里是str类型，所以计算的时候一个中文相当于两个英文字符，因此长度为4。

我们这样写:

# coding=gbk

s = "中文"

s1 = u"中文"

s2 = unicode(s, "gbk") #省略参数将用python默认的ASCII来解码

s3 = s.decode("gbk") #把str转换成unicode是decode，unicode函数作用与之相同

print len(s1)

print len(s2)

print len(s3)

结果：

2

2

2

（三）

接着来看看文件的处理：

建立一个文件test.txt，文件格式用ANSI，内容为:

abc中文

用python来读取

# coding=gbk

print open("Test.txt").read()

结果：abc中文

把文件格式改成UTF-8：

结果：abc涓枃

显然，这里需要解码：

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

结果：abc中文

上面的test.txt我是用Editplus来编辑的，但当我用Windows自带的记事本编辑并存成UTF-8格式时，

运行时报错：

Traceback (most recent call last):

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航