您的位置:首页 > 编程语言 > Python开发

Python学习——jieba分词库和time模块

2016-09-08 17:35 337 查看
项目需要用到分词,所以找了一天合适的分词库,网上推荐最多的是jieba分词,在linux环境下安装很方便,输入命令:

pip install jieba

即可。使用更为方便:

import jieba

data=“这是一个让人增长见识的项目”

seg_list=jieba.cut(data,cut_all=False) #目前我只需要使用这个精确模式,还有其他可选模式,可以参考http://www.oschina.net/p/jieba

print '/'.join(seg_list)

结果是:这是/一个/让/人/增长/见识/的/项目

我用Python自带的time模块,统计了一下cut这一句命令运行的时间,数量级是微秒。

还有其他的分词库,我目前用不到,以后应该会需要进行比较。

上边已经提到了time模块,我主要对time.time()、time.clock()、timeit做比较

time.time():返回当前的时间戳。所以用来计算运行时间的话只要把前后时间戳相减即可

time.clock():注意,在不同的系统上含义不同。在UNIX系统上,它返回的是“进程时间”,它是用秒表示的浮点数(时间戳)。而在WINDOWS中,第一次调用,返回的是进程运行的实际时间。而第二次之后的调用是自第一次调用以后到现在的运行时间。(实际上是以WIN32上QueryPerformanceCounter()为基础,它比毫秒表示更为精确)

1

2

3

4

5

6

>>>import
time

>>>print(time.time(),time.clock())

1359147652.310.021184

>>>time.sleep(1)

>>>print(time.time(),time.clock())

1359147653.310.02168

可以这样区分:

1

2

3

4

5

6

7

8

importsys

if
sys.platform=='win32':

# On Windows, the best timer is time.clock

default_timer=time.clock

else:

# On most other platforms the best timer is time.time

default_timer=time.time

而ipython里的timeit也很好用,直接 %timeit a=a+1,即可计算a=a+1的运行时间

参考网站:http://www.runoob.com/python/att-time-time.html
http://pythoncentral.io/measure-time-in-python-time-time-vs-time-clock/ http://www.oschina.net/p/jieba

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python linux