Python 中文分词工具 ——结巴分词的使用方法总结
2013-09-18 15:01
931 查看
结巴分词工具的安装及基本用法,昨天的博客中已经有所描述。今天要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。
示例代码如下:
[python]
view plaincopy
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
示例代码如下:
[python]
view plaincopy
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
相关文章推荐
- Python 中文分词工具 ——结巴分词的使用方法总结
- Python结巴中文分词工具使用过程中遇到的问题及解决方法
- PYTHON 结巴中文分词工具的基础使用
- Python中文分词工具之结巴分词用法实例总结【经典案例】
- python使用jieba实现中文分词去停用词方法示例
- 结巴中文分词使用学习(python)
- python中文分词工具:结巴分词jieba
- 中文文本分词,关键词提取工具jcseg使用方法
- python中文分词,使用结巴分词对python进行分词
- 使用python 的结巴(jieba)库进行中文分词
- [python] 使用Jieba工具中文分词及文本聚类概念
- python中文分词,使用结巴分词对python进行分词
- python中文分词工具——结巴分词
- python中文分词,使用结巴分词对python进行分词(实例讲解)
- 布同 Python中文问题解决方法(总结了多位前人经验,初学者必看)
- 结巴分词(Python中文分词组件)
- python编辑工具pycharm中文输入报错解决方法
- Python使用Matplotlib模块时坐标轴标题中文及各种特殊符号显示方法
- 使用MBROSTool 工具制作本地硬盘多启动盘的方法总结
- Python中文分词--jieba的基本使用