您的位置:首页 > 编程语言 > Python开发

python进行中文分词、词性标注、词频统计

2017-03-24 11:51 585 查看
df的部分数据如下:

A B

0 乐视招聘自动化测试工程师负责超级电视设备的自动化方案设计自动化测试与工具开发根据项目特点研究… 转正后全员持股年底奖金各种补助等

1 负责端产品网页以及的交互设计并对产品最终的用户体验负责参与用户研究及产品需求制定的整个过程提… 班车接送各种福利团队领导好

2 实现服务于智能设备用户的智能推荐系统当前需要实现电视购物推荐系统壁纸个性化推荐系统智能标签推… 弹性考勤慷慨期权免费班车薪

3 负责乐视智能设备超级电视超级手机数据开发工作当前需要实现智能用户行为多维探查交互系统后端开发… 弹性考勤慷慨期权免费班车薪

4 基于智能设备端用户行为的分析建模服务于各业务线钻研算法钻研业务持续改进算法提升业务质量负责电… 弹性考勤慷慨期权免费班车薪

import jieba.posseg as pseg

l = len(df)

df1=pd.DataFrame(columns=[‘word’,’type’])

x=[]

y=[]

for i in range(l):

words = pseg.cut(df.ix[i][0]) ##我这里对第一列即A列进行分词

for word,flag in words:

x.append(word)

y.append(flag)

df1[‘word’]=x

df1[‘type’]=y

df3=df1.groupby([‘word’,’type’]).size()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息