python进行中文分词、词性标注、词频统计
2017-03-24 11:51
585 查看
df的部分数据如下:
A B
0 乐视招聘自动化测试工程师负责超级电视设备的自动化方案设计自动化测试与工具开发根据项目特点研究… 转正后全员持股年底奖金各种补助等
1 负责端产品网页以及的交互设计并对产品最终的用户体验负责参与用户研究及产品需求制定的整个过程提… 班车接送各种福利团队领导好
2 实现服务于智能设备用户的智能推荐系统当前需要实现电视购物推荐系统壁纸个性化推荐系统智能标签推… 弹性考勤慷慨期权免费班车薪
3 负责乐视智能设备超级电视超级手机数据开发工作当前需要实现智能用户行为多维探查交互系统后端开发… 弹性考勤慷慨期权免费班车薪
4 基于智能设备端用户行为的分析建模服务于各业务线钻研算法钻研业务持续改进算法提升业务质量负责电… 弹性考勤慷慨期权免费班车薪
import jieba.posseg as pseg
l = len(df)
df1=pd.DataFrame(columns=[‘word’,’type’])
x=[]
y=[]
for i in range(l):
words = pseg.cut(df.ix[i][0]) ##我这里对第一列即A列进行分词
for word,flag in words:
x.append(word)
y.append(flag)
df1[‘word’]=x
df1[‘type’]=y
df3=df1.groupby([‘word’,’type’]).size()
A B
0 乐视招聘自动化测试工程师负责超级电视设备的自动化方案设计自动化测试与工具开发根据项目特点研究… 转正后全员持股年底奖金各种补助等
1 负责端产品网页以及的交互设计并对产品最终的用户体验负责参与用户研究及产品需求制定的整个过程提… 班车接送各种福利团队领导好
2 实现服务于智能设备用户的智能推荐系统当前需要实现电视购物推荐系统壁纸个性化推荐系统智能标签推… 弹性考勤慷慨期权免费班车薪
3 负责乐视智能设备超级电视超级手机数据开发工作当前需要实现智能用户行为多维探查交互系统后端开发… 弹性考勤慷慨期权免费班车薪
4 基于智能设备端用户行为的分析建模服务于各业务线钻研算法钻研业务持续改进算法提升业务质量负责电… 弹性考勤慷慨期权免费班车薪
import jieba.posseg as pseg
l = len(df)
df1=pd.DataFrame(columns=[‘word’,’type’])
x=[]
y=[]
for i in range(l):
words = pseg.cut(df.ix[i][0]) ##我这里对第一列即A列进行分词
for word,flag in words:
x.append(word)
y.append(flag)
df1[‘word’]=x
df1[‘type’]=y
df3=df1.groupby([‘word’,’type’]).size()
相关文章推荐
- 利用统计进行中文分词与词性分析
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- 利用统计进行中文分词与词性分析
- 用最大熵模型进行字标注中文分词(Python实现)
- Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
- 【python 编程】网页中文过滤分词及词频统计
- Python jieba 中文分词与词频统计
- 用条件随机场CRF进行字标注中文分词(Python实现)
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 用条件随机场CRF进行字标注中文分词(Python实现)
- PYTHON3.6对中文文本分词、去停用词以及词频统计
- Python分词并进行词频统计
- Python 文本挖掘:jieba中文分词和词性标注
- 使用Python,字标注及最大熵法进行中文分词
- 使用ES对中文文章进行分词,并进行词频统计排序
- 使用python对中文文档进行词频统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- Python 文本挖掘:jieba中文分词和词性标注
- 【Rosseta中文分词】python下利用HMM思想进行中文分词
- 跪求最新的中文分词 词库 一定要 带词性 最好带词频