您的位置:首页 > 编程语言 > Python开发

Python数据挖掘05--词云(wordcloud)找出老九门中热门词语

2018-02-28 22:31 615 查看
注意

window系统安装wordcloud模块时可能会出现需要安装C++等错误,此时使用https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy网站的whl自己进行安装将不会再报错

资料中所用到老九门文件和图片,点击下载

import wordcloud as wc  # 词云模块
import matplotlib.pylab as plb
import pandas as pda
import jieba  # jieba模块 分解词语
from PIL import Image
from numpy import array

path = "C:/Users/Administrator/Desktop/老九门.txt"
data = open(path, "r", encoding="gbk").read()  # 读取txt小说文件
cutdata = jieba.cut(data)  # 将文本分割成词语

alldata = ""
for i in cutdata:  # 词语进行循环拼接
alldata = alldata + " " + str(i)

font = r"C:\WINDOWS\Fonts\simhei.ttf"
# 打开图片
cat = Image.open("C:/Users/Administrator/Desktop/cat.png")
catarray = array(cat)  # 将读取的图片转化成数组

# 使用WordCloud方法
oldwc = wc.WordCloud(mask=catarray, collocations=False,  # mask展示形状,background_color背景颜色
font_path=font, background_color="white"
).generate(data)
plb.imshow(oldwc)
plb.show()


最终展示结果

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  wordcloud whl 词云