您的位置：首页 > 编程语言 > Python开发

Python文本数据分析与处理

2018-08-29 17:37 585 查看

TF-IDF有两种 jieba.analyse.extract_tags(content, topK=20, withWeight=False) # content为string, topK选出20个关键字, withWeight: 每一个关键词同等重要
使用gensim库 from gensim import corpora, models
dictinary = corpora.Dictionary(word_list) # 为每一个单词分配一个id, 并记录每一个单词的词频到dfs属性中
corpus = [dictionary.doc2bow(line) for line in word_list] # 得到词库, 形式是(token, id)
corpus.token2id以[token:id, ...]返回
# 将数据处理完之后, 才能使用models进行计算
lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) # corpus指定语料库, id2word指定字典, id在corpus中, num_toptics指定训练的主题数
lda.print_topic(1, 10) # 1为topic的id, 10为topic中关键字的个数
lda.print_topic(3, 10) # 3为返回的topic个数, 10为每一个topic中关键字的个数
返回的形式是0.009*"文化" + 0.005*"恋情" + 0.004*"中" + 0.004*"撒" + 0.004*"节目"的列表, 数字为权重

过滤停用词得到去掉停用词的集合data

对data进行去重(现在使用的算法不需要单词出现的数量, 如果换作其他算法则不一定), 获取data中所有的单词words, words的形式为list

data0的每一个list元素的单词转为0和1, 返回一组向量, 0表示没有该单词, 1表示有该单词

def NBTrain函数使用贝叶斯进行训练

根据根据贝叶斯公式, 根据输入的测试集向量, 通过贝叶斯公式与NBTrain出来的参数(该参数与贝叶斯公式非常相关)得出p0与p1, 比较大小进行分类借口

获得数据
过滤掉停用词
将每一个样本对应的单词以' '.jion合并, 因为之后将单词转为向量的对象需要这样的参数
导入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是两种将字符串中的单词转为向量的算法, 后者效果更好, 所以以他为例 tfidf = TfidVectorizier() # 有一个ngram_range可选参数, (1, 4)表示得到的feature为1个, 2个依次增加到3个, 3就是最终每一个句子的向量的长度
tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
tfidf_fit.get_feature_names()返回单词list
tfidf_fit.toarray()返回转换后的向量

现在得到了我们需要用于建模的数据表了(前面就是特征提取的操作, 是机器学习中最难的部分, 目的就是为了得到可以用于建模的数据表)

将数据分成训练集和测试集

导入native_bayes模块中的MultinomialNB类对象

clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 传入的必须是list, 内部不提供转换

评估

clf.score(X_test.values.tolist(), y_test.values.tolist())

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航