您的位置：首页 > 其它

利用scipy.sparse.csr_matrix构建term-document matrix

2016-06-03 13:28 211 查看

该部分讲解的是scikit-learn中构建term-document矩阵的方法,该方法被用到了以下地方：

例如TfidfVectorizer中的fit_transform方法就是利用scipy的稀疏矩阵构建并返回term-document矩阵：

稀疏矩阵Compressed Sparse Row (CSR)存储原理：

下面讲解具体实现代码：

# coding: utf-8
from scipy.sparse.csr import csr_matrix

docs = [["hello", "world", "hello"], ["goodbye", "cruel", "world"]]
indptr = [0] # 存放的是行偏移量
indices = [] # 存放的是data中元素对应的列编号（列编号可重复）
data = [] # 存放的是非0数据元素
vocabulary = {} # key是word词汇，value是列编号
for d in docs: # 遍历每个文档
for term in d: # 遍历文档的每个词汇term
# setdefault如果term不存在，则将新term和他的列
# 编号len(vocabulary)加入到词典中，返回他的编号；
# 如果term存在，则不填加，返回已存在的编号
index = vocabulary.setdefault(term, len(vocabulary))
indices.append(index)
data.append(1)
indptr.append(len(indices))
# csr_matrix可以将同一个词汇次数求和
csr_matrix((data, indices, indptr), dtype=int).toarray()

结果：

[[2 1 0 0]

[0 1 1 1]]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航