您的位置：首页 > 其它

利用sklearn进行字典&文本的特征提取

2021-01-22 23:21 387 查看

写在前面

这篇博客主要内容：

应用DictVectorizer实现对类别特征进行数值化、离散化
应用CountVectorizer实现对文本特征进行数值化

特征提取API

sklearn.feature_extraction

字典特征提取

作用：对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer(sparse=True,…) DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值：返回sparse矩阵
DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格式
DictVectorizer.get_feature_names() 返回类别名称

# 数据
[{'city': '北京','temperature':100}
{'city': '上海','temperature':60}
{'city': '深圳','temperature':30}]

# 代码
from sklearn.feature_extraction import DictVectorizer

def dict_demo():
data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
# 1、实例化一个转换器类
transfer  = DictVectorizer(sparse=False)
# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new：\n",data_new)
# 打印特征名字
print("特征名字：\n",transfer.get_feature_names())

return None

注意

DictVectorizer

默认是true，输出为稀疏矩阵，false输出为普通矩阵

文本特征提取

作用：对文本数据进行特征值化

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
返回词频矩阵

CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象返回值：返回sparse矩阵

CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格

CountVectorizer.get_feature_names() 返回值:单词列表

sklearn.feature_extraction.text.TfidfVectorizer

# 数据
["life is short,i like python",
"life is too long,i dislike python"]

# 代码
from sklearn.feature_extraction.text import CountVectorizer

def count_demo():
data = ["life is short,i like like python", "life is too long,i dislike python"]
transfer  = CountVectorizer()
data_new = transfer.fit_transform(data)
print("data_new：\n",data_new.toarray())
print("特征名字：\n",transfer.get_feature_names())
return None

注意代码中的使用了

toarray()

，可以不加这个方法，再运行一下看看📑

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航