利用sklearn进行字典&文本的特征提取
2021-01-22 23:21
387 查看
写在前面
这篇博客主要内容:
- 应用DictVectorizer实现对类别特征进行数值化、离散化
- 应用CountVectorizer实现对文本特征进行数值化
特征提取API
sklearn.feature_extraction
字典特征提取
作用:对字典数据进行特征值化
- sklearn.feature_extraction.DictVectorizer(sparse=True,…) DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值:返回sparse矩阵
- DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格式
- DictVectorizer.get_feature_names() 返回类别名称
# 数据 [{'city': '北京','temperature':100} {'city': '上海','temperature':60} {'city': '深圳','temperature':30}]
# 代码 from sklearn.feature_extraction import DictVectorizer def dict_demo(): data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}] # 1、实例化一个转换器类 transfer = DictVectorizer(sparse=False) # 2、调用fit_transform data_new = transfer.fit_transform(data) print("data_new:\n",data_new) # 打印特征名字 print("特征名字:\n",transfer.get_feature_names()) return None
注意
DictVectorizer默认是true,输出为稀疏矩阵,false输出为普通矩阵
文本特征提取
作用:对文本数据进行特征值化
-
sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
返回词频矩阵
CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象 返回值:返回sparse矩阵
CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格
CountVectorizer.get_feature_names() 返回值:单词列表
sklearn.feature_extraction.text.TfidfVectorizer
# 数据 ["life is short,i like python", "life is too long,i dislike python"]
# 代码 from sklearn.feature_extraction.text import CountVectorizer def count_demo(): data = ["life is short,i like like python", "life is too long,i dislike python"] transfer = CountVectorizer() data_new = transfer.fit_transform(data) print("data_new:\n",data_new.toarray()) print("特征名字:\n",transfer.get_feature_names()) return None
注意代码中的使用了
toarray(),可以不加这个方法,再运行一下看看📑
相关文章推荐
- Feature extraction - sklearn文本特征提取
- sklearn文本特征提取
- 利用jQuery提取和修改文本内容进而对文本内容进行对调
- 基于sklearn的文本特征提取与分类
- 利用TF-IDF进行文本向量特征的处理
- 使用sklearn做文本特征提取
- 利用jieba库进行中文文本分析词频统计 并存储到字典里
- 利用ANSJ进行文本关键词提取
- python利用小波分析进行特征提取
- 利用Hu不变矩进行特征提取
- 基于sklearn的文本特征提取与分类
- Feature extraction - sklearn文本特征提取
- sklearn文本特征提取CountVectorizer 和 TfidfVectorizer
- 利用Hu不变矩进行特征提取
- 利用python的sklearn开源包进行文本挖掘
- 机器学习1-sklearn&字典特征抽取
- sklearn文本特征提取
- 利用K-L变换进行特征提取
- python利用小波分析进行特征提取的实例
- 使用python进行文本预处理和提取特征的实例