用gensim导入word2vec词向量bin文件,出现字符编码
2017-11-05 15:11
1561 查看
首先抛出我遇到的问题。
我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。
import gensim
# 导入模型
model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)
print (model['word'])
然后出现以下编码问题
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
查了一下,这是Stack Overflow上的答案
The strings (words) stored in your model are not valid utf8. By default, gensim decodes the words using the strict encoding settings, which
results in the above exception whenever an invalid utf8 sequence is encountered.
然后知道我测试的词在模型中不是utf-8形式的,于是我找了一个以前测试正确的模型,来重新测试,然后就没有出现编码问题。
这就确定了我的问题的原因是由于模型中的词不是utf-8形式的。
现在就去找导致这种结果的原因......
我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。
import gensim
# 导入模型
model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)
print (model['word'])
然后出现以下编码问题
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
查了一下,这是Stack Overflow上的答案
The strings (words) stored in your model are not valid utf8. By default, gensim decodes the words using the strict encoding settings, which
results in the above exception whenever an invalid utf8 sequence is encountered.
然后知道我测试的词在模型中不是utf-8形式的,于是我找了一个以前测试正确的模型,来重新测试,然后就没有出现编码问题。
这就确定了我的问题的原因是由于模型中的词不是utf-8形式的。
现在就去找导致这种结果的原因......
相关文章推荐
- gensim加载word2vec训练结果(bin文件)并进行相似度实验
- 【python gensim使用】word2vec词向量处理中文语料
- 运行wordcount 导入FileUtil.java文件出现错误解决办法
- Word2vec的bin文件的java处理
- python实现word2vec训练结果bin文件转txt文件
- 【python gensim使用】word2vec词向量处理中文语料
- word2vec中的bin文件转换为txt 文件
- 【python gensim使用】word2vec词向量处理英文语料
- 【python gensim使用】word2vec词向量处理英文语料
- VS2010bug 当生成或重新生成时,出现 不能复制文件(从obj\debug到bin\debug),文件正在被另一个进程使用的错误解决办法
- Devexpress RichEditControl 导入word文件后字体变为方正姚体的解决方案
- 把一个网页文件的内容导入到word里
- maven项目导入出现jar文件没有同步发布到自己项目的lib目录中
- word2vec词向量模型裁剪简单demo
- android导入项目出现src文件报错
- MySQL导入sql文件出现unknown command '\'
- Android新建项目,或者导入项目出现R文件丢失,解决方案
- python下word2vec词向量训练与加载方法
- 导入外部JS文件时出现乱码的解决办法
- 导入sql 文件 出现错误