深入了解webkit内核第一篇:JavaScript引擎深度解析
2015-03-28 19:59
591 查看
现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。
1. 没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。
我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。
2. 没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类
3. 没有考虑分词,去除stop word
比如一个tag是 A
touching
movie,分词后就是
A
touching
movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把
A
touching
movie整体当作一个
4. 没有考虑词干提取
单复数形式,同义词,进行时,过去时态等等
结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。
1. 没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。
我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。
2. 没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类
3. 没有考虑分词,去除stop word
比如一个tag是 A
touching
movie,分词后就是
A
touching
movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把
A
touching
movie整体当作一个
4. 没有考虑词干提取
单复数形式,同义词,进行时,过去时态等等
结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。
相关文章推荐
- 深入了解webkit内核第一篇:JavaScript引擎深度解析
- 深入了解webkit内核第一篇:JavaScript引擎深度解析
- 深入了解webkit内核第一篇:JavaScript引擎深度解析
- 深入理解webkit内核系列第二篇:JavaScript引擎深度解析
- [WebKit内核] JavaScript引擎深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- [WebKit内核]JavaScriptCore深度解析-基础篇(一)字节码生成及语法树构建详情分析
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- [WebKit内核] JavaScriptCore深度解析--基础篇(一)字节码生成及语法树的构建详情分析
- MySQL存储引擎之Spider内核深度解析
- MySQL存储引擎之Spider内核深度解析
- MySQL存储引擎之Spider内核深度解析
- 深入理解webkit内核系列第一篇:如何快速编译
- MySQL存储引擎之Spider内核深度解析
- MySQL存储引擎之Spider内核深度解析
- 深入解析JavaScript一:你真的了解作用域?
- 我们应该如何去了解JavaScript引擎的工作原理