您的位置:首页 > Web前端 > JavaScript

深入了解webkit内核第一篇:JavaScript引擎深度解析

2015-03-28 19:59 591 查看
现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。

1.  没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。

我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。

2.  没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类

3.  没有考虑分词,去除stop word

      比如一个tag是 A
touching
movie,分词后就是


touching
  movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把

A
touching
movie整体当作一个

4.  没有考虑词干提取

     单复数形式,同义词,进行时,过去时态等等

 

结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐