您的位置:首页 > 编程语言

读书笔记-集体智慧编程

2018-03-04 16:57 162 查看
不定时更新 2018.3.26
一、推荐
相关性评价方法:
欧氏距离、皮尔逊评价
对于稀疏数据集,基于物品的过滤要优于基于用户的过滤
二、聚类
tanimoto系数可用来评价两组只包含0、1数据的距离,它代表交集和并集的比率
三、搜索与排名
爬取网页(urllib2)- 连接数据库(pysqlite2)- 建立索引数据表-网页源码分词 - 利用单词建立索引 - 利用单词频度、文档位置、单词距离进行排名
使用pagerank改善搜索结果
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: