您的位置:首页 > 理论基础 > 计算机网络

人群与网络:万维网结构、链接分析与网络搜索

2018-03-05 21:32 302 查看
前置:关于有向图强联通分量

万维网结构:领结图
对于一张有向图,求出对应领结图步骤如下:



①已知一个一定在scc中的点,如上图的点1
②求出从1出发能到达的所有点的集合FS = {1,3,4,5,8,9,10,13,14,15,16,18}
③求出反向图中,从1出发能到达的所有点的集合BS = {1,3,4,6,7,8,9,11,12,13,14,15,18}
④得出SCC = FS∩BS = {1,3,4,8,9,13,14,15,18};IN = BS-SCC = {6,7,11,12};OUT = FS-SCC = {5,10,16}
领结图如下:



网页的“中枢”与“权威”性:
被很多网页指向  →  权威性高,认可性强
指向很多网页  →  中枢性强
HITS算法:计算网页的权威值(auth)和中枢值(hub)
①对于一个有向图,初始化所有节点auth[] = hub[] = 1
②利用中枢值更新权威值  →  对于每一个节点p,auth[p] = 指向p的所有点hub[]值之和
③利用权威值更新中枢值  →  对于每一个节点p,hub[p] = p指向的所有点auth[]值之和
④重复步骤②③若干次,且步骤②③可以进行归一化:值/总和(归一化随迭代次数趋向一个极限)

PageRank基本算法:节点重要性测度
基本要领:每一个节点将自己的值均分给出向邻居



初始化a = b = c = d = 1,迭代70次之后收敛到a = 0.615,b = 0.923,c = d = 0.231(和不变)
①在一个由“引用”或者“推荐”关系构成的信息网络中,每个节点的重要性可以认为取决于有多少人推荐,以及推荐人的重要性。②这种重要性可以通过“PageRank算法”得到量化。③PageRank算法的基本精神是基于信息网络的结构,让每个节点不断把自己的重要性非给出向邻居,同时用从入向邻居收到的重要性之和来更新自己。④例如要测量社交网络中一个人的影响力和可信度,可以用PageRank算法来计算

PageRank算法缺陷与改进
如下图,迭代无数次后除了F和G为0.5外,其它点都为0



改进方法→①同比缩减:在每次运行基本Pagerank更新规则后,将每一节点的PR值都乘以一个小于1的比例因子s,0<s<1,经验值在0.8-0.9之间;②统一补偿:在每一节点的PR值上统一加上(1-s)/n,这样,既维持了所有PR值和为1的性质,也防止PR值过度集中到某个节点上

随机游走问题:一个人从一篇随机选择的网页开始,然后随机选择其中的一个链接浏览到下一篇网页,并不断的如此进行,称为“随机游走”,考虑任何一个网页X,问经过k步随机游走到X的概率是多少
可以证明:到达X的概率等于运行PageRank基本算法k步得到的值
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: