您的位置:首页 > 其它

微博社交圈子的评价

2012-02-29 16:21 176 查看
这几天不断尝试社交圈子挖掘的算法,不断改进算法,产生了很多的结果。对于我自己的圈子,我人工评价即可知道效果如何,但是如果测试其他人的数据,总是请同学帮忙验证,有些过于麻烦,而且,这样的人工评价,不利于比较。所以,我需要一个相对准确的方法来评价我挖掘出的圈子的效果如何。 我经常听有人说圈子的“准确率”,“召回率”如何如何。但是,我觉得这个也不是很直观,因为这个需要标注数据,来进行测评。那我们能否从网络拓扑结构本身入手,进行判断呢?当然可以,就是:quality function。 这个思路很早就提出来了。要分析这个思路,还要先说说社团结构的定义。对于社团结构,一直没有很好的定义,尤其是量化的定义。比较常见的说法儿就是社区内部的连接密度比较大,社区之间的连接密度比较小。很形象,但不够精确。这个思路在评价社团结构中很有用。即,社团内部的连接密度会非常大,社团内部的连边占总边数的比例,要远远大于一个随机产生的网络连边占总边数的比例。 对于上面最后一句话的理解,就是将复杂网络和随机网络进行比较,边多得越多,社团就越好。如果了解网络科学的一些历史,可以更好的理解这个。所谓“随机网络”在这里是指,网络中节点发出的边都是随机的。如果复杂网络中的一个节点A的度为n,另一个点是B,度为m,总边数为N。如果是随机连接,A和B之间有边的概率为nm/2N。这只是一种方法。



上面就是quality function的公式,m是网络中总边数,A是连接矩阵,有边为1,无边为0。P就表示一个基准,可以是随机网络生成i到j这条边的概率。最后是i和j如果在一个社团中为1,否则为0。 在实践的过程中,我发现,quality function在评价没有重叠的社团结构的时候,效果较好。这也符合一些科研人员的结论。同时要注意Q的值可以是负的。 那么如何处理有重叠的圈子的评价呢?在有重叠的圈子中也符合上面的特点,不通的在哪里?就是社团之间重复的点,针对这个,@沈华伟_ICT在论文中提出一个公式,对于重复处在再多个社团中点给与了惩罚,出现的越多,效果就越不好。也符合实际情况,公式如下:



公式基本一样,就是多了O的考虑,O是指某一个节点出现在多少个社团中。 上面尝试分析了评价社团划分好坏的一个思路,希望能给同学们帮助。我自己很少写这种偏理论的东西,希望和大家一起讨论。除了上面的两种,还有很多其他的思路,都是在quality function基础之上进行改进,针对社团结构的特点,加入特定的评价因素。 总结一下,quality function应该具备的特点:

能够体现社团结构内部比社团结构之间的连接数量大

能够体现社团结构内部比随机网络中的连接数量大

能够处理重叠节点的情况

评价方法也要和圈子的类型相符,至于圈子的类型,会在后面的文章分析

能够单独评价某一个圈子的好坏

目前就想到这么多,比较naive,欢迎大家讨论。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: