您的位置：首页 > 其它

微博社交圈子的评价

2012-02-29 16:21 176 查看

这几天不断尝试社交圈子挖掘的算法，不断改进算法，产生了很多的结果。对于我自己的圈子，我人工评价即可知道效果如何，但是如果测试其他人的数据，总是请同学帮忙验证，有些过于麻烦，而且，这样的人工评价，不利于比较。所以，我需要一个相对准确的方法来评价我挖掘出的圈子的效果如何。我经常听有人说圈子的“准确率”，“召回率”如何如何。但是，我觉得这个也不是很直观，因为这个需要标注数据，来进行测评。那我们能否从网络拓扑结构本身入手，进行判断呢？当然可以，就是：quality function。这个思路很早就提出来了。要分析这个思路，还要先说说社团结构的定义。对于社团结构，一直没有很好的定义，尤其是量化的定义。比较常见的说法儿就是社区内部的连接密度比较大，社区之间的连接密度比较小。很形象，但不够精确。这个思路在评价社团结构中很有用。即，社团内部的连接密度会非常大，社团内部的连边占总边数的比例，要远远大于一个随机产生的网络连边占总边数的比例。对于上面最后一句话的理解，就是将复杂网络和随机网络进行比较，边多得越多，社团就越好。如果了解网络科学的一些历史，可以更好的理解这个。所谓“随机网络”在这里是指，网络中节点发出的边都是随机的。如果复杂网络中的一个节点A的度为n，另一个点是B，度为m，总边数为N。如果是随机连接，A和B之间有边的概率为nm/2N。这只是一种方法。

上面就是quality function的公式，m是网络中总边数，A是连接矩阵，有边为1,无边为0。P就表示一个基准，可以是随机网络生成i到j这条边的概率。最后是i和j如果在一个社团中为1,否则为0。在实践的过程中，我发现，quality function在评价没有重叠的社团结构的时候，效果较好。这也符合一些科研人员的结论。同时要注意Q的值可以是负的。那么如何处理有重叠的圈子的评价呢？在有重叠的圈子中也符合上面的特点，不通的在哪里？就是社团之间重复的点，针对这个，@沈华伟_ICT在论文中提出一个公式，对于重复处在再多个社团中点给与了惩罚，出现的越多，效果就越不好。也符合实际情况，公式如下：

公式基本一样，就是多了O的考虑，O是指某一个节点出现在多少个社团中。上面尝试分析了评价社团划分好坏的一个思路，希望能给同学们帮助。我自己很少写这种偏理论的东西，希望和大家一起讨论。除了上面的两种，还有很多其他的思路，都是在quality function基础之上进行改进，针对社团结构的特点，加入特定的评价因素。总结一下，quality function应该具备的特点：

能够体现社团结构内部比社团结构之间的连接数量大

能够体现社团结构内部比随机网络中的连接数量大

能够处理重叠节点的情况

评价方法也要和圈子的类型相符，至于圈子的类型，会在后面的文章分析

能够单独评价某一个圈子的好坏

目前就想到这么多，比较naive，欢迎大家讨论。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航