您的位置：首页 > 其它

ITTC数据挖掘平台介绍(三) 微博社团和传播分析

2013-04-23 11:54 423 查看

微博社团分析和传播分析是一种重要的微博研究手段，对社会关系和传播学研究都有重要的意义。

零. 最新进展

距离上次的发文已经有几个月之久，一方面，软件通过抽象了微博接口，提供了对新浪，腾讯，网易微博的直接支持，算法只需对接口层进行开发，而不需考虑实际面向何种微博。另一方面，软件和Hadoop的互操作功能大大增强，通过WEBService实现互操作，同时实现了GPU的CUDA框架的互操作功能。目前正在开发基于MongoDB的图数据库接口层，顺便吐槽一下，Neo4j又慢又臭。

一. 微博用户社团分析

用户社团关系分析是一种重要的社会群体研究手段，它展现了不同用户间的关系，并通过智能算法，对用户进行分组，并找出核心用户节点。软件内置了该功能。通过不同的评级算法，通过聚类和布点可视化呈现，在画布中绘制用户关系网络。

目前，关系分析类型分为两类：

按照用户真实关系分组，通过分析用户的好友数量，地理位置和一些其他信息，可展现真实社交网络的布局特点

按照用户兴趣和标签分组：通过分析用户有代表性的微博，对其进行自然语言处理和文本特征提取后，确定该用户的主要兴趣点，并添加标签。

1. 按照用户关系分组

下面，我们以姚晨为例，按照用户真实关系分组的方案，对其600多位好友做社群关系分析，整个计算过程需要约一分钟，结果如图所示：

通常而言，名人很少添加陌生人节点，因此在社群图上体现出极少的孤立节点。两个大的社群（100多位用户），其中左边的放大图如下：

该社群主要以关注媒体的用户为主，例如罗永浩，南方都市报和新京报等。

再看一个小类：该类仅有六个用户，但清晰的表明了姚晨的一个爱好，书画鉴赏和一些好玩的东西，风之子，庄无邪等都是与书画艺术有一定关系的。

还有一些小类，例如下图所示，和上图类似，介绍从略。

2. 按照兴趣分组

按照兴趣分组时，将不考虑实际用户的关系，仅通过微博内容作自然语言处理分析得出结论。下面介绍一个典型案例：著名天使投资人，关注SNS数据挖掘创业的王煜全：

对该图进行放大，以其中的一个社群为例，如下图所示，可明显发现，这些用户都普遍关注科技和互联网创业等内容。将鼠标放在用户的节点上，可查看该用户的标签。

由于用户的话题千差万别，微博内容极其多变，对兴趣进行聚类绘图后，很难利用机器为不同社群的特性打标签，例如分析某社群都喜欢科技或娱乐等。这是一个难点，我们也在努力解决这个问题。

同时，画布支持对整个图形结构进行存储和读取，可以分别存储为压缩图形格式，和非压缩的JSON图形格式，方便随时加载。同时可对任意区间截图，利用画笔做标记（使用WPF的inkcanvas）等其他功能。

二 . 微博用户社团分析

在微博营销过程中，客户将特别关心微博的传播能力，即，对用户群造成了多大的影响，哪些节点是核心传播节点，是否有水军等。本软件同样内置了该功能，可方便快速的展现微博传播特性，并通过动态布点，生动的展现微博传播网络的生成过程。

我们以潘石屹的其中一条微博为例，展示分析过程。

选取该用户的一条微博，如下图所示。该微博的内容是：“一句话不会讲，将来中国做支教老师了，勇敢啊@美丽中国”。

在菜单栏中选取微博传播网络功能：系统便会自动调用不同算法模块完成分析功能。

一方面，系统将会自动生成微博分析报告，包括所有转发用户的性别，地理位置，身份级别的统计等。同时，系统还会生成微博转发顺序的时间线，通过该功能可容易的看到在哪些时段转发过程出现高潮。如下图所示：

时间控件可以进行放缩控制，经过放大后，可以清楚的看到，在2013年四月18日上午9点59分出现转发高峰，一分钟内转发32次，后期逐渐减慢。

该传播中，男性比女性比例明显偏大。而传播层级统计上，第四次转发数量异常的高，这种情况通常是由于有强转发节点帮助了信息的传播，这些信息可在后面的传播路径图中清楚的看到。在地理位置上，北京，上海和广州的转发数量最高，由于该信息不带地理倾向，因此和各地经济发展水平是一致的。

另一方面，系统可动态的展示整个网络的生成过程。全图如下图所示，不同颜色点代表不同层级的转发。淡橙色为第一层转发，橙色为第二层，依次是深绿色和浅绿色。

最下的节点，是潘石屹本人的微博，在其上越有300多人进行了第一次转发，少量人做了二次转发和三次转发。张欣做了重要的二次转发，美丽中国是一个重要的三次转发节点（转发自张欣，但美丽中国传播能力明显不足），任志强在转发张欣的微博后，又称为一个重要的传播节点，在该人之上，又做了四次，五次和更多次转发。

动态呈现功能，展示了整个网络的生成过程。各节点从其转发位置，动态的移动到所在位置，形成布点过程，这个过程可以通过进度条展示，并可控制速度和实现暂停功能。可随时将不同时间点的图结构保存到硬盘中，方便分析。

下图展示了在当日10点18分的网络结构，张欣等重要节点还未做转发。

将鼠标放在不同的节点上，可以看到该用户所述内容（美丽中国节点）

同样，系统可将所有转发的用户进行关系计算，呈现不同用户所在的用户区间，方便进行传播分析。该部分已经在上一节介绍过，恕不重复。

三. 舆情分析（正在开发中）

我们在实践过程中，掌握了大量的新闻媒体报刊，以及微博数据，通过对这些数据做搜索和文本处理，可实现舆情分析功能。

舆情分析功能通过时间曲线展示新闻报刊和微博两种媒体，对不同话题的专注情况，并给出不同时间点的标签。当发生类似事件时，软件可通过智能分析对未来走向进行预测，目前软件内置了一个较为简单的“贪污模型”。通过对多例事件的报刊和微博数据的交互和时间轴信息进行训练，当有类似事件出现，系统可对其事态发展做一定估计。

上图是著名的贪腐事件，杨达才（微笑局长）。该人在8月25日曝光在事故现场微笑，并佩戴名表，在微博上迅速出现一个峰值。该人向公众解释是儿子的表之后，事件回落，在两天之后曝光量迅速减少。传统媒体（尤其是各地小报）都有所跟进，但由于该事件较小，并没有在传统媒体上形成较大影响。

之后，在9月1日，网络曝光其拥有多块名表，于是形成了新的高峰，但高度明显不及第一次高峰。在这次高峰之后，传统媒体也迅速跟进，大量文章出现，长达四个礼拜之久。由于周日是报社休息，因此周天出现了明显低谷。

第三次高潮是杨达才撤职，微博形成了新的高峰，位于九月底，各大媒体也迅速报道。

该事件在10月份后基本平息。

这个典型事件反映了微博和报刊数据的真实特点。一方面，微博具备强烈的快速特征，来得快去得快，一件事情的热度一般不超过三天。但传统报刊则明显比微博滞后，但体现了鲜明的政府意志，因此更能影响微博和事件走向，两者相互影响和制约，共同带动了事件的发展。

四 . 总结

说些没用的，这套平台使用.NET作为开发平台，而数据挖掘真正根正苗红的语言是JAVA和Python等，少见.NET。最近很关心研究生实习招聘，我愣是没看到一个C#的字眼，连微软的招聘信息都没看到，真是情何以堪。用.NET开发，有可视化的强大优势和互操作特性，丧失了跨平台和分布式特性。可惜现在，做数据挖掘的，若不说分布式，并行处理这些词，感觉就像从山里出来的一样，哈哈。

附件是姚晨同学微博的关系网络，用的是JSON输出，分别包含Nodes和Paths两个部分，有经验的同学一看就懂，解析起来很方便。下载地址。

有任何问题，欢迎讨论。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航