您的位置:首页 > 其它

李开复微博数据分析--微博爬虫、数据挖掘、数据可视化(持续更新)

2016-07-19 18:29 357 查看
          由于不想做测试,内心一直想做数据挖掘/数据分析,果断辞职重新找了,这是第一篇自己出的分析报告,可能还不够专业,以后会继续进步哒,希望小伙伴们多多指导~通过对李开复微博的分析,发现了一些有趣的结论,一一叙来~

1、数据采集

       首先是爬取了李开复老师的微博,从2016-07-18 21:06:00到2009-08-27 15:11:32,总计12484条微博。

        爬虫采用Java语言实现(回头传代码到github上),数据库采用mysql,可视化工具为tableau。分词部分用Java实现的,不过想实践一下python,所以后边准备用python的jieba和wordcloud。

2、数据分析

       本文的分析主要包括以下几个部分:

2.1 原创和转发的微博数量

        大家觉得李开复作为微博知名大V,应该原创更多吧,哈哈,实际上转发的微博比原创略多一些,转发数目是6549,原创为5935,其实也算基本持平啦。



图1 原创数与转发数之比
既然李开复有一半以上的微博都是转发的,那谁的微博最经常被李开复转发呢?以及哪些话题更容易被转发呢(待补充)

在接下来我们看一下李开复在什么时候更爱原创?什么时候更爱转发?



图2 每月转发与原创数量
        从图2中,我们先不考虑折线在2013年陡降的问题,只看转发与原创的走势,可以看出来在微博刚开始原创数目是明显多于转发(一方面也可能是因为当时微博不活跃,没有多少有趣的消息值得转发?),在2013年的时候,转发数目明显大于原创,再到陡坡之后,基本持平。

2.2 每月和每日发布的微博数量

        下边我们分别给出了每月和每天的微博数量,可以看出来在2009年到2013年年中,李老师发微博的数量总体上是一个上升的趋势,其中在2011年1月12号一天就发布了66条微博!从图4中还可以看出从2013年的9月初开始微博数量开始骤减,这个时间对李老师来说一定是发生了大事儿,结合实际,我们根据图表可以推断出李老师公布患癌时间就在这个时间段。(祝李开复老师身体健康~),但是这里有一个问题,但从每日微博量我们并不能判断出究竟是九月初的哪天?接下来我们结合点赞评论和转发量再进一步分析~



图3 每月微博数量



图4 每日微博数量

2.3 赞数、评论数、转发数分析

        上边我们通过图表得出了李老师在公布患癌时间是九月初,下图中统计了每天所发微博获得的赞数评论数转发数之和,可以清楚的看到在2013年的9月6日达到一个最大值,这里可以初步推断公布患癌时间在9月6日附近,但是是否准确呢?毕竟9月5日的数据也不容小觑。



图5  每日获得的赞数评论数转发数之和

由于每天可能发了不止一条微博,我们接下来统计每天所获得的赞数转发数评论数总和平均给每条微博之后的情况,这里就可以看出,虽然9月6号的值很高,但是最高的反倒是9月5号,说明6号发了不止一条微博,但是得到的数据都很大,这里我们可以肯定的得出结论,李老师在2013年9月5日公布了病情,并可以推断出在9月6日关于病情的事情继续在发酵。



图6 每天中平均每条微博获得的赞数评论数转发数之和

我们可以通过当天的微博内容来验证我们的结论:

待截图补充------------------------------

        上边我们通过几个统计确定了李开复老师公布患癌时间,但是图5中另外两个峰值引起了我的注意,然后我分别统计了每天获得的赞数、评论数、转发数,得到下边的统计结构,三个小图分别是每天获得的赞数评论数转发数,可以清楚的看出,在2013年2月10日评论数达到了50w!!!,但是当天的赞数和评论数却都不多,我们可以充分的相信当天肯定是发生了什么事儿只跟评论有关,诱发大家评论!然后我们在转发数的统计图中看出在2011年10月6日达到了一个高峰,转发量有15W,而这个数据我们也可以相信当天的微博内容肯定跟转发有关。这两个数据对应了图5中的另外两个小高峰,我们通过当天的微博内容来验证一下我们的结论,微博内容截图如下所示:

待截图补充------------------------------



        但是上图中又有一个现象引起了我的注意,我们都知道,大家是比较喜欢点赞的,比如空间朋友圈等等有很多点赞狂魔,而且点赞的时间精力成本比较小,但是我们从上图对赞数的统计中却发现,在2013年之前,赞数几乎为0,这是一个很反常的现象!接下来我统计了每天获得的赞数与(赞数+评论数+转发数)之比,也就是每天获得的关注中赞数所占的比例,可以看出在2012年下半年的一个时间达到了一个小高潮,然后从2013年开始大体上成为一个增长的趋势。



         上图我们看到了赞数呈增长的趋势,这个我们很容易理解,但是从13才开始,这是一个很奇怪的现象,为此我单独统计了2012年7月到2013年10月大约一年时间中每天获得赞数,如下图所示,从图中我们看出在12年年底到12年年初赞数曲线开始波动,对于13年还没开通微博的我来说,只能大胆的得出一个结论,微博在最开始并没有开通点赞功能!开通时间应该是13年年初!并且这个功能逐渐得到大家的喜爱,使用率越来越高!(这个需要进一步查资料来验证结论)。



2.3 每天当中的活跃时间
        上图我们看到了赞数呈增长的趋势,这个我们很容易理解,但是从13才开始,这是一个很奇怪的现象,为此我单独统计了2012年7月到2013年10月大约一年时间中每天获得赞数,如下图所示,从图中我们看出在12年年底到12年年初赞数曲线开始波动,对于13年还没开通微博的我来说,只能大胆的得出一个结论,微博在最开始并没有开通点赞功能!开通时间应该是13年年初!并且这个功能逐渐得到大家的喜爱,使用率越来越高!(这个需要进一步查资料来验证结论)。



        2.5 每年的微博关键词,并分析关键词的变化。

2.6 癌症前后关注内容的变化。

2.7 词云,为每年的李开复老师画像。

3、总结和展望
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息