您的位置:首页 > 其它

学以致用——微博文章内容统计分析之一(Excel+GraphLab)

2017-07-26 23:58 309 查看
记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?

为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。

1. 使用微博的搜索功能,搜索出所有包含“形色”关键字的微博文章,得到“搜索结果”页。
2. 想通过Excel的数据导入功能直接从网站导入内容,出现Javascript错误,放弃。
3. 使用笨办法,将页面上的内容复制到剪贴板,然后,粘贴值到Excel。
4. 增加索引列(数字序号),通过排序,筛选出多余列并将其删除。
5. 灵活使用mod(), right(), left(), len(), mid(), find(), trim(), if(), text(), year(), month(), day(), minute(), hour()等函数,提取内容。
实例:
=IF(MOD(ROW(B2),2)=0,TRIM(LEFT(B2,FIND(" ",B2)-1)),"")

=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")

=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")

=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")

提取前的微博页面纯文本如下所示:

预见未来to50

7月25日 20:25 来自 小米手机5

形色识别此图为飞廉——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广

转发

评论

ñ赞
c
预见未来to50

7月25日 20:24 来自 小米手机5

形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广

转发

评论

ñ赞
c
预见未来to50

7月24日 20:52 来自 小米手机5

形色识别此图为紫薇——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广

转发

评论

ñ赞

c

提取后的结果如下:
Date,Time,Plant

2017/4/2,11:57,蔓长春花

2017/4/2,11:58,垂丝海棠

2017/4/2,17:04,球序卷耳

2017/4/3,13:17,红花酢浆草

2017/4/3,13:18,蝴蝶花

2017/4/3,18:36,角堇

2017/4/3,18:39,四季海棠

2017/4/3,18:41,三色堇

2017/4/3,18:41,三色堇

2017/4/3,18:43,紫罗兰

2017/4/3,18:44,金鱼草

2017/4/3,18:45,野罂粟

2017/4/3,18:46,金鱼草

2017/4/3,18:48,毛茛

2017/4/4,21:34,碧桃

2017/4/8,21:01,杜鹃花

2017/4/8,21:03,丁香花

2017/4/13,13:09,地钱

2017/4/13,13:12,宝盖草

2017/4/13,13:13,黄连木

2017/4/13,13:15,榉树

2017/4/14,13:02,紫荆

2017/4/16,11:40,石楠

2017/4/16,16:01,鸡爪槭

2017/4/16,16:02,红花檵木

2017/7/24,20:52,紫薇

2017/7/25,20:24,蜀葵

2017/7/25,20:25,飞廉

怎么样?非结构化的数据转换为结构化数据后,是不是看着舒服多了?
接下来,可以用GraphLab分析、展现数据了。



可见,4、5月真是赏花好时节啊!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐