学以致用——微博文章内容统计分析之一(Excel+GraphLab)
2017-07-26 23:58
309 查看
记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?
为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。
1. 使用微博的搜索功能,搜索出所有包含“形色”关键字的微博文章,得到“搜索结果”页。
2. 想通过Excel的数据导入功能直接从网站导入内容,出现Javascript错误,放弃。
3. 使用笨办法,将页面上的内容复制到剪贴板,然后,粘贴值到Excel。
4. 增加索引列(数字序号),通过排序,筛选出多余列并将其删除。
5. 灵活使用mod(), right(), left(), len(), mid(), find(), trim(), if(), text(), year(), month(), day(), minute(), hour()等函数,提取内容。
实例:
=IF(MOD(ROW(B2),2)=0,TRIM(LEFT(B2,FIND(" ",B2)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")
提取前的微博页面纯文本如下所示:
预见未来to50
7月25日 20:25 来自 小米手机5
形色识别此图为飞廉——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
预见未来to50
7月25日 20:24 来自 小米手机5
形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
预见未来to50
7月24日 20:52 来自 小米手机5
形色识别此图为紫薇——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
提取后的结果如下:
Date,Time,Plant
2017/4/2,11:57,蔓长春花
2017/4/2,11:58,垂丝海棠
2017/4/2,17:04,球序卷耳
2017/4/3,13:17,红花酢浆草
2017/4/3,13:18,蝴蝶花
2017/4/3,18:36,角堇
2017/4/3,18:39,四季海棠
2017/4/3,18:41,三色堇
2017/4/3,18:41,三色堇
2017/4/3,18:43,紫罗兰
2017/4/3,18:44,金鱼草
2017/4/3,18:45,野罂粟
2017/4/3,18:46,金鱼草
2017/4/3,18:48,毛茛
2017/4/4,21:34,碧桃
2017/4/8,21:01,杜鹃花
2017/4/8,21:03,丁香花
2017/4/13,13:09,地钱
2017/4/13,13:12,宝盖草
2017/4/13,13:13,黄连木
2017/4/13,13:15,榉树
2017/4/14,13:02,紫荆
2017/4/16,11:40,石楠
2017/4/16,16:01,鸡爪槭
2017/4/16,16:02,红花檵木
2017/7/24,20:52,紫薇
2017/7/25,20:24,蜀葵
2017/7/25,20:25,飞廉
怎么样?非结构化的数据转换为结构化数据后,是不是看着舒服多了?
接下来,可以用GraphLab分析、展现数据了。
可见,4、5月真是赏花好时节啊!
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?
为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。
1. 使用微博的搜索功能,搜索出所有包含“形色”关键字的微博文章,得到“搜索结果”页。
2. 想通过Excel的数据导入功能直接从网站导入内容,出现Javascript错误,放弃。
3. 使用笨办法,将页面上的内容复制到剪贴板,然后,粘贴值到Excel。
4. 增加索引列(数字序号),通过排序,筛选出多余列并将其删除。
5. 灵活使用mod(), right(), left(), len(), mid(), find(), trim(), if(), text(), year(), month(), day(), minute(), hour()等函数,提取内容。
实例:
=IF(MOD(ROW(B2),2)=0,TRIM(LEFT(B2,FIND(" ",B2)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")
提取前的微博页面纯文本如下所示:
预见未来to50
7月25日 20:25 来自 小米手机5
形色识别此图为飞廉——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
预见未来to50
7月25日 20:24 来自 小米手机5
形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
预见未来to50
7月24日 20:52 来自 小米手机5
形色识别此图为紫薇——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
提取后的结果如下:
Date,Time,Plant
2017/4/2,11:57,蔓长春花
2017/4/2,11:58,垂丝海棠
2017/4/2,17:04,球序卷耳
2017/4/3,13:17,红花酢浆草
2017/4/3,13:18,蝴蝶花
2017/4/3,18:36,角堇
2017/4/3,18:39,四季海棠
2017/4/3,18:41,三色堇
2017/4/3,18:41,三色堇
2017/4/3,18:43,紫罗兰
2017/4/3,18:44,金鱼草
2017/4/3,18:45,野罂粟
2017/4/3,18:46,金鱼草
2017/4/3,18:48,毛茛
2017/4/4,21:34,碧桃
2017/4/8,21:01,杜鹃花
2017/4/8,21:03,丁香花
2017/4/13,13:09,地钱
2017/4/13,13:12,宝盖草
2017/4/13,13:13,黄连木
2017/4/13,13:15,榉树
2017/4/14,13:02,紫荆
2017/4/16,11:40,石楠
2017/4/16,16:01,鸡爪槭
2017/4/16,16:02,红花檵木
2017/7/24,20:52,紫薇
2017/7/25,20:24,蜀葵
2017/7/25,20:25,飞廉
怎么样?非结构化的数据转换为结构化数据后,是不是看着舒服多了?
接下来,可以用GraphLab分析、展现数据了。
可见,4、5月真是赏花好时节啊!
相关文章推荐
- 学以致用——微博文章内容统计分析之二——我的电影(Excel+Spotfire)
- 学以致用——初次使用GraphLab Create分析数据
- Rweibo-用R语言分析微博内容
- Excel在统计分析中的应用—第十二章—回归分析与预测-指数回归与预测
- python爬虫爬取指定用户微博图片及内容,并进行微博分类及使用习惯分析,生成可视化图表
- 统计海量文章内容中出现次数前K大的单词并输出(完整实现)
- Excel在统计分析中的应用—第二章—描述性统计-分组数据的方差求解方法
- Excel在统计分析中的应用—第五章—统计指数-Part8-平均指数(几何平均指数)
- Excel在统计分析中的应用—第十二章—回归分析与预测-一元线性回归分析与预测
- Excel在统计分析中的应用—第八章—假设检验-总体比例之差假设检验
- Excel在统计分析中的应用—第六章—抽样分布-小样本的抽样分布(F分布)
- 基于lucene的微博内容检索及观点分析
- Excel在统计分析中的应用—第九章—非参数检验-Kruskal-Wallis H检验
- Excel在统计分析中的应用—第二章—描述性统计-求分组数据的众数
- SpannableString两种匹配方法分析(第一种为模仿微博内容匹配)
- 学以致用-使用分类汇总分析股价与时间维度(年、月、日、星期)的关系(Excel+Spotfire)
- 创新工场 蔡学镛SINA微博中向我们提及的书籍、文章统计 (三) 持续更新
- Excel在统计分析中的应用—第十一章—相关分析-简单线性相关-散点图法
- Excel在统计分析中的应用—第八章—假设检验-单个正态总体方差的假设检验
- Excel在统计分析中的应用—第十二章—回归分析与预测-一元线性预测