您的位置:首页 > 其它

统计开源中国女性用户数据 - 网红篇

2016-05-15 00:00 816 查看
摘要: 开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。

开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。

遇到 bug





开场前,先暖暖场 开源中国女性用户 Top20

数据有可能不是完整的,大家开心就好

进入正题,如果获得开源中国的女性会员数据?

https://zb.oschina.net/developer/




从这个数据上来看,个人感觉数据应该不是完整的。数据里面没有发现小小编辑的信息。
简单的计算下 : 4600 ÷ 2800000 * 100% = 0.16%

通过众包的数据希望不是全的,不然的中国(同xing恋jiao友)社区 ...

获取分页数据

wget https://zb.oschina.net/developer/?_c=all&_r=0&_w_y=-1&_d_w=-1&_is_r=0&_is_w_o=0&_s_n=-1&rf=0&rg=1&key=&p=1

使用 wget 试了下,并没有出现什么 403,于是那么就用 wget 爬取了这400多页的数据。接下来干的事情就比较的简单了。

解析分页数据

Jsoup
果然是个神器,这里强烈推荐一个FireFox的插件
FirePath
这个工具可以帮你快速定位你的 css 路径,然后就不用自己一级一级的找了,同时还支持
XPath
方式。



当然光有这个页面是不行的,还需要通过一个 Id 去访问这个人的个人主页,才能得到更多的数据。

数据存放 Json->Mongo

解析数据这些都是代码都比较的容易。关键在于这里如何存放这些数据,方便查找。
不知道什么时候开始自己开始将一些数据存为文本或则是 json 文件的方式
有了这个Json数据后,第一想到的使用Mongo进行存放,对于层级关系数据的查找排序很方便。,又一次体会到 Mongo 中编写JavaSrcipt 带来的便利了。完全不用什么模板语言麻。
于是就在数据库层面完成了这个网页的数据拼接

@芳仔小脚丫 可真厉害呀。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  网红