统计开源中国女性用户数据 - 网红篇
2016-05-15 00:00
816 查看
摘要: 开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。
开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。
遇到 bug
进入正题,如果获得开源中国的女性会员数据?
从这个数据上来看,个人感觉数据应该不是完整的。数据里面没有发现小小编辑的信息。
简单的计算下 : 4600 ÷ 2800000 * 100% = 0.16%
通过众包的数据希望不是全的,不然的中国(同xing恋jiao友)社区 ...
使用 wget 试了下,并没有出现什么 403,于是那么就用 wget 爬取了这400多页的数据。接下来干的事情就比较的简单了。
果然是个神器,这里强烈推荐一个FireFox的插件
当然光有这个页面是不行的,还需要通过一个 Id 去访问这个人的个人主页,才能得到更多的数据。
不知道什么时候开始自己开始将一些数据存为文本或则是 json 文件的方式
有了这个Json数据后,第一想到的使用Mongo进行存放,对于层级关系数据的查找排序很方便。,又一次体会到 Mongo 中编写JavaSrcipt 带来的便利了。完全不用什么模板语言麻。
于是就在数据库层面完成了这个网页的数据拼接
@芳仔小脚丫 可真厉害呀。
开源中国作为中国最大的开源技术(同xing恋jiao友)社区,由于行业的本身特点,导致女生异常的受关注。
遇到 bug
开场前,先暖暖场 开源中国女性用户 Top20
数据有可能不是完整的,大家开心就好进入正题,如果获得开源中国的女性会员数据?
https://zb.oschina.net/developer/
从这个数据上来看,个人感觉数据应该不是完整的。数据里面没有发现小小编辑的信息。
简单的计算下 : 4600 ÷ 2800000 * 100% = 0.16%
通过众包的数据希望不是全的,不然的中国(同xing恋jiao友)社区 ...
获取分页数据
wget https://zb.oschina.net/developer/?_c=all&_r=0&_w_y=-1&_d_w=-1&_is_r=0&_is_w_o=0&_s_n=-1&rf=0&rg=1&key=&p=1
使用 wget 试了下,并没有出现什么 403,于是那么就用 wget 爬取了这400多页的数据。接下来干的事情就比较的简单了。
解析分页数据
Jsoup果然是个神器,这里强烈推荐一个FireFox的插件
FirePath这个工具可以帮你快速定位你的 css 路径,然后就不用自己一级一级的找了,同时还支持
XPath方式。
当然光有这个页面是不行的,还需要通过一个 Id 去访问这个人的个人主页,才能得到更多的数据。
数据存放 Json->Mongo
解析数据这些都是代码都比较的容易。关键在于这里如何存放这些数据,方便查找。不知道什么时候开始自己开始将一些数据存为文本或则是 json 文件的方式
有了这个Json数据后,第一想到的使用Mongo进行存放,对于层级关系数据的查找排序很方便。,又一次体会到 Mongo 中编写JavaSrcipt 带来的便利了。完全不用什么模板语言麻。
于是就在数据库层面完成了这个网页的数据拼接
@芳仔小脚丫 可真厉害呀。
相关文章推荐
- 突击部队拼多多
- 罗振宇:网红是长不了的,我们要一次性的把未来收割掉,落袋为安
- 才华与美貌迎头撞上短视频风口,现象级网红 “papi 酱” 真的把
- 视频上的男神女神如何走红?让他们亲自告诉你
- 想在 2016 年当网红,你得先成为一条狗
- 新一代网红papi酱,融资之后将会如何变现?
- 网红运营上岗手册:来看看网红炒作背后的真相、猫腻和规律
- 单纯网红的生命周期只有2年!审美疲劳?本文教你3招“刺激粉丝”的方法
- 揭秘网红背后:赚钱赚得让人害怕!
- 网红兴起,门槛变得越来越高
- ZEALER不止是测评媒体,王自如也不仅仅是科技IP
- 网红如何才能不过气?
- 内容创业能火多久?现在进场晚了吗?关于IP,投资人们认为能做的事还很多