Follow me!百万奖金由你拿 | 学霸去哪了(二)
2017-01-24 10:32
183 查看
在上一篇中我们跟随大神的脚步,探讨了学生的消费数据,消费数据对本次竞赛预测来讲很重要。本篇将探索寝室门禁、图书借阅、图书馆门禁和学生成绩等一些和学生学习相关的数据,来看看学生的品行如何,虽然资助金和奖学金的性质不太一样,但我们毕竟还是想资助那些品学兼优的学生,而不是资助虽然家境很贫寒但不学无术的学生。
所以本篇探索的数据可以比较好的反应出这些情况。当然这里面还隐藏了更好玩的话题,学霸去哪了?话不多说,let's go!
一、数据介绍
OpenFEA已经将上述数据存放到了OpenFEA在线试用环境的match/fund目录下,具体在www.openfea.cn下载专区里有介绍。
二、数据探索
(一) 寝室门禁数据分析
1、 加载寝室门禁数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
加载寝室门禁数据
2、 修改字段名
分别用id、time、isout表示学生编号、进出寝室时间、进出寝室。
3、 提取时间中的小时为单独的一列
4、 修改hour字段类型为数字类型
5、 过滤出深夜出入寝室的人
6、 分组统计
按照id字段进行分组统计,统计每个学生深夜进出寝室的次数。
7、 绘图
图形展示学生深夜出入寝室的数据。
2131多条记录中,共涉及1297人,最多的34次,最少的1次,平均2.08次。元芳,你怎么看呢?
(二) 图书借阅数据分析
1、加载图书借阅数据
由于原始数据中有逗号,会在加载时被认为是分隔符,所以我们需要采用一个全文没有出现的分割符`,将数据按一整行加载成为DF表。同时由于原始数据没有列名,需要为各列自动填写列名,所以参数处需添加with (header=-1,sep="`") 。
2、修改字段名
3、字符串处理
通过lambda函数将raw字段中的”,”和,”替换为$,然后按分隔符$分割为几个不同的list,具体表达式为x: x.replace ('","','$').replace (',"','$').split("$")
4、分割列
将raw字段按照分隔符分割为几个不同的列。
此数据主要可以分析借阅次数(本书),阅读时间等,要想再深入一些可以分析阅读的门类等,就不详细介绍了。
(三) 图书馆门禁数据分析
1、 加载图书馆门禁数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
2、修改字段名
分别用id、gate、time表示学生编号、门禁编号、时间。
3、 分组统计
按照id字段进行分组统计,统计每个学生进出图书馆的次数。
4、 绘图
图形展示学生出入图书馆的数据。
最多的学生是1485次,最少的居然两年只去1次(惨不忍睹,都忙啥了?),平均是122次。去的次数最多的是不是学习成绩最好呢,一会我们验证一下。
(四) 学生成绩数据分析
1、 加载学生成绩数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
加载学生成绩数据
2、 修改字段名
分别用id、college、score表示学生编号、学院编号、成绩排名。
成绩数据就这样了,我们来看一下图书馆次数最多的学生成绩到底怎么样,是真的一份耕耘一份收获,还是在磨洋工装样子呢。
3、 对分组统计好的图书馆门禁数据进行重置索引
4、修改该数据的字段名,将index修改为id。
5、取去图书馆次数最多的100人
6、和成绩数据进行关联
7、设置id列为索引
8、删除college列
9、将数据按照进出图书馆次数进行排序
10、绘图
黄线代表去图书馆的次数,红线代表成绩的排名,看完这个也很心塞啊!其中最好的才排学院30名,比比都是500名开外,都在图书馆干嘛了呢?
好吧,再来看看学院的学霸们(前100名)到底去不去图书馆呢?
11、取每个学院的前100名
12、和分组统计后的进出图书馆书架进行关联
13、设置id字段为索引
14、由于count字段中有控制,所以我们用数字0来填充空值
15、删除college列
16、将数据按照成绩和进出图书馆次数进行排序
17、修改字段名,分别将id和count修改为“成绩排名”和“去图书馆次数”
看这满屏的0,不知你作何感想?禁不住要问学霸去哪了?这还是以前的大学图书馆吗?
18、绘图
红色代表成绩,黄色代表去图书馆的次数,去图书馆的平均线是105,看来"死读书"是越来越没市场了。^V^
有兴趣的同学,可以将学霸的数据和深夜外出的数据碰一下,看看学霸到底去哪了。
所以本篇探索的数据可以比较好的反应出这些情况。当然这里面还隐藏了更好玩的话题,学霸去哪了?话不多说,let's go!
一、数据介绍
OpenFEA已经将上述数据存放到了OpenFEA在线试用环境的match/fund目录下,具体在www.openfea.cn下载专区里有介绍。
二、数据探索
(一) 寝室门禁数据分析
1、 加载寝室门禁数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
加载寝室门禁数据
2、 修改字段名
分别用id、time、isout表示学生编号、进出寝室时间、进出寝室。
3、 提取时间中的小时为单独的一列
4、 修改hour字段类型为数字类型
5、 过滤出深夜出入寝室的人
6、 分组统计
按照id字段进行分组统计,统计每个学生深夜进出寝室的次数。
7、 绘图
图形展示学生深夜出入寝室的数据。
2131多条记录中,共涉及1297人,最多的34次,最少的1次,平均2.08次。元芳,你怎么看呢?
(二) 图书借阅数据分析
1、加载图书借阅数据
由于原始数据中有逗号,会在加载时被认为是分隔符,所以我们需要采用一个全文没有出现的分割符`,将数据按一整行加载成为DF表。同时由于原始数据没有列名,需要为各列自动填写列名,所以参数处需添加with (header=-1,sep="`") 。
2、修改字段名
3、字符串处理
通过lambda函数将raw字段中的”,”和,”替换为$,然后按分隔符$分割为几个不同的list,具体表达式为x: x.replace ('","','$').replace (',"','$').split("$")
4、分割列
将raw字段按照分隔符分割为几个不同的列。
此数据主要可以分析借阅次数(本书),阅读时间等,要想再深入一些可以分析阅读的门类等,就不详细介绍了。
(三) 图书馆门禁数据分析
1、 加载图书馆门禁数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
2、修改字段名
分别用id、gate、time表示学生编号、门禁编号、时间。
3、 分组统计
按照id字段进行分组统计,统计每个学生进出图书馆的次数。
4、 绘图
图形展示学生出入图书馆的数据。
最多的学生是1485次,最少的居然两年只去1次(惨不忍睹,都忙啥了?),平均是122次。去的次数最多的是不是学习成绩最好呢,一会我们验证一下。
(四) 学生成绩数据分析
1、 加载学生成绩数据
因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。
加载学生成绩数据
2、 修改字段名
分别用id、college、score表示学生编号、学院编号、成绩排名。
成绩数据就这样了,我们来看一下图书馆次数最多的学生成绩到底怎么样,是真的一份耕耘一份收获,还是在磨洋工装样子呢。
3、 对分组统计好的图书馆门禁数据进行重置索引
4、修改该数据的字段名,将index修改为id。
5、取去图书馆次数最多的100人
6、和成绩数据进行关联
7、设置id列为索引
8、删除college列
9、将数据按照进出图书馆次数进行排序
10、绘图
黄线代表去图书馆的次数,红线代表成绩的排名,看完这个也很心塞啊!其中最好的才排学院30名,比比都是500名开外,都在图书馆干嘛了呢?
好吧,再来看看学院的学霸们(前100名)到底去不去图书馆呢?
11、取每个学院的前100名
12、和分组统计后的进出图书馆书架进行关联
13、设置id字段为索引
14、由于count字段中有控制,所以我们用数字0来填充空值
15、删除college列
16、将数据按照成绩和进出图书馆次数进行排序
17、修改字段名,分别将id和count修改为“成绩排名”和“去图书馆次数”
看这满屏的0,不知你作何感想?禁不住要问学霸去哪了?这还是以前的大学图书馆吗?
18、绘图
红色代表成绩,黄色代表去图书馆的次数,去图书馆的平均线是105,看来"死读书"是越来越没市场了。^V^
有兴趣的同学,可以将学霸的数据和深夜外出的数据碰一下,看看学霸到底去哪了。
相关文章推荐
- Follow me!百万奖金由你拿 | 学霸去哪了(二)
- Follow me!百万奖金由你拿 | 精准资助数据探索(一)
- Follow me!百万奖金由你拿 | 精准资助数据探索(一)
- Follow me!百万奖金由你拿 | 今天你打怪了吗(四)
- Follow me!百万奖金由你拿 | 今天你打怪了吗(四)
- Follow me!百万奖金由你拿 | 精准资助机器学习(三)
- Follow me!百万奖金由你拿 | 精准资助机器学习(三)
- 【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
- 利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
- 捐赠8千件文物 政府百万奖金10年未兑现(图)
- 【AI学霸榜】世界名校十大学霸获200万奖金,NLP、CV等四大领域学术秘籍曝光
- 俄数学天才破解庞加莱猜想拒领百万奖金
- 如何用黑科技帮女友瓜分冲顶大会百万奖金!!!
- 俄数学天才破解庞加莱猜想拒领百万奖金
- 【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
- 利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
- “妖怪”变种疯狂攻击 遭袭用户直逼百万