您的位置:首页 > 其它

链家成都数据分析

2017-09-23 01:34 295 查看

链家成都数据分析

数据准备部分

链家成都数据爬取

全部代售房屋数据

数据清洗

将数据保存为json格式的文件

将数据读取为pds的DataFrame格式,用于分析

清洗后数据格式为

age   area decoration elev face2 floor  focus  hall housename  release  \
0  2005   市一医院         简装  有电梯     南   低楼层     13   2.0      融城理想  14天以前发布
1  2009    神仙树         精装  有电梯    西北   中楼层     15   1.0      融城后街   5天以前发布
2  2005   市一医院        NaN  NaN    东南   中楼层     80   2.0      融城理想  1个月以前发布
3  2000     新北        NaN  无电梯     西   高楼层     73   2.0    新乐中街2号  18天以前发布
4  2006    神仙树        NaN  无电梯    东北   低楼层     20   2.0    中海名城三期  12天以前发布

room  sqr  struc  totalFloor  totalPrice  unitPrice  visit
0   3.0  135  板塔结合           11       270.0      20000      2
1   1.0   54    塔楼           17        60.0      11083     13
2   3.0  133  板塔结合           11       180.0      13534     35
3   2.0   75    板楼            6        58.0       7698     10
4   4.0  171    板楼            6       320.0      18680     25


> 共包括 房龄 区域 单价 总价 电梯 装修 楼层 总楼层 楼盘 朝向 带看人数 关注人数 等17个子项

数据分析

数据
4000
的可视化

作图看是否可以发现规律



大部分代售房屋都是在2000年至2010年间建成



绝大部分代售房屋没有一位访客



同样绝大部分代售房屋没有一位关注者

出现这种情况,也许是房屋周转的很快,或者周转的很慢



7k5 到 10k的房源最多

5k到12k5的房源几乎占据全部比例的80%+



11层高 25层 高的最多



50万 至 100万 较多



7到60天 的比例超过60%

关联分类



分别为

* 单价 与 建成年份 关联关系



* 单价 与 朝向 关联关系

意外的是朝南的房子并没有比较贵

东     10036.214480

东北    10111.987842

东南     9588.616673

北     11304.247423

南     10234.785159

西     11890.804912

西北    10590.946936

西南     9668.406892


* 单价 与 是否电梯 关联关系

有无电梯区别,反映在价格差2500元左右

* 单价 与 区域 关联关系

* 单价 与 楼盘名 关联关系

* 单价 与 带看人数 关联关系

* 单价 与 关注人数 关联关系

带看多的房屋有更高单价,关注多的没有看到

* 单价 与 总楼层 关联关系



分别为

cont2 = [up_totalfloor_des, up_hall_des, up_room_des,

up_sqr_des]

* 单价 与 总楼层 关联关系
总的来说,楼层越过单价越过
* 单价 与 厅数 关联关系
* 单价 与 室数 关联关系
室厅较大,单价较高,这个和预期的套一单价高不同,还不知道为什么
* 单价 与 房屋面积 关联关系
房屋面价较大,单价波动较大,也更容易出现较高单价


上半部分,下半部分是定价模型训练

数据在www.triboys.com/cdesf.json 可以下载

2364839934@qq.com

一元
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: