链家成都数据分析
2017-09-23 01:34
295 查看
链家成都数据分析
数据准备部分
链家成都数据爬取
全部代售房屋数据数据清洗
将数据保存为json格式的文件将数据读取为pds的DataFrame格式,用于分析
清洗后数据格式为
age area decoration elev face2 floor focus hall housename release \ 0 2005 市一医院 简装 有电梯 南 低楼层 13 2.0 融城理想 14天以前发布 1 2009 神仙树 精装 有电梯 西北 中楼层 15 1.0 融城后街 5天以前发布 2 2005 市一医院 NaN NaN 东南 中楼层 80 2.0 融城理想 1个月以前发布 3 2000 新北 NaN 无电梯 西 高楼层 73 2.0 新乐中街2号 18天以前发布 4 2006 神仙树 NaN 无电梯 东北 低楼层 20 2.0 中海名城三期 12天以前发布 room sqr struc totalFloor totalPrice unitPrice visit 0 3.0 135 板塔结合 11 270.0 20000 2 1 1.0 54 塔楼 17 60.0 11083 13 2 3.0 133 板塔结合 11 180.0 13534 35 3 2.0 75 板楼 6 58.0 7698 10 4 4.0 171 板楼 6 320.0 18680 25
> 共包括 房龄 区域 单价 总价 电梯 装修 楼层 总楼层 楼盘 朝向 带看人数 关注人数 等17个子项
数据分析
数据4000
的可视化
作图看是否可以发现规律
大部分代售房屋都是在2000年至2010年间建成
绝大部分代售房屋没有一位访客
同样绝大部分代售房屋没有一位关注者
出现这种情况,也许是房屋周转的很快,或者周转的很慢
7k5 到 10k的房源最多
5k到12k5的房源几乎占据全部比例的80%+
11层高 25层 高的最多
50万 至 100万 较多
7到60天 的比例超过60%
关联分类
分别为
* 单价 与 建成年份 关联关系
—
* 单价 与 朝向 关联关系
意外的是朝南的房子并没有比较贵
东 10036.214480 东北 10111.987842 东南 9588.616673 北 11304.247423 南 10234.785159 西 11890.804912 西北 10590.946936 西南 9668.406892
* 单价 与 是否电梯 关联关系
有无电梯区别,反映在价格差2500元左右
* 单价 与 区域 关联关系
* 单价 与 楼盘名 关联关系
* 单价 与 带看人数 关联关系
* 单价 与 关注人数 关联关系
带看多的房屋有更高单价,关注多的没有看到
* 单价 与 总楼层 关联关系
分别为
cont2 = [up_totalfloor_des, up_hall_des, up_room_des,
up_sqr_des]
* 单价 与 总楼层 关联关系 总的来说,楼层越过单价越过 * 单价 与 厅数 关联关系 * 单价 与 室数 关联关系 室厅较大,单价较高,这个和预期的套一单价高不同,还不知道为什么 * 单价 与 房屋面积 关联关系 房屋面价较大,单价波动较大,也更容易出现较高单价
上半部分,下半部分是定价模型训练
数据在www.triboys.com/cdesf.json 可以下载
2364839934@qq.com
一元
相关文章推荐
- 上海链家二手房交易数据分析
- 链家武汉二手房分析和数据建模
- 爬取广州链家租房信息,并用tableau进行数据分析
- 链家大数据多维分析引擎实践
- 利用python进行数据分析之绘图和可视化
- 深度解析 Twitter Heron 大数据实时分析系统
- 从网站数据分析找到SEO优化方向分析
- 数据分析-人群画像和目标群体分析
- 用hive分析数据约500M的网页数据
- [CTO札记]新版上线后的数据分析
- 利用python进行数据分析-数据加载、存储与文件格式1
- 使用SparkSQL分析CSDN泄露的用户数据[top-n]
- 数据结构1:数据结构与算法C语言版分析概述
- Mybatis源码分析-数据源
- 深入分析jquery解析json数据
- 数据绑定以及Container.DataItem几种方式与用法分析
- 学以致用——ikb知识库英文词条词频分析-Part1-数据提取(VBA)
- JVM运行时数据分析(内存中堆、栈的分布情况)
- 爬虫在游戏数据分析的一个实践
- python爬取前程无忧和拉勾数据分析岗位并分析