您的位置：首页 > 其它

链家二手房销售数据分析

2020-06-06 07:22 85 查看

一、数据集描述

数据集名称：链家二手房销售数据
数据来源：链家官方网站
数据集简介：此数据集是爬取的链家网北京市地区的二手房源销售信息数据，此数据集包含一张数据表lianjia
数据集量：3.8W条，30个字段
字段名称：成交价（万）、成交时间、所在小区、户型、建筑面积、挂牌价格（万）、成交周期（天）、调价（次）、带看（次）、关注（人）、浏览（次）、链家编号、交易权属、挂牌时间、房屋用途、房屋年限、房权所属、房屋户型、所在楼层、户型结构、套内面积（㎡）、建筑类型、房屋朝向、建成年代、装修情况、建筑结构、供暖方式、梯户比例、产权年限、配备电梯

二、数据清洗
首先导入数据分析python库，导入要使用的科学计算包numpy，pandas可视化matplotlib，seaborn包且检查python版本
采用matplotlib作图时默认设置下是无法显示中文的，凡是汉字全部会显示成小方块这里更改设置，以便作图时能正常显示中文
排除警告，然后导入数据且显示前5行数据，并进行初步数据观察
查看一下整体的数据情况
由以上可以观察到按照分段组织起来的分区数据，不能直接看到每条数据是属于哪个区，需要将数据整理成每条记录都能直接看到所属的分区，以方便后续的数据处理和分析查看大区字段中含有的字符数据，查看可知，大区字段含有如“1125-1148”、“470”、“朝阳”等类型的数据，将“1125-1148”、“470”类型的数据替换成nan，替换成功了之后，由于大区字段总共只有14个大区的名称，说明大区字段总共只有14个非nan的值
删除像 “大兴 nan nan nan nan " 这种类似的行调整字段顺序，把大区字段放在到最前面来研究数据，进行预处理，包括了解数据特征的缺失值，异常值发现数据集一共有38379条数据，其中最后两个字段xx1,xx2有明显的缺失值，所以这两个字段要着重看下到底是什么原因造成的，把这两个字段都去重一下，看看都有哪些值。既然xx2这个字段的值有一部分是“有”、“无”这种值，但是这种值本身应该是配备电梯这个字段的值，xx1和xx2字段产生的原因是这些行中的数据在按照\t作为分隔符解析的时候，多解析出来了个两个字段，这就造成原本是配备电梯字段值的就变成xx2字段的值了，由于这3022条数据出现了数据错位且无法正确整合，总数量占比也较小，所以这里将其移除，我们发现“链家编号”这个字段其实没有什么实际意义，所以也将其移除。后面的分析需求，会大量集中在时间和数值型字段上面，对这些字段进行数据的清洗整理，方便后续计算先把“成交时间”这个字段上的“成交”字符串去掉，再把“成交时间”和“挂牌时间”这些字段做类型转换，“成交周期”就能算出来了，用 “成交时间”减去“挂牌时间” 发现有小部分“成交时间”要早于“挂牌时间”，这是不符合实际情况的，这里将这部分的“成交时间”处理成让其等于“挂牌时间” 获取年和周，方便统计，新增加两个字段,为了后序方便统计“成交时间（年）”和“成交时间（周）”都是从“成交时间”中提取出来的研究字段：“成交价（万）”、“挂牌价格（万）”、“调价（次）”、“带看（次）”、 “关注（人）”、“浏览（次）”，“成交价（万）”这个字段后面分析肯定会用到。需要进行类型转换，但是成交价中含有“451-460”这种类型的数据，这里我们处理成取其平均值发现“挂牌价格（万）”和“浏览（次）”这两列的值有缺失值，进行缺失值填补第一步：先把缺失值 “暂无数据” 替换成 0 第二步：进行类型转换
查看“户型”和“建筑面积”这两个个字段时发现含有“#NAME?”、“车位”和“–”，以及“筑面积30.29”等不符合规范的记录。检查当“户型”=“车位”和“户型”=“#NAME?”的时候，“建筑面积”这个字段的相关值的情况，很多不规范，所以这里我们并不分析车位的情况，那么就把车位的交易数据都给删掉删除“户型=车位”，“户型=#NAME?”和“建筑面积”= “—”的数据以及将“建筑面积”字段进行类型转换查看字段：“房权所属”，“房屋户型”，“所在楼层”，“户型结构”，“套内面积（㎡）”这些字段中，字段“套内面积（㎡）”的问题最大，有很多的“暂无数据”，使用相同房屋户型的平均面积作为该缺失值的填补值类型转换，然后使用每种户型的面积的平均值来进行替换NaN值查看字段“户型结构”中也有少部分部分暂无数据，用众数平层来填充这部分缺失值查看字段“供暖方式”，“梯户比例”，“产权年限”，“配备电梯”，在“产权年限”这个字段中，一般房屋的产权年限都是70年，但是中间有部分数据是“未知”那我们直接进行替换即可到此为止，数据的清理工作基本完成，明显的数据格式的问题，都已经完成操作。如果在实现某些需求的时候，还有需要进行数据处理的就在实现需求的时候进行，将这份数据复制一份保存在内存中。

三、数据可视化分析

建筑面积特征分析：
通过distplot和kdeplot绘制柱状图观察建筑面积特征的分布情况，属于长尾类型的分布，这说明了有部分面积很大的二手房。通过regplot绘制了建筑面积和成交价格之间的散点图，发现建筑面积特征并无明显异常点，基本与成交价格之间呈现线性关系，面积越大，价格越高，符合基本常识。
区域特征分析：
这里对各大区域房屋销售量、房屋面积总和和单价进行统计分析二手房销售数量：通过对各大区二手房销售数量来看，二手房市场可谓比较活跃的，大部分区域的二手房销量趋于持平都较为均衡，大部分区域销量差不多都快接近3000套，只有（平谷密云怀柔延庆）这些地方销售数量都不足一百套相对其他地方来说特别少，其次是石景山，大约2100套左右，这两个区域销量相比其他区域要少很多，可能原因在于石景山有很多风景区，导致大量面积不能用于建房子，谷密云怀柔延庆这些地区比较偏远，人口密度比较小。
二手房面积总和：从统计的结果来看，各地区的二手房的总建筑面积还是有一些差距的，像石景山和（平谷密云怀柔延庆）较为偏远冷门的地区，二手房交易总面积也较小，亦庄开发区近几年正在改造建设，其交易的二手房的总建筑面积是最大的，其次是昌平和顺义，最为繁华的西城区由于发展较为饱和，反而成交面积相比其他区域要小一些，然后其他区域的成交面积则相差不大。二手房单价：从统计的结果可以看出，北京各地区二手房单价都比较高，其中西城区作为北京地段最好的地方其房价也是最贵，平均单价高达11万/平，因为西城地段较好，在二环以里，且里边有很多的热门学区房。其次是海淀大约8万/平，其它均低于7万/平。大部分区域的房屋单价都在4万/平左右，像（平谷密云怀柔延庆）较为偏远冷门的地区房价也并不低，平均单价也每平米高达2万多

每平米单价特征分析：
每平米单价这个特征是由成交价（万）/建筑面积得到的，这里统计了不同价格区间房屋的销售情况，并将“每平米单价”这个字段进行区间划分，统计结果如下图所示从图中可以看出：
单价为4-5w、3-4w的二手房销量最高，其次为5-6w、9w以上，最低的为8-9w、2w以下

成交时间（周）特征分析：
下图是2019年每周的二手房销量和平均单价走势统计图

由以上2019年1~46周的二手房的成交量图可以看出，成交量大体上每周呈现递增趋势，2019年北京二手房交易的火爆程度在整体上是在上升的。
平均单价趋势图可以看出，全年的房价在整体上是呈现上升的趋势，其中在第14周之前平均单价在4万/每平米之下，在第14周之后房价出现了一个大的增幅，最高平均单价可达到6万/每平米，之后房价大概在5.7万/每平米。

装修情况特征分析：

由图表观察到，精装修的二手房数量最多，简装其次，毛胚房最少。
对于价格来说，精装修类型平均单价也最高，其次是简装，毛胚房价格最低，也是我们日常见的，房子装修越豪华，价格越贵

建筑面积特征分析：
这里对不同的建筑面积进行统计分析，并将“建筑面积”这个字段进行区间划分，统计结果如下图所示

总体来看房源大部分为中小户型，其次是小户型，大户型极少。
不同区域户型的占比情况有所不同，大部分地区中小型房源数量是最多的。
所有地区的中型房源数量都处于居中位置，数量不是最多也不是最少的。
区域对比发现越是房价高的区域，小户型的数量反而越多，房价较低的区域大户型数量会多一些。

户型结构特征分析：
这里对房屋的户型结构进行统计分析

由图表可看出，房屋的户型结构绝大部分都是平层的，说明普通住宅都是采用平层这种户型结构，其次是复式结构，只有少量的别墅或者山庄会采用跃层和错层等户型结构。

房屋户型特征分析：
这里对房屋的户型进行统计分析，用来观测消费者更为喜欢的房屋户型
由图可知，占据市场主导的房屋户型主要是2室1厅1厨1卫，由于大部分家庭只有一个小孩，2室1厅1厨1卫在二手房中是很普遍的，其次是1室1厅1厨1卫，北京拥有大量外来务工人员，这种房对于他们来说也是比较合适的， 3室1厅1厨1卫对于传统家庭（5口人）是无论在性价比上是较为合适的。

配备电梯特征分析：
查看“配备电梯”这个字段的时候，发现有少量的缺失值，这里用填补法来填补这部分缺失值，根据楼层来判断有无电梯，生活中一般的楼层大于8的都有电梯，而小于等于8层的一般都没有电梯。

从图表中可以看出，有电梯的二手房屋数量比无电梯的二手房屋数量要多
有电梯的二手房平均单价要高于无电梯的二手房单价
总楼层低于7层的基本都无电梯，超过7层的楼层基本都有电梯。

所在楼层特征分析：
这里对所在楼层进行统计分析，查看这个字段可知，里面包含总的楼层和相对楼层，但是这个字段并不方便直接用来分析，可以创建两个新的字段将总楼层和相对楼层从这个字段里分离出来。
创建“所在楼层新”将总楼层分离出来，如图所示

创建“所在楼层_1”将相对楼层楼层分离出来，如图所示
相对楼层：

这里的楼层是相对于房屋的总的楼层，由图表可以看出，中层房屋销售量最多，最受人们欢迎，比较受欢迎其次是高层和低层，销量最低的是地下室，这也很符合大众很少会买地下室的的购房习惯，然后顶层和底层由于平均单价较低，也有一定的购买量。
中高低楼层的房屋单价比较高，其次是底层，顶层房价最低，一般地下室的房价一般应该更便宜，但这里却比中高层要略高一点，查看原因发现大多地下室所在地是房价很高的西城、海淀等区域，如下图所示这也有可能会拉高其平均单价
最高楼层：将最高楼层进行区间划分上图是总楼层的整体分布以及不同大区的最高楼层分布图，从图中可以看出：
总楼层高度在低楼层（7层以下）的数量最多，消费者更加偏好低楼层的房屋，其次是中高楼层(12<楼层<=20)，超高楼层（楼层>28层）的数量最少，推测原因可能是7层以下的低楼层基本没有电梯，这能节省大量成本，中高层楼层不仅能建更多的房子且安全性和规范性也较容易达标。
从各大区的楼层分布来看，基本上所有区域都是低楼层数量最多，其次是中高楼层，超高楼层最少。
高楼层和超高楼层房屋分布不太均匀，高楼层(20<楼层<=28)房屋主要分布在朝阳、丰台和亦庄开发区，超高楼层房屋主要分布在朝阳、丰台、通州和昌平

房屋朝向特征分析：
由图表可知：南北向的房子数量最多，最受人们欢迎，其次是南向的房子数，其他方向的房子数量只有极少部分，可能由于中国人讲究房子坐北朝南，有利于采光和避北风。

建成年代特征分析：
由图表可知：

从1994年到2014年建成的房子，房屋销量整体呈上升趋势。
在2002年到2005年后建成的房子，房屋成交量大幅增加，然后在2007年后建成的房子房屋成交量又有所下降。
可能的原因有1994年到1999年这段时间房地产才起步不久，房源数量比较少，然后到2002年起房源数量增加较多，2009年政府出台了一系列政策扶持房地产，促进房地产市场发展，所以房源数量也随之增加，以及人们都普遍都更喜欢买新一些的房子。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

链家二手房销售数据分析

一、 数据集描述

三、数据可视化分析

一、数据集描述