您的位置:首页 > 其它

链家二手房销售数据分析

2020-06-06 07:22 85 查看

一、 数据集描述

数据集名称:链家二手房销售数据
数据来源:链家官方网站
数据集简介:此数据集是爬取的链家网北京市地区的二手房源销售信息数据,此数据集包含一张数据表lianjia
数据集量:3.8W条,30个字段
字段名称:成交价(万)、成交时间 、所在小区、户型、建筑面积、挂牌价格(万)、成交周期(天)、调价(次)、带看(次)、关注(人)、浏览(次)、链家编号、交易权属、挂牌时间、房屋用途、房屋年限、房权所属、房屋户型、所在楼层、户型结构、套内面积(㎡)、建筑类型、房屋朝向、建成年代、装修情况、建筑结构、供暖方式、梯户比例、产权年限、配备电梯

二、数据清洗
首先导入数据分析python库,导入要使用的科学计算包numpy,pandas可视化matplotlib,seaborn包且检查python版本
采用matplotlib作图时默认设置下是无法显示中文的,凡是汉字全部会显示成小方块这里更改设置,以便作图时能正常显示中文
排除警告,然后导入数据且显示前5行数据,并进行初步数据观察
查看一下整体的数据情况
由以上可以观察到按照分段组织起来的分区数据,不能直接看到每条数据是属于哪个区,需要将数据整理成每条记录都能直接看到所属的分区,以方便后续的数据处理和分析 查看大区字段中含有的字符数据,查看可知,大区字段含有如“1125-1148”、“470”、“朝阳”等类型的数据,将“1125-1148”、“470”类型的数据替换成nan,替换成功了之后,由于大区字段总共只有14个大区的名称,说明大区字段总共只有14个非nan的值
删除像 “大兴 nan nan nan nan " 这种类似的行 调整字段顺序,把大区字段放在到最前面来 研究数据,进行预处理,包括了解数据特征的缺失值,异常值 发现数据集一共有38379条数据,其中最后两个字段xx1,xx2有明显的缺失值,所以这两个字段要着重看下到底是什么原因造成的,把这两个字段都去重一下,看看都有哪些值。 既然xx2这个字段的值有一部分是“有”、“无”这种值,但是这种值本身应该是配备电梯这个字段的值,xx1和xx2字段产生的原因是这些行中的数据在按照\t作为分隔符解析的时候,多解析出来了个两个字段,这就造成原本是配备电梯字段值的就变成xx2字段的值了,由于这3022条数据出现了数据错位且无法正确整合,总数量占比也较小,所以这里将其移除,我们发现“链家编号”这个字段其实没有什么实际意义,所以也将其移除。 后面的分析需求,会大量集中在时间和数值型字段上面,对这些字段进行数据的清洗整理,方便后续计算 先把“成交时间”这个字段上的“成交”字符串去掉,再把“成交时间”和“挂牌时间”这些字段做类型转换,“成交周期”就能算出来了,用 “成交时间”减去“挂牌时间” 发现有小部分“成交时间”要早于“挂牌时间”,这是不符合实际情况的,这里将这部分的“成交时间”处理成让其等于“挂牌时间” 获取年和周,方便统计,新增加两个字段,为了后序方便统计“成交时间(年)”和“成交时间(周)”都是从“成交时间”中提取出来的 研究字段:“成交价(万)”、“挂牌价格(万)”、“调价(次)”、“带看(次)”、 “关注(人)”、“浏览(次)”,“成交价(万)”这个字段后面分析肯定会用到。需要进行类型转换,但是成交价中含有“451-460”这种类型的数据,这里我们处理成取其平均值 发现“挂牌价格(万)”和“浏览(次)”这两列的值有缺失值,进行缺失值填补 第一步:先把缺失值 “暂无数据” 替换成 0 第二步:进行类型转换
查看“户型”和“建筑面积”这两个个字段时发现含有“#NAME?”、“车位”和“–”,以及“筑面积30.29”等不符合规范的记录。 检查当“户型”=“车位”和“户型”=“#NAME?”的时候,“建筑面积”这个字段的相关值的情况,很多不规范,所以这里我们并不分析车位的情况,那么就把车位的交易数据都给删掉 删除“户型=车位”,“户型=#NAME?”和“建筑面积”= “—”的数据以及将“建筑面积”字段进行类型转换 查看字段:“房权所属”,“房屋户型”,“所在楼层”,“户型结构”,“套内面积(㎡)”这些字段中,字段“套内面积(㎡)”的问题最大,有很多的“暂无数据”,使用相同房屋户型的平均面积作为该缺失值的填补值 类型转换,然后使用每种户型的面积的平均值来进行替换NaN值 查看字段“户型结构”中也有少部分部分暂无数据,用众数平层来填充这部分缺失值 查看字段“供暖方式”,“梯户比例”,“产权年限”,“配备电梯”,在“产权年限”这个字段中,一般房屋的产权年限都是70年,但是中间有部分数据是“未知”那我们直接进行替换即可 到此为止,数据的清理工作基本完成,明显的数据格式的问题,都已经完成操作。如果在实现某些需求的时候,还有需要进行数据处理的就在实现需求的时候进行,将这份数据复制一份保存在内存中。

三、数据可视化分析

建筑面积特征分析:
通过distplot和kdeplot绘制柱状图观察建筑面积特征的分布情况,属于长尾类型的分布,这说明了有部分面积很大的二手房。通过regplot绘制了建筑面积和成交价格之间的散点图,发现建筑面积特征并无明显异常点,基本与成交价格之间呈现线性关系,面积越大,价格越高,符合基本常识。
区域特征分析:
这里对各大区域房屋销售量、房屋面积总和和单价进行统计分析 二手房销售数量:通过对各大区二手房销售数量来看,二手房市场可谓比较活跃的,大部分区域的二手房销量趋于持平都较为均衡,大部分区域销量差不多都快接近3000套,只有(平谷密云怀柔延庆)这些地方销售数量都不足一百套相对其他地方来说特别少,其次是石景山,大约2100套左右,这两个区域销量相比其他区域要少很多,可能原因在于石景山有很多风景区,导致大量面积不能用于建房子,谷密云怀柔延庆这些地区比较偏远,人口密度比较小。
二手房面积总和:从统计的结果来看,各地区的二手房的总建筑面积还是有一些差距的,像石景山和(平谷密云怀柔延庆)较为偏远冷门的地区,二手房交易总面积也较小,亦庄开发区近几年正在改造建设,其交易的二手房的总建筑面积是最大的,其次是昌平和顺义,最为繁华的西城区由于发展较为饱和,反而成交面积相比其他区域要小一些,然后其他区域的成交面积则相差不大。 二手房单价:从统计的结果可以看出,北京各地区二手房单价都比较高,其中西城区作为北京地段最好的地方其房价也是最贵,平均单价高达11万/平,因为西城地段较好,在二环以里,且里边有很多的热门学区房。其次是海淀大约8万/平,其它均低于7万/平。大部分区域的房屋单价都在4万/平左右,像(平谷密云怀柔延庆)较为偏远冷门的地区房价也并不低,平均单价也每平米高达2万多

每平米单价特征分析:
每平米单价这个特征是由成交价(万)/建筑面积得到的,这里统计了不同价格区间房屋的销售情况,并将“每平米单价”这个字段进行区间划分,统计结果如下图所示 从图中可以看出:
单价为4-5w、3-4w的二手房销量最高,其次为5-6w、9w以上,最低的为8-9w、2w以下

成交时间(周)特征分析:
下图是2019年每周的二手房销量和平均单价走势统计图

  • 由以上2019年1~46周的二手房的成交量图可以看出,成交量大体上每周呈现递增趋势,2019年北京二手房交易的火爆程度在整体上是在上升的。
  • 平均单价趋势图可以看出,全年的房价在整体上是呈现上升的趋势,其中在第14周之前平均单价在4万/每平米之下,在第14周之后房价出现了一个大的增幅,最高平均单价可达到6万/每平米,之后房价大概在5.7万/每平米。

装修情况特征分析:

  • 由图表观察到,精装修的二手房数量最多,简装其次,毛胚房最少。
  • 对于价格来说,精装修类型平均单价也最高,其次是简装,毛胚房价格最低,也是我们日常见的,房子装修越豪华,价格越贵

建筑面积特征分析:
这里对不同的建筑面积进行统计分析,并将“建筑面积”这个字段进行区间划分,统计结果如下图所示

  • 总体来看房源大部分为中小户型,其次是小户型,大户型极少。
  • 不同区域户型的占比情况有所不同,大部分地区中小型房源数量是最多的。
  • 所有地区的中型房源数量都处于居中位置,数量不是最多也不是最少的。
  • 区域对比发现越是房价高的区域,小户型的数量反而越多,房价较低的区域大户型数量会多一些。

户型结构特征分析:
这里对房屋的户型结构进行统计分析

  • 由图表可看出,房屋的户型结构绝大部分都是平层的,说明普通住宅都是采用平层这种户型结构,其次是复式结构,只有少量的别墅或者山庄会采用跃层和错层等户型结构。

房屋户型特征分析:
这里对房屋的户型进行统计分析,用来观测消费者更为喜欢的房屋户型
由图可知,占据市场主导的房屋户型主要是2室1厅1厨1卫,由于大部分家庭只有一个小孩,2室1厅1厨1卫在二手房中是很普遍的,其次是1室1厅1厨1卫,北京拥有大量外来务工人员,这种房对于他们来说也是比较合适的, 3室1厅1厨1卫对于传统家庭(5口人)是无论在性价比上是较为合适的。

配备电梯特征分析:
查看“配备电梯”这个字段的时候,发现有少量的缺失值,这里用填补法来填补这部分缺失值,根据楼层来判断有无电梯,生活中一般的楼层大于8的都有电梯,而小于等于8层的一般都没有电梯。

  • 从图表中可以看出,有电梯的二手房屋数量比无电梯的二手房屋数量要多
  • 有电梯的二手房平均单价要高于无电梯的二手房单价
  • 总楼层低于7层的基本都无电梯,超过7层的楼层基本都有电梯。

所在楼层特征分析:
这里对所在楼层进行统计分析,查看这个字段可知,里面包含总的楼层和相对楼层,但是这个字段并不方便直接用来分析,可以创建两个新的字段将总楼层和相对楼层从这个字段里分离出来。
创建“所在楼层新”将总楼层分离出来,如图所示

创建“所在楼层_1”将相对楼层楼层分离出来,如图所示
相对楼层:

  • 这里的楼层是相对于房屋的总的楼层,由图表可以看出,中层房屋销售量最多,最受人们欢迎,比较受欢迎其次是高层和低层,销量最低的是地下室,这也很符合大众很少会买地下室的的购房习惯,然后顶层和底层由于平均单价较低,也有一定的购买量。

  • 中高低楼层的房屋单价比较高,其次是底层,顶层房价最低,一般地下室的房价一般应该更便宜,但这里却比中高层要略高一点,查看原因发现大多地下室所在地是房价很高的西城、海淀等区域,如下图所示这也有可能会拉高其平均单价
    最高楼层:将最高楼层进行区间划分 上图是总楼层的整体分布以及不同大区的最高楼层分布图,从图中可以看出:

  • 总楼层高度在低楼层(7层以下)的数量最多,消费者更加偏好低楼层的房屋,其次是中高楼层(12<楼层<=20),超高楼层(楼层>28层)的数量最少,推测原因可能是7层以下的低楼层基本没有电梯,这能节省大量成本,中高层楼层不仅能建更多的房子且安全性和规范性也较容易达标。

  • 从各大区的楼层分布来看,基本上所有区域都是低楼层数量最多,其次是中高楼层,超高楼层最少。

  • 高楼层和超高楼层房屋分布不太均匀,高楼层(20<楼层<=28)房屋主要分布在朝阳、丰台和亦庄开发区,超高楼层房屋主要分布在朝阳、丰台、通州和昌平

房屋朝向特征分析:
由图表可知:南北向的房子数量最多,最受人们欢迎,其次是南向的房子数,其他方向的房子数量只有极少部分,可能由于中国人讲究房子坐北朝南,有利于采光和避北风。

建成年代特征分析:
由图表可知:

  • 从1994年到2014年建成的房子,房屋销量整体呈上升趋势。
  • 在2002年到2005年后建成的房子,房屋成交量大幅增加,然后在2007年后建成的房子房屋成交量又有所下降。
  • 可能的原因有1994年到1999年这段时间房地产才起步不久,房源数量比较少,然后到2002年起房源数量增加较多,2009年政府出台了一系列政策扶持房地产,促进房地产市场发展,所以房源数量也随之增加,以及人们都普遍都更喜欢买新一些的房子。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: