您的位置:首页 > 大数据

基于百度时空大数据的城市计算(讲座精华笔记)

2017-06-10 21:56 453 查看
基于百度时空大数据的城市计算(讲座精华笔记)
THU数据派 2017-05-27 23:24



[导读]本文整理自2017年5月24日,百度自动驾驶事业部创始团队成员、高级技术顾问秦伟俊博士在清华大数据“技术·前沿”系列讲座之“基于百度时空大数据的城市计算”上的演讲内容精华。



一、城市计算的目标和概览

今天我从城市动力学(Urban Dynamics)的角度来分享如何利用百度互联网平台产生的时空数据来解读或解决经济趋势、城市规划和公共安全等中国城市发展出现的现象和问题。

在动物行为学的研究中,大量的科学家研究动物的移动行为、社交行为、群体行为和记忆行为,具有时空特性,如:蜜蜂是高度社会化的昆虫,具有复杂的社会行为;鱼群在运动中连贯一致的整体自组织结构;动物对储存食物地点的记忆和辨别能力,这类行为形成了一个复杂系统。人类社会更是一个巨大的具备时空特性的复杂系统,例如:人口节日性迁徙、熟人之间的社交关系、节日活动集会、甚至群体智能等行为。

城市计算主要基于城市动力学,结合百度互联网收集来的时空数据对经济活动、城市规划、公共安全等方面进行研究和探索。现代人类社会生活中,复杂行为带来时空大数据的累积。针对这种时空大数据我们可以进行深入挖掘从而揭示人类社会生活:例如,可以通过移动行为, 对用户的出行轨迹和出行规律进行挖掘,提供预测位置的服务;可以通过社交行为,基于时空数据进行身份识别、社交关系推断;可以通过迁徙行为来进行人口流动的城市计算以及通过对集群行为的分析来进行集群行为的解读和预测。

什么数据构成了百度时空大数据?有四类基础数据,包括:

每日60亿次搜索请求(其中包括大量来自于百度地图客户端的搜索),体现出网民出行的目的地和意图;

每日400亿次定位请求,体现出网民的即时位置;

每日超过1亿次出行规划次数,完整记录网民出行轨迹;

全球1.2亿个POI(Point of Interest),也就是地理信息点,包括名称、类别、经纬度和周边信息等,体现出地图上有实用价值的地理位置。

数据挖掘效果:

1. 通过对百度地图的查询行为进行挖掘可以发现:

用户查询与实地访问之间的时间差分布,通常相差6-24小时;

用户使用路线规划服务后访问目的地的方式中,步行概率最大;

用户地图查询后实际访问的POI(point of interest)类别排序统计中,交通类POI居首位。

2. 通过对400亿次定位请求进行挖掘可以发现:





第一张图是由每一位使用百度地图产品的网民产生的定位数据,这些数据已经匿名化处理,在充分保护个人隐私的条件下聚合2014年1月到2016年6月的定位数据生成的中国地图,从全貌上看出中国人口密集区域,比如京津冀地区、长三角地区、珠三角地区和成都中部地区,可谓是定位数据点亮中国大地。

第二张图也是定位数据,勾勒出中东部地区人口密集城市的大概位置,如上海、南京、杭州、合肥、济南、郑州、武汉;第三张图则是进一步放大尺寸,这是由上海市南浦大桥附近的定位数据汇聚而成,我们可以看到定位数据清晰地勾勒出黄浦江的边界,也勾勒出城市主干道和主要的街区。

再给大家展示一张图,大家一眼就能够看出这是北京的地图,其实这也是由北京网民使用百度地图产生的定位数据描绘的一天时间内定位数据的变化。暗的时候是夜间;明的时候是白天,地图定位数据如同呼吸灯一样展示出北京的脉搏。



我们构建了整个中国的城市网络,大家可能知道,互联网网页排序有一个算法,叫PageRank算法,比如一个人从北京到上海的出行,我们认为它是产生关联,根据这样一个分析,可以把整个中国城市的Network构建出来,而且知道每个城市在网络里面的重要性是比较靠前的。底图是代表我们算出来的CityRank,我们发现这个PageRank值和地方的GDP有更加好的关联性,关联性在0.8左右。



北京一天24小时苹果手机用户定位数据的可视化,大家可以看到,从白天到晚上北京整个城市苹果用户的动态的变化。这个就是在白天的时候很明显有一个趋势。另外我们单独统计了全国范围内用iPhone6的一些土豪用户在全国的分布,我们发现有将近2000多万iPhone6的用户,他们在全国的分布大概是这个样子。

这个很明显能够看出来,因为iPhone是一个土豪的代表,所以和经济关联,直接看起来有一些明显的特征,比如像江浙、广东这块区域,用iPhone的人比较多一些。具体的联系是什么样的?我们做了iPhone6的用户和GDP的关联,对大多数的省市都呈现出非常好的线性关系,这个iPhone6可以作为用户购买力一个很好的属性反映地方经济的发展。

二、研究案例

案例一:

百度时空大数据与城市计算之间有什么关系?时空大数据作为一种网络信息空间大数据,其实反映出网民实际活动。早在2014年大家就知道百度做了春运迁徙大数据案例,其实就是反映出中国特点的春运事件。人群移动趋势变化和人口分布密度变化也能体现出城市区域的经济活动和重要事件。

问题描述:

如何利用时空大数据来分析和挖掘经济活动趋势,上至国家宏观经济层面(例如:就业、消费),下至企业微观营收层面?

挑战:

没有使用来自经济领域的专业数据来做量化分析;

简单地使用POI和网民定位数据、轨迹数据很难建立相关性来反映出经济趋势。

本研究利用四项数据来做研究:

定位数据(2014.1-2016.6),这里从多种维度的时空大数据多尺度折射人群的活动;

来自百度地图产品的地图查询数据,使用线上数据来预测线下行为;

POI数据,对应具体商场、酒店等,整个使用的国内POI达到5000万个;

一类新型数据,我们称之为AOI(Area of Interest)数据,地理信息区,例如:中关村软件园、上海浦东机场,这类地理信息区可能包括若干相近属性的POI,例如中关村软件园汇聚了大量高科技企业。

AOI数据是什么?AOI是某些特定行业或产业的特定区域,例如工业园区、消费商圈、风景区等等。为了能够识别和提取出工业园区、消费商圈等AOI信息,我们需要完成几件工作:一是圈定并识别出AOI的物理边界范围;二是标定出AOI的属性,是工业园区,还是消费商圈。

首先解决的是AOI识别方法,利用全卷积深度网络对卫星图像数据做出图像分割。

接下来是标定AOI的属性,我们采用的方式是利用人群移动轨迹数据的时空属性,采用多种聚类算法来挖掘出AOI的标签属性,例如生活场所、工作场所;再结合POI信息就能够判别AOI是工业园区或是消费商圈,或是生活场所。

经过分析挖掘,我们得到中国6000个AOI数据,其中2000个是工业园区,4000个是消费商圈。

以下是我们的研究结果:

东莞兴昂鞋厂倒闭(2016.1.12)
http://finance.sina.com.cn/roll/2016-01-12/doc-ifxnkkux1136765.shtml
诺基亚苏州工厂关闭(2015.12)
http://money.163.com/15/1212/02/BAJQJT9G00253B0H.html
基于2014年全年跟踪2000个工业园区的就业人口迁移变化作为基数(100),通过2015年和2016年就业指数YoY(Year over Year)统计出2015年和2016年的就业形势相对变化情况,可以看出整体工业持平走低,其中制造业持续走低,高科技业发展较好的局面。

类似是评估中国消费情况,两个案例(大悦城、奥特莱斯),通过统计线下消费者的客流量变化和地图查询请求之间的关系,发现两个曲线非常相似,同时我们可以看到2015年春节之前消费攀升,春节之后明显下降的情况;同理我们跟踪4000个消费商圈消费者的客流变化统计消费者指数。

以上是国家层面宏观经济,现在讲讲企业层面微观经营,利用前面发现的用户线下客流与地图查询的相关性的结果,我们进一步分析苹果公司大中华区营收与地图查询的相关性,我们发现15Q4和16Q1地图查询同比与营收同比相近,我们依据16Q2地图查询大胆预测同比下降23%-34%。这说明用户线下轨迹行为与线上地图查询行为的相关性,是能够作为第三方数据来预测实体零售的营收。

再以票房即时预测作为例子,通过中国票房数据库得到票房数据,我们发现地图查询数据能够预测影院日票房。右边的例子是2015年《捉妖记》电影,对外报道是24亿票房,被央视报道票房造假。我们通过地图查询数据分析发现《捉妖记》出品方所控制的30余家影院存在于2015年7月到2015年9月期间午夜场刷票的嫌疑。

总结:

利用时空大数据来分析和挖掘经济活动趋势,一旦发现时空位置大数据和地图查询数据与研究问题的相关性,就能选择合适的模型进行预测,上至国家宏观经济层面(如就业、消费),中至行业发展趋势(电影行业、旅游行业、汽车行业等),下至企业微观营收层面。这些数据的价值已经被金融机构所发现,Bloomberg金融咨询使用到百度经济指数。

案例二:

利用人群移动分析中国鬼城情况。

问题描述:

如何利用人群移动时空大数据来分析和发现中国“鬼城”,深层次分析“鬼城”成因?

2010年《时代》杂志刊登过一组鄂尔多斯市康巴什地区的照片:那里伫立着大量的崭新民居,还有被设计成文化地标的壮观建筑群,然而却人迹罕至,遂称之为 ghost city。自那之后,中国“鬼城”问题见诸世界各大媒体,甚至有美剧将鄂尔多斯设定成一个隐藏着不能说秘密的地方。

2015年,《Ghost Cities of China》一书的作者Wade Shepard将“鬼城”定义为:一种能量严重不足的新型发展状态,一个人口和商业机构严重少于其原本所能容纳的体量的地方。

从这个角度上说,住宅空置率就成为最简单直接的“鬼城”衡量标准。然而,尽管很多媒体都报道过某些中国城市的住宅类房屋空置的区域(下称“住空区”),但称这些地区为“鬼城”是不准确的,因为这类报道的结论通常以图片呈现或者统计亮灯率的方法得出,因准确率低、无法验证而备受质疑。那么,中国“鬼城”的真实面目是怎样的呢?又如何高效地进行研究呢?

挑战:

全国范围内高质量的房地产数据和人口数据是很难获取的,使得大部分报道只知其表,不知其里,通过报道图片来推测。

具体到这项研究上,首先要确定数据的性质:一是使用百度定位技术APP的数据,一是相关住宅区域的兴趣点(POI,Point of Interests)数据。定位数据的信息包括用户ID、经纬度、时间点。其中,用户ID全部匿名化,以保证隐私安全。POI数据包括该地点的名称、经纬度和类别(普通住宅还是别墅)。这些高精度的数据所覆盖的时间长度为2014年9月8日至2015年4月22日,每日的数据量可达数十亿;地理范围的广度为全国。这些数据特性可以在一定程度上反映出人口密集度,即该研究的重点。

然后,通过这些数据再去发现并界定住空区。这不光要看当地居住人口,还要计算两个变量:用户的具体住宅地点和住宅区的位置。在这里,吴海山他们采用了一种叫作DBSCAN的算法确认用户具体的住宅地点。同时,利用POI数据区分出房屋类别,把那些一公里内有别墅的住宅区的POI数据剔除出去,因为靠近别墅的人口密度本来就低于普通住宅楼,再加上那些别墅很有可能是刚刚建成的,本来也没什么人居住。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

完成了上述两步之后,研究人员将全国划分为数个100m×100m的网格进行人口统计。具体方法是,以每个小区的POI数据点为中心,挑选出5×5个(共25个)网格,再从中挑出人口最多的6个。如果这6个网格里的人口数量之和小于300人,即推断为住空区。同时,吴海山的团队还把和的值设定为大于60,以排除新建住宅区。实际上,这些被发现的住空区就是我们平时所说的“鬼城”。

对住宅POI所在的格子外扩500米*500米(小区平均大小),即25个格子,求人数最多的6个格子的人数总和。如果人数总和小于300人,则认为是空置住宅区。

没有住宅小区的边界数据,有的POI点在住宅小区的中心位置附近,有的在小区的边界,最极端的情况是在两个小区的交界位置。

这种情况下,只有6个格子会在小区内,所以我们选6。

中国的平均容积率为1,人均住房面积为30平方米。

那么100米*100米的格子可以居住的人为333人。

我们的数据有770百万个用户,而中国有13亿人。

所以一个格子平均有188个百度用户。

我们定义一个格子内小于1/4的用户数为住宅控制区,那么6个格子大约是300个。

研究人员选出了20个拥有大量住空区的城市,民众可前往以下网址查看:http://bdl.baidu.com/ghostcity/。可以看出,中国的“鬼城”大多分布于东部的二三线城市,具体来看,又基本都分布在城市的边缘地带或者新建城区。例如著名的鄂尔多斯“鬼城”就是一个新建城区——康巴什新区。还有天津滨海新区、郑州郑东新区、沈阳全运村等。这一类“鬼城”都是由于城市规划不合理或者过于超前造成的,还有一类“鬼城”属于旅游景区的城市,旅游淡季到来时就会出现“季节性空城”,如山东乳山、江苏如皋、海南琼海等。这两类“鬼城”的真实性也都被媒体报道或当地信源验证过。

当然,由于成因不同,“鬼城”并非一成不变。随着当地经济的发展和政府的适当引导,有些“鬼城”也能变活。例如郑东新区,如今已经通了地铁,居民数量也在增加。

乳山是一个旅游城市,拥有长达21公里风景秀丽的海岸线,因为海滩沙子洁白如银,因此获得“银滩”之名。因此该地区的大部分房地产是季节性住宅,人们购买是为了度假。康巴什位于鄂尔多斯市中南部,是鄂尔多斯市市委市人民政府驻地。

在比较了这两类有同样巨大的住空区、成因却完全不同的两个城市的时空大数据之后,研究人员发现了一些有趣的现象。例如,康巴什的人口变化周期以周为单位,而乳山不是;当康巴什的人口下降时,乳山的人口却在增加。我们可以理解为,这两个城市的功能不同,康巴什主要是工作地点,而乳山则主要是度假地点。

这些数据还凸显了“鬼城”所在地住-工分离的现实。例如,乳山银滩的工作场所明显少于市中心,相应地,居住人口也少于市中心。这也说明,一个新建的城市,尽管漂亮整洁,但并不能天然地吸引人们迁入,因为基础设施和工作机会要比建筑本身来得更加重要,那些才是留住居民的关键。

总结:

正如Wade Shepard所说,建造一个新城市容易,但要让它真正运转起来则需要长久的努力。

案例三:

利用时空数据做公共安全的工作。

问题描述:

如何利用人群移动时空大数据和即时查询数据来分析人群踩踏事件的成因,进一步可否提前预警此类事件发生?

传统的方法是基于监控摄像头和计算机视觉的方法来完成的,局限性在于:

光照和环境条件对视觉数据识别的干扰;

部署摄像头受物理条件限制,很难无死角全覆盖;

无法提前较长时间预测人群聚集,例如提前若干小时。

挑战:

人群异常聚集与人们日常行为轨迹之间没有相关性。

回顾2014年12月31日上海外滩踩踏事件,正值跨年夜活动,很多游客市民聚集在上海外滩迎接新年,上海市黄浦区外滩陈毅广场东南角通往黄浦江观景平台的人行通道阶梯处底部有人失衡跌倒,继而引发多人摔倒、叠压,致使拥挤踩踏事件发生,造成36人死亡,49人受伤。2015年1月21日,上海市公布12·31外滩拥挤踩踏事件调查报告,认定这是一起因对群众性活动预防准备不足、现场管理不力、应对处置不当而引发的拥挤踩踏并造成重大伤亡和严重后果的公共安全责任事件。

大数据方式通过对比中秋、国庆和跨年的人群热力图来发现踩踏事件的根因所在:中秋、国庆的人流方向主要为同向或对向;而新年夜人群流动方向成明显乱序状态。

统计新年夜期间的数据,发现定位数与地图查询数的正相关性,且地图查询峰值提前于定位峰值。

总结:

统计定位数与地图查询数的互信息(Mutual Information),发现可提前1小时预测,可用于智能城市的管理应用。



小结:

大数据科学研究往往是问题驱动的,具有强烈的现实意义和实用价值,“好比一堆沙子,如果不用于实际建筑就仍然只是一堆沙子”;

百度时空数据挖掘,对城市问题的量化分析和检测;

经济预测案例:时空大数据和人群行为活动的深度挖掘是研究国家宏观经济趋势和企业微观经营活动的新视角;

鬼城发现案例:时空数据挖掘是揭示城市新现象背后成因的新手段;

踩踏预警案例:地图搜索行为是一种非常好的人群行为指示器和预测器。

大数据研究城市计算的范式主要是问题驱动,根据具体的问题结合对专业知识的理解应用大数据方法往往是比较好的方式。

方法论都在相关高校既有的研究中,关键是要看到值得研究的问题在哪以及如何抽象定义问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: