您的位置:首页 > 大数据

你是探索者,还是归客?用大数据说话

2015-11-09 21:42 218 查看
——你是来回采矿的农民,还是浪迹天涯的英雄?

公元14世纪,伟大的航海家克里斯托弗.哥伦布以及其他欧洲大陆的探险家在美洲登陆时,带来的第一个“礼物”是什么?好吧,你们肯定不知道,而且也不用瞎猜了,他们带来的是谈虎色变的流行病。西班牙人用无形的武器轻而易举的对付了那些无知的原住民们:天花、流感、水痘和麻疹;这些快速蔓延的流行病让侵略者们仅用了很少的努力就征服了美洲大陆。

“其中的一个手段,就是以牺牲某个人为代价,进行疾病传播”美国科学家及著名作家 Jared Diamond(贾里德 梅森 戴蒙德:加州大学地理系教授,著名科普作家。其中他的《枪炮、病菌与钢铁》一书,获得了1997年普利策奖)在著作中写到,“欧洲人通过将流行性传染病菌传染给他们(通常是无意)……因为时间关系,欧洲人对这些传染性疾病已经产生了一些遗传性抗体……但是这些从未与文明世界接触过的美洲土著,确没有这些抗体。”这种危机的蔓延程度和死亡率是惊人的:在短短的50年间,有80%至95%的美洲土著居民死去了。欧洲的探险者们就这样开辟了一个新的世界,欧洲的文化、语言和商业路线开始在世界各地延伸。然而,这仅仅是开始,他们的探索也如同疾病一样,不断的出现在新的地方、新的城市和新的大陆。

那么今天呢?在这个现代科技的世界里,旅行已经不再是像文艺复兴时期,那些大胆的纯爷们之间的一个保留活动了。那么谁是现代的哥伦布和韦斯普奇(1454-1512,意大利航海家和探险家)呢?这些现代的“探险家”们的冒险旅程,亦是如同他们的先驱者那般,像疾病一样的四处扩散么?

针对这样一个引人入胜的问题,我和我的同事布里斯托大学的菲利普.斯密尼、东北大学的阿尔伯特 巴拉布等人在KDD实验(KDD实验室是ISTI研究所以及比萨大学计算机系联合合作的一个研究数据挖掘的联合机构)做了一些有趣的研究。并且按照我们研究的问题,我们将作为探索者,对比萨、布达佩斯和波士顿三个分布在旧世界和新世界的不同地方展开研究。在这三年间,我们三人在距离相隔惊人的三个城市之间,通过一个对总共涉及的研究对象超过了10万人的,电话和汽车的移动进行个人流动模式的分析和研究。

大数据和人口流动模式

通过大数据技术的强大能力来研究人类的流动性,使我们能够详细的观察和记录到近10万人在不同地域上移动的信息。以下是供我们用来研究的数据集:

1、一份存储了包括五万名(匿名)手机用户在三个月内所有的电话信息的数据集。每一次电话通信,实际上都会记录在他当时所处的位置以及他们的职业行为,这样就能让我们重建他的流动性轨迹。

2、一份存储了一个月内,在托斯卡纳地区5万个私家车辆上的GPS设备所发送回来的,超过一千万人次的位置定位信息数据。在这期间内,每当一个车主使用汽车,那么安装在这个汽车上的GPS设备就向以惊人的准确性向服务器发送位置信息。

这些信息使我们能够得出下图这样,类似于“神经系统”一样的流动性可视化效果图,这种可视化效果可以概括我们整个移动生态系统的复杂性。



 

在我们研究中使用的GPS轨迹的一个片段的可视化效果图,显示了来自比萨市区(蓝色)和来自佛罗伦萨地区(红色)的人口流动情况。这个地理关系的可视化实验结果,清晰的揭示了两个“对立竞争”的大城市之间的关系。同时也表明了用大数据技术对社会复杂度描绘的能力。

从这些数据中,我们通过三个月内进行了特定旅行的个人的轨迹,将每个人独立的流动性进行了合成。通过计算他的活动半径,来揭示每个人的活动范围。一个小的移动半径,表明了此人通常进行短距离的旅行;而有较大的流动性半径,则表示了此人每天的活动区域都要覆盖比较大的区域。当我们对所有人的经常性活动轨迹(比如家庭住址-工作地点这样的活动)以及总的活动半径(计算此人所有的活动轨迹)进行比较的时候,发现了一个意料之外且非常却有趣的结果:人们自然而然的分裂成了两个群体,且具有各种独立活动特性。

归客和探索者

第一组人的日常运动轨迹的半径与总体运动的轨迹半径非常相近,换句话说,他们经常仅在几个固定的区域之间活动(比如家和工作地点之间),他们就是我们所谓的“归客”。而另一组人则表现完全不一样,他们日常的活动只是整体活动轨迹的一小部分,这些人被我们面名为“探索者”。归客经常性的在他们预先定义的区域内活动,而探索者则没有这种预设,他们在几乎所有的未知区域之间活动。



X轴表示的每个个体的整体活动半径,Y周表示经常性活动半径。我们可以观察到,对角线(returners)附近的数据,表示每个个体的总活动半径与日常活动半径基本相同(即所谓的归客),而集中在X轴(explorers)附近的每个个体的日常活动半径都要比总体活动半径要小很多。

通过上图,我们提出这样一个问题:你是否是哥伦布?只能回答:是或者不是——没有中间答案。如果是你哥伦布似的探险家,那么你的活动轨迹比对恋家的归客们,有着像“星型”一般的独特形状:通常在以一个核心位置(家庭住址或者工作场所)为中心的若干区域之间活动(如下图),这些地点可能是这些探索者们前往距离中心位置非常遥远的一些地点进行旅行的活动轨迹。通过这些轨迹,我们可以看见探索者们在比萨、佛罗伦萨以及托斯卡纳之间不断的流动,并且发现一些风景优美的“新大陆”。他们就像新时代的哥伦布,不断的探索和发现着新的“美洲大陆”,并且将这些捕获到的新“卫星”添加到他们的引力轨道中去。

 


 

归客们与探索者们的移动网络图。每个节点(小圆圈)表示每个个体到访的地理位置,每个链接表示被记录的在这两个位置之间的旅行活动。当总活动半径很小的时候,归客和探索者在作为核心的两个地点(家和工作的地方,分别用红色和蓝色表示)之间活动的轨迹基本相似(图形左边的聚集区域)。当总活动半径增大的时候,归客和探索者就开始显示不同的行为模式;归客的两个核心活动区域的参考位置相互远离,而探索者的核心位置依然接近,但是其他区域开始远离中心区域(用灰色表示)。

探索者的传播模式

如果你是一个探索者,那么当你旅行的时候,你并不是孤独的,正如哥伦布和他的同行们一样。然而当你是一个病毒传播者,那么你的传播模式在不同的地区、城市甚至新的大陆都会不同。我们通过密集的计算机模拟和计算,表明了归客和探索者在某个区域对传播某种疾病(比如瘟疫)具有不同的模式。探索者是更具有活力的传播者:他们传播的速度很快,而且对传播趋势的蔓延有积极的影响,因为他们在较小的时间内就能覆盖比归客更大的活动区域。在活动速度的方面,今天的探索者们比中世纪欧洲的水手更为快捷:他们通过飞机或者汽车来代替风帆船,但是他们的危险一点都不文艺复兴时期的探险家们要少。

令人惊讶的事情还没有介绍,因为通过我们的分析,还发现,人们的婚姻状况仿佛是上天注定的:通过观察个人的手机通信数据还可以推断出他的社交网络。我们发现,探索者更倾向于与其他的探索者交流,而归客也会更多的和归客们进行交流。每个人的活动领域和活动模式,基本上决定了他的社交网络。

“那么这样说来,你也是一个探索者咯?因为你有大量的时间往返于比萨、布达佩斯和波士顿之间。”巴拉布当听说我讲人们分类为归客和探索者之后,这样对我说。

“你也是一个探索者,巴拉布先生,我认为每个科学家都是一个探索者。”我这样回答,因为我认为,符合这些分类的人,必然被定义为了探索者。因为作为一个科学家在世界各地活动都是作为其工作的一部分,这些活动包括了各种项目会议以及合作、传播各种知识和思想,而且这种活动因为大学和研究机构的分布呈现出更大的距离模式。其他人,就被定义为归客:比如高中学生的活动轨迹与科学家们就正好相反,他们总是将学校和家庭之间作为他们的日常活动范围,所以更容易出现我们称之为“双向模式”的运动规律。

 

你呢?是一个归客还是一个探索者?可能你已经知道了答案。虽然你没有出现在我们的数学模型中,但是我们的研究将告诉大家更多的流动性结构,以及个人在社会中的角色。如果你是像哥伦布一样的探索达人,那么你与其他的旅行者就会有更多的联系。反之,如果你只是一个宅男,那么你活动区域很少会出现需要冒险的场景——但是:至少未来会可能发生的流感疫情不是你的错。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: