您的位置:首页 > 其它

同步直播(4):空间统计中的注意事项

2016-08-01 18:09 225 查看
同步直播空间度量以及统计的内容翻译。文章内容未做仔细修订,语句不通顺和错别字部分,会在以后不断的校正,此仅为beta版。



英文版权属于Esri。中文、解说、配图版权:虾神

————————我是分割线————————

选择合理的方法



分析的过程就是选择一个合理的方法来回答你提出问题或者分析预定的假设。所以整个分析过程取决于你的数据、你的分析方法以及某种情况下,这些方法之间的存在的差异。

不同类型的数据适用于不同的分析模式。对于离散类型的数据(点、线和部分面状数据),可以对分析要素数据本身的分布特征(如:某些杂货铺是否有聚集趋势),或者分析这些分布特征与要素属性是否有关联(如居民的收入水平与商店分布的聚集是否有关系)。

对于连续的空间场数据,主要看数据所表现相关现象使是否是你所感兴趣的——连续场数据分析,会把整个单元格的分布以及毗连地区全部的情况都会显示出来。同样是真实的汇总统计信息——所有内容与相关联的值的分布情况,结合在一起,覆盖了整个区域,所以你需要分析你所感兴趣的研究领域以及相应分布,以求得到没有表现出来的信息。

如果要对数据的分布特征进行分析,那么就需要处理大量的连续的值。当需要识别模式和聚类之时,你就考虑使用比率数据了——尤其是需要分析的数据汇总在毗连的区域的时候——比率数据可以很明显的标识出不同区域之间的差别。比如密度对于识别你感兴趣的内容很有价值——比如在对大型区域进行人口普查的时候,肯定有更多的老年人,但是密度标识了他们可能分布在更广泛的范围中。



计算统计值

虽然本书的重点仅仅是统计相关的应用,但是我们会给出所有相关的算法以及解释每个统计量的含义。这是因为GIS软件虽然能够进行计算,但是并不会告诉你背后的信息,虽然你依然可以获得结论。数学知识能够使你推倒出那些统计信息最适合于你需要进行的分析,从而避免从结果中得出错误的结论。

还有一些统计工具需要你提供特别的参数。例如,您可能需要确定对属性值产生影响的其他加权信息,如距离,比如周边房产的价格会直接影响到对你房产价值的评估,而距离越近的影响程度就越大。(此内容请参阅“定义空间邻近和权重”)



解释统计值

描述性统计信息可以生成一个计算值(这个值可以是一个空间对象),可以直接在地图上进行显示——如一组数据的中心位置在坐标xy处(生成一个点对象);也可以使用椭圆来表示数据分布的方向和趋势(生成一个面对象)。

而其他的统计信息会计算出数字值——他会告诉你是否有一种模式或者关系。这种数值一般是一种区域值,该值在这个区域中位置可以表示数据具有那种模式(聚集、离散、随机,如莫兰指数)、关系或者是权重。当然, 如果要验证这个结果是否具有意义,还需要进行统计验证。

检验统计显著性

零假设表示了数据本质上没有任何模式或者关系。显著性检验可以帮助你决定是不是应该拒绝零假设。

在分析之前,先要设定自己能够接受的犯错误的风险有多少。这个就是所谓的风险程度,被称为“置信水平”,是一个一般介于0到1之间值。

统计学家们一般都接受零假设,除非有很小的机会拒绝这种错误。(零假设在计算机中一般用随机来表示,拒绝零假设就是指计算出来的结果不存在随机的可能,统计学家在做任何分析之前,都先假设这个数据是随机的,需要通过计算来否定这种假设)。当然,不同事件分析技术所能接受得置信度也是不同的:如果你是负责分配巡逻警力的指挥官,那么某个区域的入室盗窃案聚集可信度达到80%(0.2的置信度),那么就足够你决定把巡逻车都送到那去了。然后如果是想要确定某种传染性疾病的爆发的原因,那么你可能需要确信这种疾病的爆发绝非偶然,而是出现明确的聚集,所以要达到95%以上的可信度才行(0.05的置信度)。

通常情况下我们在计算初始值时候,都首先使用软件来及进行置信度的测试,这种测试能够告知你的计算值的置信水平,一般以某一临界值来确定结果是否能够显著的拒绝零假设。如果统计检验量超过了临界值,那么就可以拒绝零假设。而只有拒绝了零假设的分析结果,才具有统计学上的意义。(见“检验统计显著性”)

质询分析结果

最后,即使计算证明你的分析结果具有统计学一样,你也会提出一些疑问。如你研究的地理尺度、区域边界的衰减,使用的数据类型,数据的质量以及空间关系的概念化这些内容都会影响到最后结果。例如在计算的时候才用的是直线距离,而不是采用真实的导航距离,那么结算的结果就有课程产生很大的差异。

在很多情况下,你还会想要分析对比若干个控制组的统计信息。犯罪可能会形成聚集,但是也有可能聚集区正好是居民生活区而已。然而,如果在人口低密度区域发生了犯罪聚集的簇,那么有可能就是真实的犯罪热点区域了。所以地理数据往往具有区域特征和趋势,所以你的分析结果在某种程度上是可以进行预测的。(见“在地理数据上使用统计方法”)

你还可以从你的分析得出的结论中与其他信息结合使用,包括这些利用你掌握的其他知识来进行决策的时候。您可能需要使用各种不同的方法来确认的分析结果,而进行统计分析的数据只是若干种自变量之一,而整个决策过程可能是多种因素(包括了政治和经济等人文因素)的综合性过程。



(任何技术都是存在于人和计算机之间,人和计算机都发挥着重要的作用)

第一章(前言)完
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: