《大数据时代》摘抄,第一部分大数据时代的思维变革(2、不是精确性,而是混杂性)
2013-03-01 13:39
369 查看
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
允许不精确——数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们通过努力避免这些问题,学会接受它们。混杂性一方面来自错误的数据(测量的不准确),也来自格式的不一致(如不同的日期格式、同义词)。为了扩大规模,我们接受适量错误的存在,有时得到2加2约等于3.9的结果,也很不错。为了了解大致的发展趋势,我们愿意对精确性做出一些让步。
“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候,要学会拥抱混乱。
大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据
纷繁的数据越多越好,如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
要想获得大规模数据带来的好处,混乱应该是标准途径,而不是竭力避免。
今年大转变是非关系数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下97%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个未涉足的世界的窗口。
社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。第一个折中是,我们默认自己不能使用更多地数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。第二个折中出现在数据的质量上。在校数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
大数据要求我们有所改变,我们必须能够接受混杂和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”,但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
允许不精确——数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们通过努力避免这些问题,学会接受它们。混杂性一方面来自错误的数据(测量的不准确),也来自格式的不一致(如不同的日期格式、同义词)。为了扩大规模,我们接受适量错误的存在,有时得到2加2约等于3.9的结果,也很不错。为了了解大致的发展趋势,我们愿意对精确性做出一些让步。
“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候,要学会拥抱混乱。
大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据
纷繁的数据越多越好,如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
要想获得大规模数据带来的好处,混乱应该是标准途径,而不是竭力避免。
今年大转变是非关系数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下97%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个未涉足的世界的窗口。
社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。第一个折中是,我们默认自己不能使用更多地数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。第二个折中出现在数据的质量上。在校数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
大数据要求我们有所改变,我们必须能够接受混杂和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”,但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
相关文章推荐
- 《大数据时代》摘抄,第一部分大数据时代的思维变革(1、不是随机样本,而是全体数据)
- 云计算不是简单操作而是时代变革
- 大数据时代的变革与顺势而为——读《大数据时代》
- 大数据时代的思维变革
- 数学之路-大数据时代的数学思维-软件工具-octave(1)
- Thinking in BigData(二)大数据时代下的变革
- 大数据时代,百货行业信息化将如何变革?
- 大数据时代下是数据思维重要,还是相应技术重要?
- ThoughtWorks史凯: 数字化转型不是技术变革,而是企业灵魂深处的自我革命
- 大数据时代的数学思维(2)-混沌产生随机数
- 大数据时代,我们应该具有怎样的思维方式?
- 大数据时代将带来人类文化的变革
- 穷人富人的思维方式|不是几年的工作经验让你加工资,而是你的能力让你加工资
- 小程序:我不是你的选择,而是时代的选择
- 大数据时代:生活 工作 与思维的大变革
- 36 《魔鬼数学 : 大数据时代,数学思维的力量》 -豆瓣评分8.3
- 小程序:我不是你的选择,而是时代的选择
- 大数据时代的历史机遇-产业变革与数据科学
- 《大数据时代的历史机遇-产业变革与数据科学》读后感
- 大数据时代下EDM邮件营销的变革