您的位置：首页 > 大数据

《大数据时代》摘抄，第一部分大数据时代的思维变革（2、不是精确性，而是混杂性）

2013-03-01 13:39 369 查看

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下95%的非结构化数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。

允许不精确——数据量的大幅增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。然而，重点是我们通过努力避免这些问题，学会接受它们。混杂性一方面来自错误的数据（测量的不准确），也来自格式的不一致（如不同的日期格式、同义词）。为了扩大规模，我们接受适量错误的存在，有时得到2加2约等于3.9的结果，也很不错。为了了解大致的发展趋势，我们愿意对精确性做出一些让步。

“大数据”通常用概率说话，而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候，要学会拥抱混乱。

大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据

纷繁的数据越多越好，如今，我们已经生活在信息时代。我们掌握的数据库越来越全面，它不再只包括我们手头现象的一点点可怜的数据，而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益，而不是以高昂的代价消除所有的不确定性。

大数据不仅让我们不再期待精确性，也让我们无法实现精确性。错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。

要想获得大规模数据带来的好处，混乱应该是标准途径，而不是竭力避免。

今年大转变是非关系数据库的出现，它不需要预先设定记录结构，允许处理超大量五花八门的数据。因为包容了结构多样性，这些数据库设计就要求更多的处理和存储资源。

据估计，只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱，剩下97%的非结构化数据都无法被利用，比如网页和视频资源。通过接受不精确性，我们打开了一个未涉足的世界的窗口。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中，我们甚至不再把这当成一种折中，而是把它当成了事物的自然状态。第一个折中是，我们默认自己不能使用更多地数据，所以我们就不会去使用更多的数据。但是，数据量的限制正在逐渐消失，而且通过无限接近“样本=总体”的方式来处理数据，我们会获得极大的好处。第二个折中出现在数据的质量上。在校数据时代，追求精确度是合理的。因为当时我们收集的数据很少，所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情，快速获得一个大概的轮廓和发展脉络，就要比严格的精确性要重要得多。

大数据要求我们有所改变，我们必须能够接受混杂和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的“钉是钉，铆是铆”，但认为每个问题只有一个答案的想法是站不住脚的，不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话，我们离真相就又近了一步。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航