您的位置：首页 > 大数据

大数据学习、工作过程中最容易掉入的十大天坑！你中招了吗？

2019-02-12 21:10 190 查看

“数据科学家=统计学家+程序员+讲故事的人+艺术家。“ – Shlomo Aragmo。博主总结了一些在大数据学习工作过程中容易出现的一些问题，希望能给各位带来帮助，愿各位都能在2019年更上一层楼！

一、分布式存储

传统的集中式存储已经存在一段时间了。但是，大数据并不真正适合于集中式存储体系结构。Hadoop旨在使计算更接近数据节点，并使用HDFS文件系统的大规模横向扩展。

不过，解决Hadoop在管理自己的数据时效率低下的通常方法是在SAN上存储Hadoop数据。但它也会造成自身的性能和规模瓶颈。现在，如果您通过一个集中的SAN处理器处理所有的数据，那么这就违背了Hadoop的分布式和并行特性。您可以为不同的数据节点管理多个SAN，也可以将所有数据节点集中到一个SAN中。

但是Hadoop是一个应该在分布式存储上运行的分布式应用程序，因此存储保持了与Hadoop本身相同的灵活性，但它还需要采用软件定义的存储方案并在商业服务器上运行，这自然比瓶颈Hadoop更高效。

二、超融合vs分布式

注意不要把过度融合和分布混淆。有些超融合方案是分布式存储，但这个术语通常意味着应用程序和存储存储存储在同一个计算节点上。这是一种解决数据本地化问题的尝试，但它会导致资源争用过多。Hadoop应用程序和存储平台争夺相同的内存和CPU。Hadoop运行在专有应用层，分布式存储运行在专有存储层，这是更好的。然后，利用缓存和分层技术解决了数据定位问题，弥补了网络性能的损失。

很多小伙伴，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习Qun：775908246，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

三、避免控制器瓶颈

实现这一目标的一个重要方面是避免通过单点（如传统控制器）处理数据。相反，为了确保存储平台的并行化，性能可以显著提高。

此外，该方案还提供了增量可伸缩性。向数据池添加功能非常简单，只需将服务器放入其中即可。分布式存储平台将根据需要自动添加功能并重新调整数据。

四、删除和压缩

掌握大数据的关键是删除和压缩技术。通常70%到90%的数据简化发生在大型数据集中。在PB容量方面，它可以节省数万美元的磁盘成本。现代平台提供内联（对比度后处理）删除和压缩，大大降低了存储数据所需的容量。

五、合并Hadoop分布

许多大型企业都有多个Hadoop发行版。也许开发人员需要它，或者企业部门已经适应了不同的版本。然而，最终这些集群需要维护和运行。一旦大量数据真正开始影响企业，多个Hadoop分发存储可能会导致效率低下。我们可以通过创建一个单一的、可删除的和压缩的数据池来获得数据效率。

六、Hadoop的虚拟化

虚拟化已经席卷了企业市场。许多领域80%以上的物理服务器现在都是虚拟化的。但由于性能和数据本地化问题，仍有许多公司避免谈论虚拟化Hadoop。

七、创建弹性数据湖

创建一个数据湖并不容易，但可能需要大量的数据存储。有很多方法可以做到这一点，但哪一个是正确的？正确的架构应该是一个动态、灵活的数据池，它可以以多种格式（结构化、非结构化、半结构化）存储所有资源。更重要的是，它必须支持应用程序的执行，而不是在远程资源上，而是在本地数据资源上。

不幸的是，传统体系结构和应用程序（即非分布式）并不令人满意。随着数据集越来越大，将应用程序迁移到数据是不可避免的，因为延迟太长，所以无法反转数据集。

理想的数据湖基础设施将存储数据的单个副本，并且可以在单个数据资源上实现，而无需迁移数据或进行复制。

八、集成分析

分析并不是一个新的特性，它已经在传统的RDBMS环境中存在了很多年。区别在于开源应用程序的出现，以及数据库表单和社交媒体、非结构化数据资源（如维基百科）的集成能力。关键是能够将多种数据类型和格式集成到一个标准中，这有助于更轻松、一致地可视化和生成报表。适当的工具对分析/商业智能项目的成功也至关重要。

九、大数据与大视频

大数据存储的问题一直是一个有点头疼的问题，现在有一个大的视频现象。例如，在安全性、运营和工业效率方面，企业正在逐步使用视频监控来简化交通管理，支持法规遵从性和其他几个用例。在很短的时间内，这些资源将产生大量的内容，必须处理大量的内容。如果没有专业的存储解决方案，可能会导致视频丢失和质量下降。

十、没有绝对的赢家

Hadoop确实取得了一些进展。因此，随着大数据存储到处开花，不管它是否会成为赢家，并推动其他解决方案，事实上，它不是。

例如，传统的基于SAN的体系结构在短期内是不可替代的，因为它们具有OLTP的固有优势，即100%的可用性需求。因此，最好的方法是将超融合平台与分布式文件系统和分析软件相结合。成功的最重要因素是存储的可扩展性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据 Hadoop 分布式

相关文章推荐

新的分享

章节导航