大数据入门的常用技术栈全在这里了
大数据自 2009 年走向人们的视野,亦如所有新技术的发展,经历了一波炒作后,由风口回归理性发展。我们可以看到,随着 IOT 技术的发展和成熟,以及 5G 业务的全面铺开,数据规模还将持续增长。
新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项通用技术,应用在各个角落。同时,大数据技术的发展也由解决数据规模问题,发展到如何更高效地消费大数据,数据的实时性、云上迁移等成为大数据圈的新挑战。我们挑选了一些能应对这些新挑战的有代表性的技术栈,绘制了如下大数据圈生态图,并在下文对主流的技术栈进行了介绍:
OLAP 分析引擎:Apache Kylin™
Apache Kylin™ 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。Apache Kylin™ 仅需三步,即可实现超大数据集上的亚秒级查询:
- 定义数据集上的一个星形或雪花形模型
- 在定义的数据表上构建 Cube
- 使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询
Kylin 提供与多种数据可视化工具的整合能力,如 Tableau,PowerBI 等。
Kylin 官方社区推荐必读好文:
都是 HBase 上的 SQL 引擎,Kylin 和 Phoenix 有什么不同?
Kylin 在携程百亿级数据分析中的实践
从 ES 到 Kylin,斗鱼客户端性能分析平台进化之旅
如何在 1 秒内做到大数据精准去重?
想做大数据实时分析?且看 Kylin 如何解决
新一代大数据计算引擎:Apache Flink
ApacheFlink 是一款开源分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。Flink在流处理方面具有绝对的优势,提供高吞吐、低延时的计算能力,如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:458数字345数字782获取学习资源,Exactly-once 语义保证数据的准确性,亚秒级别的处理延迟确保业务的快速响应,成为类似阿里巴巴、腾讯、华为、eBay、字节跳动、滴滴、美团点评、字节跳动等知名公司建设流处理平台的首选。
Flink 官方社区推荐必读好文:
如果你也想做实时数仓...
Flink 客户端操作的 5 种模式
Flink 状态管理及容错机制
Flink SQL 编程实践
Flink Runtime 核心机制剖析
下一代云原生分布式流数据平台:Apache Pulsar
Apache Pulsar 源于 Yahoo,2016 年开源,2018 年正式成为 Apache 顶级项目,集消息、存储和函数式轻量化计算的流数据平台。
技术上采用业界领先的计算和存储分离架构,使用 Apache BookKeeper 作为其分片存储,配合层级存储,具备“高吞吐、低延时、分布式强一致、瞬时弹性扩容、Balance-Free、故障自恢复的高可用” 等核心特性。
Pulsar 官方社区推荐必读好文:
Apache Pulsar 介绍
Apache Pulsar:从消息系统到流原生平台
Apache Pulsar 项目和社区分享
Apache Pulsar 的跨地域复制机制介绍
Flink 和 Pulsar 的批流融合
开源的非关系型分布式数据库:Apache HBase
Apache HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 BigTable 的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase 的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过 10 亿行数据和数百万列元素组成的数据表。
HBase 官方社区推荐必读好文:
再谈 HBase 八大应用场景
HBase 原理|HBase 内存管理之 MemStore 进化论
HBase 抗战总结|阿里巴巴 HBase 高可用8年抗战回忆录
HBase 实践|说好不哭,但 HBase 2.0 真的好用到哭
HBase 分享 | 基于 HBase 和 Spark 构建企业级数据处理平台
开源分布式 NoSQL 数据库系统:Apache Cassandra
Apache Cassandra 最初由 Facebook 开发,于 2008 年开源。它集 Google BigTable 的数据模型与Amazon Dynamo的完全分布式架构于一身,表现出良好的可扩展性和性能。在数据库排行榜“DB-Engines Ranking”中位于宽列存储模型数据库第一名, 同时也被 Apple, eBay, Netflix, 360,饿了么等知名国内外公司广泛使用,是当下一种流行的分布式结构化数据存储方案。
- 点赞
- 收藏
- 分享
- 文章举报
- 实用干货!大数据入门的常用技术栈全在这里了
- 机器学习之路史上吐血整理大数据技术书从入门到进阶最全本(书籍推荐珍藏版)
- Python编程:10个常用的代码简写技术,看懂一种是入门,全部看懂是大神!
- Android UI入门 (非常用方式,类HTML页面展现技术探索)
- DirectShow入门之构建Graph图常用技术
- DirectShow入门之构建Graph图常用技术
- 最常用的缓存技术---redis入门
- Redis常用命令入门——列表类型(一级二级缓存技术)
- 大数据技术之Hadoop入门(第二篇)
- Python的10个常用代码简写技术,看懂一种是入门,全部看懂是大神!
- 大数据入门的五大核心技术
- 常用大数据技术名词通俗解释
- 大数据技术 Kafka 集群安装部署 快速入门
- MongoDB入门教程之常用的运维技术介绍
- JAVA从菜鸟【入门】到新手【实习】一一常用计算机技术认识
- 大数据技术之Hadoop入门(二)
- java如何快速入门Hadoop大数据技术?
- 大数据入门环境搭建整理、大数据入门系列教程合集、大数据生态圈技术整理汇总、大数据常见错误合集、大数据的离线和实时数据处理流程分析
- 大数据技术之Hadoop入门
- Jquery mobile入门及开发常用技术