什么是大数据技术架构
2018-11-14 09:57
134 查看
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。
大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;
与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。
第一类:从来源来看分为内部数据和外部数据;数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:
第二类:从结构来看分为非结构化数据和结构化数据;
第三类:从可变性来看分为不可变可添加数据和可修改删除数据;
第四类,从规模来看分为大量数据和小量数据
大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。
从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。
大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司通过使用DKH,可以轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。
- DKH,有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。
- DKH,更是通过大快独有的中间件技术,将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。
- DKH,虽然进行了高度的整合,但是仍然保持了开源系统的全部优点,并与开源系统100%兼容,基于开源平台开发的大数据应用,无需经过任何改动,即可在DKH上高效运行,并且性能会有最高5倍的提升。
- DKH,更是集成了大快的大数据一体化开发框架(FreeRCH), FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了10倍以上的开发效率的提升。
- DKH的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。
DKH标准平台技术构架图
相关文章推荐
- 系统架构、软件架构、物理架构、总体架构、业务架构、应用架构、数据架构、技术架构
- 分布式架构需要什么技术 呢?Dubbo、zookeeper
- 全文检索、数据挖掘、推荐引擎系列1---技术架构
- 英特尔大数据技术与分布式架构设计详解
- 2013 年国外互联网公司大数据技术架构研究
- 淘宝网采用什么技术架构来实现网站高负载分析
- 在大数据与物联网(传感网)技术中我们应该什么做?
- Atitit 高性能架构之道 attilax著 艾龙 著 1. 应用服务与数据隔离 2 2. 负载均衡你问题 2 2.1. 用户的请求由谁来转发到到具体的应用服务器 2 2.2. 有什么转发的算法
- 大数据告诉你:2018年该学习什么技术
- 淘宝网采用什么技术架构来实现网站高负载的
- K8 系统中省市县数据表的设计可以反映出什么? 通过一个基础业务表的设计品味软件系统的整体架构
- 大型网站(高访问、海量数据)技术架构
- Yahoo! 的新一代大数据技术架构解析
- 可伸缩性架构常用技术——之数据切分
- 大数据学习总结(3)通用的技术架构
- 微信技术总监讲大数据高并发系统架构
- 淘宝网采用什么技术架构来实现网站高负载的
- 大数据是什么?学习大数据必须关注的十个大数据技术
- 什么是大数据?如何成为大数据的技术大牛?
- 大数据平台架构技术选型与场景运用