大数据学习02:大数据课程概述与大数据背景知识
2019-03-21 09:59
330 查看
Hadoop2.X管理与开发
每日关注
2019年3月21日 星期四 1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言 2. 小红书上线“品牌号”,并进行五大模块升级 3. 知乎否认内测“知乎百科”产品,“百科”是知乎话题的简介 4. 民政部:养老院查询APP“养老通”在北京地区上线
一、什么是大数据
举例: 1、电商的推荐系统: (问题1)大量的订单如何存储? (问题2)大量的订单如何计算?注意:可能运用推荐算法(协同过滤、ALS、逻辑回归) 2、核心问题: (1)数据的存储------->分布式的文件系统(HDFS) (2)数据的计算------->分布式计算:MapReduce、Spark(RDD:弹性分布式数据集)
二、数据仓库和大数据
1、传统方式:搭建数据仓库来解决大数据的问题 2、数据仓库就是一个数据库(Oracle、MySql、MS)
三、OLTP和OLAP
1、OLTP:Online Transaction Processing 联机事务处理 指:(insert、update、delete)事务传统的关系型数据库解决的问题 2、OLAP:Online Analytic Processing联机分析处理 数据仓库就是一种OLAP的应用系统 Hadoop、Spark看成是一种数据仓库的解决方案
四、Google的基本思想
第二份优先保存在不是第一个机架的机架上(安全) 第三份优先保存在第一个机架上的另一个服务器上(效率)
(一)GFS(Google File System) 1、分布式文件系统 2、大数据的存储问题 3、HDFS中,记录数据保存的位置信息(元信息)--->采用倒排索引(Reverted Index) (*)什么是索引?index (1)create index 创建索引 (2)就是一个目录 (3)通过索引找到对应的数据 (4)索引一定可以提高查询的速度 (*)什么是倒排索引?
(二)MR:分布式计算模型:问题来源:PageRank(网页排名) (三)BigTable:大表-----------NoSql数据库:Hbase
相关文章推荐
- 大数据入门培训之大数据开发基础知识学习
- extjs学习02——背景知识简介和extjs基本概念
- 第一章 大数据学习之大数据概述
- Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程
- 大数据要学习什么知识?大数据学习的内容有哪些?
- python数据分析新手入门课程学习——概述(来源:慕课网)
- java学习02-java基础知识、基本数据类型、运算符
- 加米谷:大数据分析挖掘培训课程,数据分析挖掘应该从哪里开始学习
- Java基础知识学习之路-02-第一章-Java语言概述与开发环境
- 完整的大数据知识体系,大数据学习路线图
- TCP/IP指南(卷1):TCP/IP概述与背景知识
- [原创]java WEB学习笔记40:简单标签概述(背景,使用一个标签,标签库的API,SimpleTag接口,创建一个自定义的标签的步骤 和简单实践)
- 大数据与数据分析概述
- MySQL数据库学习02-数据表的基本操作:创建
- 【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
- DT大数据梦工厂大数据第一天课程
- Python学习02- 基本语法与数据结构
- 数据挖掘、数据分析、人工智能及机器学习课程资源
- 大数据主要学什么,学习大数据你要会什么
- 数据挖掘课程笔记6 : Numpy、Pandas和Matplotlib包基础知识