您的位置:首页 > 大数据

大数据学习02:大数据课程概述与大数据背景知识

2019-03-21 09:59 330 查看

Hadoop2.X管理与开发

每日关注

2019年3月21日 星期四

1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言

2. 小红书上线“品牌号”,并进行五大模块升级

3. 知乎否认内测“知乎百科”产品,“百科”是知乎话题的简介

4. 民政部:养老院查询APP“养老通”在北京地区上线

一、什么是大数据

举例:
1、电商的推荐系统:
(问题1)大量的订单如何存储?
(问题2)大量的订单如何计算?注意:可能运用推荐算法(协同过滤、ALS、逻辑回归)
2、核心问题:
(1)数据的存储------->分布式的文件系统(HDFS)
(2)数据的计算------->分布式计算:MapReduce、Spark(RDD:弹性分布式数据集)

二、数据仓库和大数据

1、传统方式:搭建数据仓库来解决大数据的问题
2、数据仓库就是一个数据库(Oracle、MySql、MS)

三、OLTP和OLAP

1、OLTP:Online Transaction Processing 联机事务处理 指:(insert、update、delete)事务传统的关系型数据库解决的问题

2、OLAP:Online Analytic Processing联机分析处理
数据仓库就是一种OLAP的应用系统
Hadoop、Spark看成是一种数据仓库的解决方案

四、Google的基本思想


第二份优先保存在不是第一个机架的机架上(安全)
第三份优先保存在第一个机架上的另一个服务器上(效率)

(一)GFS(Google File System)
1、分布式文件系统
2、大数据的存储问题
3、HDFS中,记录数据保存的位置信息(元信息)--->采用倒排索引(Reverted Index)
(*)什么是索引?index
(1)create index 创建索引
(2)就是一个目录
(3)通过索引找到对应的数据
(4)索引一定可以提高查询的速度

(*)什么是倒排索引?

(二)MR:分布式计算模型:问题来源:PageRank(网页排名)

(三)BigTable:大表-----------NoSql数据库:Hbase
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: