【笔试PK面试】之处理大量数据技术到底哪家强
2014-10-26 20:51
369 查看
海量数据处理,是指基于海量数据的存储、处理、和操作。举个例子,假设需要搜索的输入信息是一个字符串,统计500万输入信息中的最热门的前十条,我们每次输入的一个字符串为不超过255byte,内存使用只有1G,符合实现??因为数据量太大,导致要么无法在较短时间内迅速解决,或者无法一次性装入内存。
【通用解决办法】:
(1)针对时间问题,可以采用巧妙的算法搭配合适的数据结构(如布隆过滤器、哈希、位图、堆、数据库、倒排索引、Trie树)来解决;
(2)而对于空间问题,可以采取分而治之(哈希映射)的方法,也就是说,把规模大的数据转化为规模小的,从而各个击破。
因此可以总结处理海量数据问题有以下方法:
1.哈希分治;
2.simhash算法;
3.外排序;
4.MapReduce;
5.多层划分;
6.位图;
7.布隆过滤器;
8.Trie树;
9.数据库;
10.倒排索引。
【通用解决办法】:
(1)针对时间问题,可以采用巧妙的算法搭配合适的数据结构(如布隆过滤器、哈希、位图、堆、数据库、倒排索引、Trie树)来解决;
(2)而对于空间问题,可以采取分而治之(哈希映射)的方法,也就是说,把规模大的数据转化为规模小的,从而各个击破。
因此可以总结处理海量数据问题有以下方法:
1.哈希分治;
2.simhash算法;
3.外排序;
4.MapReduce;
5.多层划分;
6.位图;
7.布隆过滤器;
8.Trie树;
9.数据库;
10.倒排索引。
相关文章推荐
- 【笔试PK面试】处理大量数据技术到底哪家强之(分而治之)
- 这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种
- 这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种
- 大量日志数据复杂事件处理技术(Complex Event Processing 简称CEP)
- JAVA笔试面试之使用堆排对大量数据进行筛选最大或最小
- 数据量的问题是很多面试笔试中经常出现的问题
- 一位牛人的博客(内含大量IT类技术笔试面试题和答案)
- Step1数据系统技术(6.汉字URL路径的处理和编码)
- SQL分段处理删除大量数据
- huawei-大量数据分批处理思想,自定义游标,游标开关
- 计算机专业面试笔试问题之大数据量,海量数据 处理方法总结
- 大量数据查询输出的处理方法
- 《数据挖掘——概念和技术》笔记之数据预处理
- 封装多线程处理大量数据操作
- 三个提高Oracle处理大量数据效率的有效途径
- sql server 到底能否处理百万级,千万级的数据?
- VC++下动态数据交换技术之会话处理
- MFC 对话框 最小化 拖动 不响应 处理大量数据
- 基于SWT处理大量数据的表(Table)和树(Tree)
- 某数据集团数据库初试笔试题(数据库面试 笔试题)