《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目6
2014-04-24 22:04
489 查看
2014-04-24 22:01
题目:你有10亿条url,怎么检测其中时候有重复呢?
解法:Hash,算签名,然后用K-V数据库保存数据查重。
代码:
题目:你有10亿条url,怎么检测其中时候有重复呢?
解法:Hash,算签名,然后用K-V数据库保存数据查重。
代码:
// 10.6 You have 10 billion URLs, how would you do to detect duplicates in them. // Answer: // 1. Use digital sign algorithm to convert string to a number of checksum. // 2. Use this sign as the hash key, if memory allow, use an in-memory hash table to detect duplicates. // 3. If memory won't fit in, use K-V database instead. 10GB scale should be acceptable for one machine, so I won't seek help from another computer. int main() { return 0; }
相关文章推荐
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目4
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目5
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目7
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目2
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目1
- 《Cracking the Coding Interview》——第10章:可扩展性和存储空间限制——题目3
- 《Cracking the Coding Interview》——第1章:数组和字符串——题目7
- 《Cracking the Coding Interview》——第5章:位操作——题目1
- 《Cracking the Coding Interview》——第9章:递归和动态规划——题目8
- 《Cracking the Coding Interview》——第18章:难题——题目9
- 《Cracking the Coding Interview》——第12章:测试——题目3
- 《Cracking the Coding Interview》——第1章:数组和字符串——题目8
- 《Cracking the Coding Interview》——第13章:C和C++——题目9
- 《Cracking the Coding Interview》——第14章:Java——题目1
- 《Cracking the Coding Interview》——第5章:位操作——题目2
- 《Cracking the Coding Interview》——第6章:智力题——题目6
- 《Cracking the Coding Interview》——第9章:递归和动态规划——题目9
- 《Cracking the Coding Interview》——第17章:普通题——题目4
- 《Cracking the Coding Interview》——第17章:普通题——题目11
- 《Cracking the Coding Interview》——第18章:难题——题目10