您的位置：首页 > 大数据 > 人工智能

leetcode 182. Duplicate Emails

2016-07-24 15:25 309 查看

题目描述：

Write a SQL query to find all duplicate emails in a table named

Person

+----+---------+
| Id | Email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+

For example, your query should return the following for the above table:

+---------+
| Email   |
+---------+
| a@b.com |
+---------+

Note: All emails are in lowercase.
解题思路：
对于sql还是缺乏相关的经验，这道题我AC的办法有些复杂：

select distinct P1.Email from Person P1, Person P2 where P1.Id > P2.Id and P1.Email = P2.Email;
将两个表进行笛卡尔乘积，然后取id不同，email相同的行，最后用distinct来得到结果，使其唯一，但效率是非常低的，尤其是前面的笛卡尔乘积，即使有索引，在大表的情况下运行时间仍然是不可接受的，在本题中耗时977ms，然后我在讨论区看到一个比较好的做法：

select Email from Person group by Email having count(*) > 1没有进行笛卡尔乘积，这已经是很大的进步了，但时间是929ms，似乎并没有很大的提升，毕竟字符串比较，磁盘读取，表的大小也起到一个很大的影响。
不过作为一道算法题来说，最优的做法应该能够达到O(n)，

将每个邮件进行一次MD5或者其他签名算法（注意要保证不同邮箱有不同的值），这样可以用数字的比较来避免字符串比较的代价，然后遍历一次全表，统计出现次数大于1的邮箱。其实也就是hash桶的思想啦~

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： sql

相关文章推荐

新的分享

章节导航