您的位置:首页 > 大数据 > 人工智能

leetcode 182. Duplicate Emails

2016-07-24 15:25 309 查看
题目描述

Write a SQL query to find all duplicate emails in a table named 
Person
.
+----+---------+
| Id | Email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+


For example, your query should return the following for the above table:
+---------+
| Email   |
+---------+
| a@b.com |
+---------+


Note: All emails are in lowercase.
解题思路:
对于sql还是缺乏相关的经验,这道题我AC的办法有些复杂:

select distinct P1.Email from Person P1, Person P2 where P1.Id > P2.Id and P1.Email = P2.Email;
将两个表进行笛卡尔乘积,然后取id不同,email相同的行,最后用distinct来得到结果,使其唯一,但效率是非常低的,尤其是前面的笛卡尔乘积,即使有索引,在大表的情况下运行时间仍然是不可接受的,在本题中耗时977ms,然后我在讨论区看到一个比较好的做法:

select Email from Person group by Email having count(*) > 1没有进行笛卡尔乘积,这已经是很大的进步了,但时间是929ms,似乎并没有很大的提升,毕竟字符串比较,磁盘读取,表的大小也起到一个很大的影响。
不过作为一道算法题来说,最优的做法应该能够达到O(n),

将每个邮件进行一次MD5或者其他签名算法(注意要保证不同邮箱有不同的值),这样可以用数字的比较来避免字符串比较的代价,然后遍历一次全表,统计出现次数大于1的邮箱。其实也就是hash桶的思想啦~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  sql