leetcode 182. Duplicate Emails
2016-07-24 15:25
309 查看
题目描述:
Write a SQL query to find all duplicate emails in a table named
For example, your query should return the following for the above table:
Note: All emails are in lowercase.
解题思路:
对于sql还是缺乏相关的经验,这道题我AC的办法有些复杂:
select distinct P1.Email from Person P1, Person P2 where P1.Id > P2.Id and P1.Email = P2.Email;
将两个表进行笛卡尔乘积,然后取id不同,email相同的行,最后用distinct来得到结果,使其唯一,但效率是非常低的,尤其是前面的笛卡尔乘积,即使有索引,在大表的情况下运行时间仍然是不可接受的,在本题中耗时977ms,然后我在讨论区看到一个比较好的做法:
select Email from Person group by Email having count(*) > 1没有进行笛卡尔乘积,这已经是很大的进步了,但时间是929ms,似乎并没有很大的提升,毕竟字符串比较,磁盘读取,表的大小也起到一个很大的影响。
不过作为一道算法题来说,最优的做法应该能够达到O(n),
将每个邮件进行一次MD5或者其他签名算法(注意要保证不同邮箱有不同的值),这样可以用数字的比较来避免字符串比较的代价,然后遍历一次全表,统计出现次数大于1的邮箱。其实也就是hash桶的思想啦~
Write a SQL query to find all duplicate emails in a table named
Person.
+----+---------+ | Id | Email | +----+---------+ | 1 | a@b.com | | 2 | c@d.com | | 3 | a@b.com | +----+---------+
For example, your query should return the following for the above table:
+---------+ | Email | +---------+ | a@b.com | +---------+
Note: All emails are in lowercase.
解题思路:
对于sql还是缺乏相关的经验,这道题我AC的办法有些复杂:
select distinct P1.Email from Person P1, Person P2 where P1.Id > P2.Id and P1.Email = P2.Email;
将两个表进行笛卡尔乘积,然后取id不同,email相同的行,最后用distinct来得到结果,使其唯一,但效率是非常低的,尤其是前面的笛卡尔乘积,即使有索引,在大表的情况下运行时间仍然是不可接受的,在本题中耗时977ms,然后我在讨论区看到一个比较好的做法:
select Email from Person group by Email having count(*) > 1没有进行笛卡尔乘积,这已经是很大的进步了,但时间是929ms,似乎并没有很大的提升,毕竟字符串比较,磁盘读取,表的大小也起到一个很大的影响。
不过作为一道算法题来说,最优的做法应该能够达到O(n),
将每个邮件进行一次MD5或者其他签名算法(注意要保证不同邮箱有不同的值),这样可以用数字的比较来避免字符串比较的代价,然后遍历一次全表,统计出现次数大于1的邮箱。其实也就是hash桶的思想啦~
相关文章推荐
- SQL中的三值逻辑
- SQL Server 作业批量停止
- 结束SQL阻塞的进程
- 动态生成SQL Server视图作业
- SQL Server 语句操纵数据库
- SQL(结构化查询语句)
- oracle sql日期比较
- linux快速部署mysql服务器
- sql 存储过程分页
- 在WINXP系统上安装SQL Server企业版的方法
- 通过批处理调用SQL的方法(osql)
- SQL Server 存储过程的分页
- ASP程序与SQL存储过程结合使用详解
- SQL SERVER编写存储过程小工具
- 防御SQL注入攻击时需要注意的一个问题
- Microsoft Sql server2005的安装步骤图文详解及常见问题解决方案
- PostgreSQL教程(十九):SQL语言函数
- SQL Server复制需要有实际的服务器名称才能连接到服务器