您的位置：首页 > 其它

【过滤重复】一次过滤重复数据的优化过程

2011-05-21 15:17 323 查看

【问题】在oracle中分多次执行SQL查询，结果是百万条数量级的字符串数据，需过滤重复掉数据并保证各原SQL查询的记录顺序，然后输出到txt中。

【分析】1、使用union all。使用union all连接各SQL语句执行distinct查询，随过滤了重复数据，但难保证原SQL查询的记录顺序。

2、使用Datatable。利用DataTable.Merge合并各DataTable，然后利用ToTable进行重复数据过滤，结果符合问题描述需求，但执行过程中耗费了很长时间都没有执行完，原因在ToTable过滤大数据量时异常得慢。

3、使用Dictionary和sortedDictionary字典。每条记录在输出时，判断是否在Dictionary里，不在则add到dictionary，然后输出。时间在30s内执行完成。

【结论】DataTable的ToTable方法效率极低，官方MSDN上推荐的方法不一定适合所有情况。在使用Dictionary时，原以为在容器中操作超大量数据时，处理会很慢，测试后结果相反。所以实践出真知。

ps：如果只是当作索引使用, 请用 Dictionary.如果需要查找最小的几个元素, 或者需要按顺序遍历元素, 就用 SortedDictionary.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航