java的集合二_08
2014-05-05 10:59
127 查看
一,在Java中使用Set
可以方便地将需要的类型以集合类型保存在一个变量中.主要应用在显示列表.Set是一个不包含重复元素的 collection。更确切地讲,set 不包含满足 e1.equals(e2) 的元素对 e1 和 e2,并且最多包含一个 null 元素。正如其名称所暗示的,此接口模仿了数学上的 set 抽象。
二,HashSet的使用
哈希表是按照哈希值存的,所以迭代遍历的时候元素出现的顺序可能存的时候不一样,线程是非同步的,保证元素唯一性的原理:先判断HashCode是否相等,然后若相等则调用equals()判断。
三, 为啥要用HahSet?
假如我们现在想要在一大堆数据中查找X数据。LinkedList是链表数据结构,查找效率低的可怕。ArrayList中如果我们不知道X的位置序号,还是一样要全部遍历一次直到查到结果,效率一样很低。HashSet天生就是为了提高查找效率的。
四,hashCode 散列码
(1)散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列码。基本上,每一个对象都有一个默认的散列码,其值就是对象的内存地址。但也有一些对象的散列码不同,比如String对象,它的散列码是对内容的计算结果:
Java代码:
(2)String对象的散列码计算
String str="hello";
int hash=0;
for(int i=0;i<length();i++)
hash=31*hash+charAt(i);
那么下面散列码的结果不同也就好解释了。s和t都还是String对象,散列码由内容获得,结果一样。sb和tb是StringBuffer对象,自身没有hashCode方法,只能继承Object的默认方法,散列码是对象地址,当然不一样了。
Java代码:
String
s=new String("OK");//散列码: 3030
String t="Ok"; /散列码: 3030
StringBuffer sb=new StringBuffer(s); //散列码:20526976
StringBuffer tb=new StringBuffer(t); //散列码:20527144
(3) HashSet 散列表的内部结构
HashSet是个链表数组。每一个数组元素就是一个列表,我们称为散列表元 。
(4) HashSet 如何add机制
假如我们有一个数据(散列码76268),而此时的HashSet有128个散列单元,那么这个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能,如果在第108号链表中发现有一个老数据与新数据equals()=true的话,这个新数据将被视为已经加入,而不再重复丢入链表。
那么数据的散列码我知道,但HashSet的散列单元大小如何指定那?
Java默认的散列单元大小全部都是2的幂,初始值为16(2的4次幂)。假如16条链表中的75%链接有数据的时候,则认为加载因子达到默认的0.75。HahSet开始重新散列,也就是将原来的散列结构全部抛弃,重新开辟一个散列单元大小为32(2的5次幂)的散列结果,并重新计算各个数据的存储位置。以此类推下去.....
(5) 为什么HashSet查找效率提高了。
知道了HashSet的add机制后,查找的道理一样。直接根据数据的散列码和散列表的数组大小计算除余后,就得到了所在数组的位置,然后再查找链表中是否有这个数据即可。
查找的代价也就是在链表中,但是真正一条链表中的数据很少,有的甚至没有。几乎没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中的数据要少 。
(6) hashCode方法必须与equals方法必须兼容
如果我们自己定义了一个类,想对这个类的大量对象组织成散列表结构便于查找。有一点一定要注意:就是hashCode方法必须与equals方法向兼容。
Java代码:
//hashCode与equals方法的兼容
public class Employee{
public int id;
public String name="";
//相同id对象具有相同散列码
public int hashCode(){
return id;
}
//equals必须比较id
public boolean equals(Employee x){
if(this.id==x.id) return true;
else return false;
}
}
为什么要这样,因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111,“张三”)和employee(1111,"李四"),而Employee.equals比较的是name。这样的话,employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入到同一个散列单元所指向的列表中。这种情况多了,链表的数据将很庞大,散列冲突将非常严重,查找效率会大幅度的降低。
(7) 总结一下
1、HashSet不能重复存储equals相同的数据 。原因就是equals相同,数据的散列码也就相同(hashCode必须和equals兼容)。大量相同的数据将存放在同一个散列单元所指向的链表中,造成严重的散列冲突,对查找效率是灾难性的。
2、HashSet的存储是无序的 ,没有前后关系,他并不是线性结构的集合。
3、hashCode必须和equals必须兼容, 这也是为了第1点。
(8)一定要同时修改的原因
主要原因是默认从Object继承来的hashCode是基于对象的ID实现的。如果你重载了equals,比如说是基于对象的内容实现的,而保留hashCode的实现不变,那么很可能某两个对象明明是“相等”,而hashCode却不一样。这样,当你用其中的一个作为键保存到hashMap、hasoTable或hashSet中,再以“相等的”找另一个作为键值去查找他们的时候,则根本找不到。使用HashMap,如果key是自定义的类,就必须重写hashcode()和equals()。
(9)hashcode()和equals()是在哪里被用到的?什么用的?
HashMap是基于散列函数,以数组和链表的方式实现的。而对于每一个对象,通过其hashCode()方法可为其生成一个整形值(散列码),该整型值被处理后,将会作为数组下标,存放该对象所对应的Entry(存放该对象及其对值)。equals()方法则是在HashMap中插入值或查询时会使用到。当HashMap中插入值或查询值对应的散列码与数组中的散列码相等时,则会通过equals方法比较key值是否等,所以想以自建对象作为HashMap的key,必须重写该对象继承object的hashCode和equals方法。
五,HashSet的常用方法
HashSet<T>类还可用来做高性能集运算,例如对两个集合求交集、并集、差集等。集合中包含一组不重复出现且无特性顺序的元素。
HashSet<T>的一些特性如下:
1、HashSet<T>中的值不能重复且没有顺序。
2、HashSet<T>的容量会按需自动添加。
-----构造方法:
HashSet() 默认相等比较器创建一个空的新实例。
HashSet(IEnumerable<T> collection) 把指定集合中的collection中的数据复制到集中
HashSet(IEqualityComparer<T> comparer) 使用指定的相等比较器创建一个空的新实例
HashSet(IEnumerable<T> collection,IEqualityComparer<T> comparer) 使用指定的比较器实例化数据,且将指定集合中的元素复制到集合中。
HashSet<T>是专门设计来做集合运算的,因此它提供的方法中有不少是和集合运算相关的。
-----常用方法介绍
成员 说明
Add() 将指定的元素添加到集合中
Clear() 清空集合中的所有元素
Contains() 确定某元素是否在HashSet<T>中
Exists() 确定HashSet<T>是否包含于指定条件相匹配的元素
ExceptWith() 从当前HashSet<T>移除指定集合中的所有元素
IntersectWith() 修改当前的HashSet<T>对象,以仅包含该对象和指定集合中存在的元素
IsProperSubsetOf() 确定HashSet<T>对象是否为指定集合的真子集
IsProperSupersetOf () 确定HashSet<T>对象是否为指定集合的真超集
IsSunsetOf() 确定HashSet<T>对象是否为指定集合的子集
IsSupersetOf() 确定HashSet<T>对象是否为指定集合的超集
Remove() 从HashSet<T>对象中移除指定的元素
RemoveWhere() 从HashSet<T>集合中移除与指定谓词所定义的条件相匹配的所有元素
SetEquals() 确定HashSet<T>对象与指定的集合中是否包含相同的元素
SynmmetricExceptWith() 修改当前的HashSet<T>对象,以仅包含该对象或指定集合中存在的元素
TrimExcess() 将HashSet<T>对象的容量设置为它所包含的元素的实际个数,向上舍入为接近的特性与实现的值。
UnionWith() 修改当前的HashSet<T>对象,以包含该对象本身和指定集合中存在的所有元素
例子:
static void Main(string[] args)
{
HashSet<string> hs = new HashSet<string>();
hs.Add("你");
hs.Add("好");
hs.Add("吗");
HashSet<string> hs1 = new HashSet<string>();
hs1.Add("你");
hs1.Add("好");
bool b = hs1.IsProperSubsetOf(hs); //确定hs1是否是hs的真子集
Console.WriteLine(b); //输出True
HashSet<string> hs2 = new HashSet<string>();
hs2.Add("爱你");
IEnumerable<string> list = hs.Union(hs2); //返回并集
foreach (string str in list)
{
Console.WriteLine(str); //输出 你 好 吗 爱你
}
Console.ReadKey();
}
可以方便地将需要的类型以集合类型保存在一个变量中.主要应用在显示列表.Set是一个不包含重复元素的 collection。更确切地讲,set 不包含满足 e1.equals(e2) 的元素对 e1 和 e2,并且最多包含一个 null 元素。正如其名称所暗示的,此接口模仿了数学上的 set 抽象。
二,HashSet的使用
哈希表是按照哈希值存的,所以迭代遍历的时候元素出现的顺序可能存的时候不一样,线程是非同步的,保证元素唯一性的原理:先判断HashCode是否相等,然后若相等则调用equals()判断。
三, 为啥要用HahSet?
假如我们现在想要在一大堆数据中查找X数据。LinkedList是链表数据结构,查找效率低的可怕。ArrayList中如果我们不知道X的位置序号,还是一样要全部遍历一次直到查到结果,效率一样很低。HashSet天生就是为了提高查找效率的。
四,hashCode 散列码
(1)散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列码。基本上,每一个对象都有一个默认的散列码,其值就是对象的内存地址。但也有一些对象的散列码不同,比如String对象,它的散列码是对内容的计算结果:
Java代码:
(2)String对象的散列码计算
String str="hello";
int hash=0;
for(int i=0;i<length();i++)
hash=31*hash+charAt(i);
那么下面散列码的结果不同也就好解释了。s和t都还是String对象,散列码由内容获得,结果一样。sb和tb是StringBuffer对象,自身没有hashCode方法,只能继承Object的默认方法,散列码是对象地址,当然不一样了。
Java代码:
String
s=new String("OK");//散列码: 3030
String t="Ok"; /散列码: 3030
StringBuffer sb=new StringBuffer(s); //散列码:20526976
StringBuffer tb=new StringBuffer(t); //散列码:20527144
(3) HashSet 散列表的内部结构
HashSet是个链表数组。每一个数组元素就是一个列表,我们称为散列表元 。
(4) HashSet 如何add机制
假如我们有一个数据(散列码76268),而此时的HashSet有128个散列单元,那么这个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能,如果在第108号链表中发现有一个老数据与新数据equals()=true的话,这个新数据将被视为已经加入,而不再重复丢入链表。
那么数据的散列码我知道,但HashSet的散列单元大小如何指定那?
Java默认的散列单元大小全部都是2的幂,初始值为16(2的4次幂)。假如16条链表中的75%链接有数据的时候,则认为加载因子达到默认的0.75。HahSet开始重新散列,也就是将原来的散列结构全部抛弃,重新开辟一个散列单元大小为32(2的5次幂)的散列结果,并重新计算各个数据的存储位置。以此类推下去.....
(5) 为什么HashSet查找效率提高了。
知道了HashSet的add机制后,查找的道理一样。直接根据数据的散列码和散列表的数组大小计算除余后,就得到了所在数组的位置,然后再查找链表中是否有这个数据即可。
查找的代价也就是在链表中,但是真正一条链表中的数据很少,有的甚至没有。几乎没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中的数据要少 。
(6) hashCode方法必须与equals方法必须兼容
如果我们自己定义了一个类,想对这个类的大量对象组织成散列表结构便于查找。有一点一定要注意:就是hashCode方法必须与equals方法向兼容。
Java代码:
//hashCode与equals方法的兼容
public class Employee{
public int id;
public String name="";
//相同id对象具有相同散列码
public int hashCode(){
return id;
}
//equals必须比较id
public boolean equals(Employee x){
if(this.id==x.id) return true;
else return false;
}
}
为什么要这样,因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111,“张三”)和employee(1111,"李四"),而Employee.equals比较的是name。这样的话,employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入到同一个散列单元所指向的列表中。这种情况多了,链表的数据将很庞大,散列冲突将非常严重,查找效率会大幅度的降低。
(7) 总结一下
1、HashSet不能重复存储equals相同的数据 。原因就是equals相同,数据的散列码也就相同(hashCode必须和equals兼容)。大量相同的数据将存放在同一个散列单元所指向的链表中,造成严重的散列冲突,对查找效率是灾难性的。
2、HashSet的存储是无序的 ,没有前后关系,他并不是线性结构的集合。
3、hashCode必须和equals必须兼容, 这也是为了第1点。
(8)一定要同时修改的原因
主要原因是默认从Object继承来的hashCode是基于对象的ID实现的。如果你重载了equals,比如说是基于对象的内容实现的,而保留hashCode的实现不变,那么很可能某两个对象明明是“相等”,而hashCode却不一样。这样,当你用其中的一个作为键保存到hashMap、hasoTable或hashSet中,再以“相等的”找另一个作为键值去查找他们的时候,则根本找不到。使用HashMap,如果key是自定义的类,就必须重写hashcode()和equals()。
(9)hashcode()和equals()是在哪里被用到的?什么用的?
HashMap是基于散列函数,以数组和链表的方式实现的。而对于每一个对象,通过其hashCode()方法可为其生成一个整形值(散列码),该整型值被处理后,将会作为数组下标,存放该对象所对应的Entry(存放该对象及其对值)。equals()方法则是在HashMap中插入值或查询时会使用到。当HashMap中插入值或查询值对应的散列码与数组中的散列码相等时,则会通过equals方法比较key值是否等,所以想以自建对象作为HashMap的key,必须重写该对象继承object的hashCode和equals方法。
五,HashSet的常用方法
HashSet<T>类还可用来做高性能集运算,例如对两个集合求交集、并集、差集等。集合中包含一组不重复出现且无特性顺序的元素。
HashSet<T>的一些特性如下:
1、HashSet<T>中的值不能重复且没有顺序。
2、HashSet<T>的容量会按需自动添加。
-----构造方法:
HashSet() 默认相等比较器创建一个空的新实例。
HashSet(IEnumerable<T> collection) 把指定集合中的collection中的数据复制到集中
HashSet(IEqualityComparer<T> comparer) 使用指定的相等比较器创建一个空的新实例
HashSet(IEnumerable<T> collection,IEqualityComparer<T> comparer) 使用指定的比较器实例化数据,且将指定集合中的元素复制到集合中。
HashSet<T>是专门设计来做集合运算的,因此它提供的方法中有不少是和集合运算相关的。
-----常用方法介绍
成员 说明
Add() 将指定的元素添加到集合中
Clear() 清空集合中的所有元素
Contains() 确定某元素是否在HashSet<T>中
Exists() 确定HashSet<T>是否包含于指定条件相匹配的元素
ExceptWith() 从当前HashSet<T>移除指定集合中的所有元素
IntersectWith() 修改当前的HashSet<T>对象,以仅包含该对象和指定集合中存在的元素
IsProperSubsetOf() 确定HashSet<T>对象是否为指定集合的真子集
IsProperSupersetOf () 确定HashSet<T>对象是否为指定集合的真超集
IsSunsetOf() 确定HashSet<T>对象是否为指定集合的子集
IsSupersetOf() 确定HashSet<T>对象是否为指定集合的超集
Remove() 从HashSet<T>对象中移除指定的元素
RemoveWhere() 从HashSet<T>集合中移除与指定谓词所定义的条件相匹配的所有元素
SetEquals() 确定HashSet<T>对象与指定的集合中是否包含相同的元素
SynmmetricExceptWith() 修改当前的HashSet<T>对象,以仅包含该对象或指定集合中存在的元素
TrimExcess() 将HashSet<T>对象的容量设置为它所包含的元素的实际个数,向上舍入为接近的特性与实现的值。
UnionWith() 修改当前的HashSet<T>对象,以包含该对象本身和指定集合中存在的所有元素
例子:
static void Main(string[] args)
{
HashSet<string> hs = new HashSet<string>();
hs.Add("你");
hs.Add("好");
hs.Add("吗");
HashSet<string> hs1 = new HashSet<string>();
hs1.Add("你");
hs1.Add("好");
bool b = hs1.IsProperSubsetOf(hs); //确定hs1是否是hs的真子集
Console.WriteLine(b); //输出True
HashSet<string> hs2 = new HashSet<string>();
hs2.Add("爱你");
IEnumerable<string> list = hs.Union(hs2); //返回并集
foreach (string str in list)
{
Console.WriteLine(str); //输出 你 好 吗 爱你
}
Console.ReadKey();
}
相关文章推荐
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java【集合系列】-08-List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java集合系列:-----------08HashMap的底层实现
- Java多线程系列--“JUC集合”08之 LinkedBlockingQueue
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java集合容器系列08-HashSet
- java_集合体系之Map框架相关抽象类接口详解、源码——08
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java集合-08之 再看 List
- 重拾Java回忆录(八):Java08集合的使用
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java多线程系列--“JUC集合”08之 LinkedBlockingQueue
- 黑马程序员-Java基础总结08——集合与集合框架(…
- Java多线程系列--“JUC集合”08之 LinkedBlockingQueue
- 黑马程序员--Java之集合(下)08
- Java多线程系列--【JUC集合08】- LinkedBlockingQueue
- Java 集合系列08之 List总结(LinkedList, ArrayList等使用场景和性能分析)
- Java基础知识强化之集合框架笔记08:Collection集合自定义对象并遍历案例(使用迭代器)
- 08.Java 集合 - HashSet