您的位置:首页 > 其它

Something about cache

2014-03-07 17:36 176 查看
http://www.tyut.edu.cn/kecheng1/2008/site04/courseware/chapter5/5.5.htm

5.5 高速缓冲存储器cache

随着CPU时钟速率的不断提高,当它访问低速存储器时,不得不插入等待周期,这就明显降低了高速CPU的效率。为了与CPU的速率相匹配,可以采用高速存储器,但它的成本很高,用来组成大容量的主存储器很不经济。成本较低的存储器适宜制作大容量的主存储器,但是速度过低。为了折中地解决速率与成本两者之间的矛盾,兼顾高速与低成本各自的优势,在现代微机系统中,采用了高速缓冲存储器cache技术。cache通常采用与CPU同样的半导体材料制成,速度一般比主存高5倍左右。由于其高速而高价,故容量通常较小,一般为几KB到几十KB,仅用来保存主存中最经常用到的一部分内容的副本。

  统计表明,利用一级cache,可使存储器的存取速度提高4~10倍。当速度差更大时,可采用多级cache。目前大多数PC的高速缓存都分为两个级别:L1 cache和L2 cache。L1 cache集成在CPU芯片内,时钟周期与CPU相同;L2 cache通常封装在CPU芯片之外,采用SRAM芯片,时钟周期比CPU慢一半或更低。就容量而言,L2 cache的容量通常比L1 cache大一个数量级以上,从几百KB到几千KB不等。80486CPU芯片内有8KB的cache,存放程序和数据,并支持L2 cache。cache在微机系统中的位置如图5.24所示。



图5.24 cache在微机系统中的位置

5.5.1 cache的工作原理

在CPU的所有操作中,访问内存是最频繁的操作。由于一般微机中的主存储器主要由MOS型动态RAM构成,其工作速度比CPU低一个数量级,加上CPU的所有访问都要通过总线这个瓶颈,所以,缩短存储器的访问时间是提高计算机速度的关键。采用在CPU和内存之间加进高速缓冲存储器cache的办法较好地解决了这一问题。所谓“cache”原意是指勘探人员的藏物处,这里引申为“高速缓存”。在保证系统性能价格比的前提下,使用速度与CPU相当的SRAM芯片组成小容量的高速缓存器,使用低价格、小体积能提供更大存储空间的DRAM芯片(或内存条)组成主存储器。

  下面,以取指为例对cache的工作原理进行说明。命中率是高速缓存子系统操作有效性的一种测度,它被定义为高速缓存命中次数与存储器访问总次数之比,用百分率来表示,即



  例如,若高速缓存的命中率为92%,则意味着CPU可用92%的总线周期从高速缓存中读取数据。换句话说,仅有8%的存储器访问是对主存储器子系统进行的。假设经过前面的操作cache中已保存了一个指令序列,当CPU按地址再次取指时,cache控制器会先分析地址,看其是否已在cache中,若在,则立即取来,否则,再去访问内存。因为大多数程序有一个共同特点,即在第一次访问了某个存储区域后,还要重复访问这个区域。CPU第一次访问低速DRAM时,要插入等待周期。当CPU进行第一次访问时,也把数据存到高速缓存区。因此,当CPU再访问这一区域时,CPU就可以直接访问高速缓存区,而不访问低速主存储器。因为高速缓存器容量远小于低速大容量主存储器,所以它不可能包含后者的所有信息。当高速缓存区内容已装满时,需要存储新的低速主存储器位置上的内容,以代替旧位置上的内容。高速缓存器的设计目标是使CPU访问尽可能在高速缓存器中进行,其工作原理如图5.25所示。



图5.25 cache工作原理图

5.5.2 cache的读/写策略


这里讲述的读/写策略依然是针对CPU对存储器的读/写访问的,即cache读操作实际上是CPU读存储器,cache写操作实际上是CPU写存储器。在cache中应尽量存放CPU最近一直在使用的数据。当cache装满后,可将长期不用的数据删除,以提高cache的使用效率。为保持cache中的数据与主存储器中的数据的一致性,同时避免CPU在读/写过程中遗失新数据,确保cache中更新过的数据不会因覆盖而消失,必须将cache中的数据及时更新并准确地反映到主存储器。这里涉及CPU、cache与主存储器三者之间的协调,使得读/写操作复杂化,从而也引入了一些新的方法与专业术语。


1.读策略


读策略又可分为以下两种。

(1)贯穿读出式(look through)

贯穿读出式的原理如图5.26所示。



  在这种方式下,cache位于CPU与主存之间,CPU对主存的所有数据请求都首先送到cache,由cache在自身查找。如果命中,则切断CPU对主存的请求,并将数据送出;如果未命中,则将数据请求传给主存。该方法的优点是降低了CPU对主存的请求次数,缺点是延迟了CPU对主存的访问时间。

(2)旁路读出式(look aside)

  旁路读出式的原理如图5.27所示。

  在这种方式中,CPU发出数据请求,并不是单通道地穿过cache,而是向cache和主存同时发出请求。由于cache速度更快,如果命中,则cache在将数据回送给CPU的同时,还来得及中断CPU对主存的请求;若未命中,则cache不做任何动作,由CPU直接访问主存。它的优点是没有时间延迟,缺点是每次CPU都要访问主存,这样就占用了部分总线时间。



图5.27 cache旁路读出式原理

  还有另外一个值得注意的概念,那就是“行填充”。

  每当CPU由主存储器读入数据时,同时还要将该数据复制到cache中。即使当前CPU仅读一个字节,cache控制器也总是要将主存储器中包含该字节的一个完整的cache行复制到cache中。一个cache行占据32个字节,这种从主存储器向cache传送一行数据的操作就称为cache行填充(line fill),这是考虑到数据与代码往往具有连续性,CPU下一次所需的数据或代码通常还是处在上一次的数据或代码附近,即同处一cache行中的可能性最大,这样处理就提高了cache的命中率。由此可见,cache中的数据是由空到满逐行建立起来的。

  cache行的容量过小时,会产生频繁的行填充操作,整机效率不会有明显提高。然而当一行的容量空间过大时,填充一行所需的时间较长,而且可能有许多数据并不是CPU最近所需要的,从而造成过大的浪费,这样也不会使整机效率显著上升。因此必须折中各种因素来选择cache行的大小。Intel体系的32位微处理器中一个cache行由32个字节组成,并且cache控制器用后面即将讨论的突发模式传送数据块,一次突发传送一个cache行的32个字节,其传输速率比常规访问几乎高出一倍。

  就cache整体容量而言,也有同cache行类似的矛盾。cache容量过小将起不到明显改善系统性能的效果;增加cache容量自然可以存储更多的信息,但随之也就增加了成本,且搜索大容量的cache还不如搜索小容量的速度快。可见,cache的容量要兼顾多种因素,选择适中,一般取主存储器的几十分之一或者几百分之一。

  每当CPU所需的数据或代码不在cache中而出现未命中时,cache控制器就必须在主存储器中读取数据,这段时间较长且需要等待。此时,cache控制器使“准备好”或类似的信号变为无效,于是CPU插入等待时钟周期,cache控制器将访问主存储器,将所需数据传送给CPU。


2.替换策略


  当cache已经装满后,主存储器中新的数据还要不断地替换掉cache中过时的数据,这就产生了cache块数据的替换策略。那么应替换哪些cache块才能提高命中率呢?理想的替换策略应该使得cache中总是保存着最近将要使用的数据,不用的数据则被替换掉,这样才能保证很高的命中率。目前,使用较多的是随机(random)替换、先入先出(FIFO)替换与近期最少使用(LRU)替换三种策略。

(1)随机(random)替换策略

  随机替换是不顾cache块过去、现在及将来使用的情况而随机地选择某块进行替换,这是一种最简单的方法。

(2)先入先出(FIFO)替换策略

  先入先出(FIFO)替换策略的基本思想是:根据进入cache的先后次序来替换,先调入的cache块被首先替换掉。这种策略不需要随时记录各个块的使用情况,容易实现,且系统开销小。其缺点是一些需要经常使用的程序块可能会被调入的新块替换掉。

(3)近期最少使用(LRU)替换策略

  近期最少使用LRU(least recently used)替换策略的基本思想是:把CPU近期最少使用的块作为被替换的块。这种替换算法相对合理,命中率最高,是目前最常采用的方法。它需要随时记录cache中各块的使用情况,以便确定哪个块是近期最少使用的块,实现起来比较复杂,系统开销较大。

  不管是哪种策略,它们都只能用硬件电路来实现,试想若依靠软件的话,cache的“高速”含义就毫无意义了。


3.写策略


  以上讨论的都是CPU读数据的情况,另一种是CPU写数据的情况。cache控制器同样会判断其地址是否定位在cache中。如果在,CPU的数据就会写到cache中。对于进一步的主存储器操作,cache控制器有以下几种主要的写策略。

(1)通写方式(write through)

  通写方式的原理如图5.28所示。



图5.28 cache通写方式原理

  任一从CPU发出的写信号送到cache的同时,也送到主存,以保证主存的数据能同步地更新。它的优点是操作简单,但由于主存的速度相对较慢,降低了系统的写速度并占用了部分总线时间。

(2)回写方式(write back)

  回写方式的原理如图5.29所示。



  为了尽量减少对主存的访问次数,克服通写方式中每次数据写入都要访问主存,从而导致系统写速度降低并占用总线时间的弊病,又有了回写方式。它的工作原理是:数据一般只写到cache,而不写入主存,从而使写入的速度加快。但这样有可能出现cache中的数据得到更新而对应主存中的数据却没有变(即数据不同步)的情况。此时可在cache中设置一个标志地址及数据陈旧的信息,只有当cache中的数据被再次更改时,才将原更新的数据写入主存相应的单元中,然后接受再次更新的数据。这样就保证了cache和主存中的数据不产生冲突。

(3)失效(invalidation)

  当系统中存在其他微处理器或DMA操作的系统部件时,主存储器即成为共享存储器。它们之中的任何一方对主存储器都有可能覆盖写入。此时cache控制器必须通报有关的cache行,它们的数据由于主存储器已被修改而成为无效,这种操作就称为cache失效。


5.5.3 cache的地址映射

为了把数据从主存中取出送入cache中,必须使用某种地址转换机制把主存地址映射到cache中定位,称为地址映射。实现方法是:将主存和cache都分为大小相等的若干块(或称页),每块的大小为2n个字节,通常为29(512B),210(1 024B)或211(2 048B)等,以块为单位进行映射。假设某系统的cache容量为1MB,若每块容量为1KB,则被分为1 024块;cache容量为8KB,每块容量也是1KB,则被分为8块。下面以此为例,介绍三种cache的地址映射方法。

1.直接地址映射(direct mapping)


  直接地址映射是指主存中每一个块只能映射到某一固定的cache中,如图5.30所示。

  把主存按cache大小分为若干组,每一组按对应的块号进行映射。如主存的第0块、第8块、…、第1 016块,只能映射到cache的第0块;而主存的第1块、第9块、…、第1 017块只能映射到cache的第1块,依次类推。

  这种映射方法比较简单,且地址转换速度快,但不够灵活,使得cache的存储空间得不到充分利用。


2.全相联地址映射(fully associative mapping)


  全相联地址映射是指主存中的每一块都可以映射到cache的任何一块位置上,如图5.31所示。这种映射方法比较灵活,cache的利用率高,但地址转换速度慢,且需要采用某种置换算法将cache中的内容调入调出,实现起来系统开销大。


3.组相联地址映射(set associative mapping)


  组相联地址映射是直接地址映射和全相联地址映射的折中方案,如图5.32所示。主存和cache都分组,主存中一个组内的块数与cache中的分组数相同。组间采用直接地址映射,而组内采用全相联地址映射。主存中的各块与cache的组号间有固定的映射关系,但可以自由映射到对应的cache组中的任何一块。如主存中的第0块可映射到cache的第0组的第0块或第1块;主存中的第1块可映射到cache的第1组的第2块或第3块等。这种映射方法比直接地址映射灵活,比全相联地址映射速度快。实际上,若组的大小为1时,就变成了直接映射;若组的大小为整个cache的尺寸时,就变成了全相联映射。



图5.30 cache直接地址映射



图5.31 cache全相联地址映射 图5.32 cache组相联地址映射


http://blog.csdn.net/efan_linux/article/details/4584807
Cache 的write back和write through

为了保证cache和memory的数据一致性,通常有三种方法:

1〉write through:CPU向cache写入数据时,同时向memory也写一份,使cache和memory的数据保持一致。优点是简单,缺点是每次都要访问memory,速度比较慢。

2〉post write:CPU更新cache数据时,把更新的数据写入到一个更新缓冲器,在合适的时候才对memory进行更新。这样可以提高cache访问速度,但是,在数据连续被更新两次以上的时候,缓冲区将不够使用,被迫同时更新memory。

3〉write back:CPU更新cache时,只是把更新的cache区标记一下,并不同步更新memory。只是在cache区要被新进入的数据取代时,才更新memory。这样做的原因是考虑到很多时候cache存入的是中间结果,没有必要同步更新memory。优点是CPU执行的效率提高,缺点是实现起来技术比较复杂。

回写与透写
对于cache的算法。大方面有两种,Write-Through(通写)和Write-Back(回写). Write-Through,也就是说OS发送的处理data的请求,一直要等到全部memory里面的data正确写到稳定存储media(如硬盘)中,然后返回给OS报告处理完毕,然后OS才会去update其状态;这种情况下,通常不会有dirty cache. 而Write-Back,就是在OS发送处理data的请求后,该算法会将它用buffer存起来,并在没有正确写到稳定存储media(如硬盘)中前,就告诉OS处理完毕,然后OS就会去update;但是要是此时掉电或其他故障,buffer的数据没有被写入稳定存储media(如硬盘),那么os update的信息就和media中的信息不一致.为了避免这样,所以才用NVRAM,它在调电后数据仍然不丢失,但是在被重新上电后,其数据会是dirty的,也就是楼主所提到的dirty cache(如何将dirty cache更新到media,这是Write-Back应该做的事)。 这和买卖东西相似,Write-Through就相当于你亲自去买东西,你买到什么就可以亲手拿到;而Write-Back就和中介差不多,你给了中介钱,然后它告诉你说你的东西买到了,然后就相信拿到这个东西了,但是要是出现特殊情况中介跑了(掉链子了),你再去检查,东西原来没有真正到手。
1.Cache的两个类型
--Write Through
当写数据进Cache时,也同时更新了相应的Memory里的内容
--Write back
只是写到Cache里,Memory的内容要等到cache保存的要被别的数据替换或者系统做cache flush时,才会被更新。

2.Cache的两个函数
--Flush
把Cache内容写回Memory,当Cache为Write through,不需要Flush
--Invalidate
把Cache内容直接丢掉不要。

3.Cache的使用场合
当有DMA在使用memory的时候,一般要用到cache的处理。因为DMA在访问memory时是不经过cache的。比较典型的比如在Ethernet,wireless,USB等driver里,DMA会操作descriptors和packet buffers,Driver要做这些处理
--如果driver使用descripter和packet buffer的地址都是cache的地址,那么
a).Driver在读descripter里一些状态比如Owned by CPU/DMA,有没有收到包时,要对descripter当前结构里的内容做cache invalidate,收到packet后,也要对packet buffer做cache invalidate
b).Driver在写descripter里一些状态比如Owned by DMA,要发送包时,要对descripter当前结构里的内容做cache flush,发送packet时,也要对packet buffer做cache flush
--有些driver会对descripter使用uncache 地址,那么上面两种情况里invalidate/flush就不用做了。一般很少会对packet buffer也用uncache地址的,因为对packet内容的处理将会很频繁,使用uncache会很慢。而descripter一般由于结构比较小,如果也使用cache地址的话,做invalidate/flush的时间消耗可能会比uncache的还要多。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: