您的位置：首页 > 理论基础 > 数据结构算法

数据结构之后缀数组suffix array

2013-09-01 03:44 381 查看

在字符串处理当中，后缀树和后缀数组都是非常有力的工具，其中后缀树大家了解得比较多，关于后缀数组则很少见于国内的资料。其实后缀是后缀树的一个非常精巧的替代品，它比后缀树容易编程实现，能够实现后缀树的很多功能而时间复杂度也不太逊色，并且，它比后缀树所占用的空间小很多。可以说，在信息学竞赛中后缀数组比后缀树要更为实用。因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法，以及配合后缀数组的最长公共前缀数组的构造方法，最后结合一些例子谈谈后缀数组的应用。

基本定义：
子串
字符串 S 的子串 r[i..j] ， i ≤ j ，表示 r 串中从 i 到 j 这一段，就是顺次排列 r[i],r[i+1],...,r[j] 形成的字符串。
后缀
后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串 r 的从第 i 个字符开始的后缀表示为 Suffix(i) ，也就是Suffix(i)=r[i..len(r)] 。

大小比较
大小比较：关于字符串的大小比较，是指通常所说的“字典顺序”比较，也就是对于两个字符串u、v，令i 从1 开始顺次比较u[i]和v[i]，如果u[i]=v[i]则令 i 加1，否则若u[i]<v[i]则认为u<v，u[i]>v[i]则认为u>v（也就是v<u），比较结束。如果i>len(u)或者i>len(v)仍比较不出结果，那么若len(u)<len(v) 则认为u<v ，若len(u)=len(v) 则认为u=v ，若len(u)>len(v)则u>v。
从字符串的大小比较的定义来看，S 的两个开头位置不同的后缀u 和v 进行比较的结果不可能是相等，因为u=v 的必要条件len(u)=len(v)在这里不可能满足。

后缀数组：后缀数组SA 是一个一维数组，它保存1..n 的某个排列SA[1]，SA[2]，……，SA
，并且保证Suffix(SA[i]) < Suffix(SA[i+1])，1≤i<n。也就是将S 的n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。

名次数组：名次数组Rank[i]保存的是Suffix(i)在所有后缀中从小到大排列的“名次”。简单的说，后缀数组是“排第几的是谁？”，名次数组是“你排第几？”。容易看出，后缀数组和名次数组为互逆运算。如图1 所示。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航