给定一个字符串,输出最长的重复子序列
2013-04-29 23:33
399 查看
给定一个字符串,输出最长的重复子序列
举例:ask not what your country can do for you,but what youcan do for your country
最长的重复子序列:can do for you
思路:使用后缀数组解决
分析:
1、由于要求最长公共子序列,则需要找到字符串的所有子序列,即通过产生字符串的后缀数组实现。
2、由于要求最长的重复子序列,则需要对所有子序列进行排序,这样可以把相同的字符串排在一起。
3、比较相邻字符串,找出两个子串中,相同的字符的个数。
注意,对于一个子串,一个与其重复最多的字符串肯定是紧挨着自己的两个字符串。
步骤:
1、对待处理的字符串产生后缀数组
2、对后缀数组排序
3、依次检测相邻两个后缀的公共长度
4、取出最大公共长度的前缀
举例:输入字符串 banana
1、字符串产生的后缀数组:
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a
2、对后缀数组进行快速排序,以将后缀相近的(变位词)子串集中在一起
a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana
之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀
代码:
[cpp] view plaincopyprint?
/*给定出一个字符串,输出最长的重复子字符串*/
#include <iostream>
#include <algorithm>
#include <string>
using namespace std;
const int MaxCharNum = 5000000;
bool StrCmp(char* str1,char* str2);
void GenSuffixArray(char* str,char* suffixStr[]);
int ComStrLen(char* str1,char* str2);
void GenMaxReStr(char* str);
int main()
{
char str[MaxCharNum];
cin.getline(str,MaxCharNum);//遇到回车结束
GenMaxReStr(str);
system("pause");
return 1;
}
void GenMaxReStr(char* str)
{
int len = strlen(str);
int comReStrLen = 0;
int maxLoc = 0;
int maxLen = 0;
char* suffixStr[MaxCharNum];
GenSuffixArray(str,suffixStr);//产生后缀数组
//对后缀数组进行排序
sort(suffixStr,suffixStr+len,StrCmp);
//统计相邻单词中相同的字符数,并输出结果
for (int i = 0;i < len-1;i++ )
{
comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]);
if (comReStrLen > maxLen)
{
maxLoc = i;
maxLen = comReStrLen;
}
}
//输出结果
for (int i = 0;i < maxLen;i++)
{
cout<<suffixStr[maxLoc][i];
}
cout<<endl;
}
/*为字符串产生其后缀数组,并存放到数组suffixStr中*/
void GenSuffixArray(char* str,char* suffixStr[])
{
int len = strlen(str);
for (int i = 0;i < len;i++)
{
suffixStr[i] = &str[i];
}
}
/*返回str1和str2的共同前缀的长度*/
int ComStrLen(char* str1,char* str2)
{
int comLen = 0;
while(*str1 && *str2)
{
if (*str1 == *str2)
{
comLen++;
}
str1++;
str2++;
}
return comLen;
}
//字符串升序排序
bool StrCmp(char* str1,char* str2)
{
if (strcmp(str1,str2) >=0 )
{
return false;
}
return true;
}
程序输入:ask not what your country can do for you,but what you can do for your country
输出:can do for you
时间复杂度分析:产生后缀数组-时间复杂度O(N)、对后缀数组排序是O(N*NlogN),第一个N表示字符串的比较,后面NlogN使用快排排序。依次检测相邻两个后缀的公共长度-时间复杂度O(N*N)、取出最大公共长度的前缀-时间复杂度O(N)。
总的时间复杂度是O(N*NlogN)
这里使用系统函数sort和strcmp生成有序的后缀数组,他们没有充分的利用数组重复的特性
我们可以使用倍增算法高效的产生排好序的后缀数组,从而提高效率
举例:ask not what your country can do for you,but what youcan do for your country
最长的重复子序列:can do for you
思路:使用后缀数组解决
分析:
1、由于要求最长公共子序列,则需要找到字符串的所有子序列,即通过产生字符串的后缀数组实现。
2、由于要求最长的重复子序列,则需要对所有子序列进行排序,这样可以把相同的字符串排在一起。
3、比较相邻字符串,找出两个子串中,相同的字符的个数。
注意,对于一个子串,一个与其重复最多的字符串肯定是紧挨着自己的两个字符串。
步骤:
1、对待处理的字符串产生后缀数组
2、对后缀数组排序
3、依次检测相邻两个后缀的公共长度
4、取出最大公共长度的前缀
举例:输入字符串 banana
1、字符串产生的后缀数组:
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a
2、对后缀数组进行快速排序,以将后缀相近的(变位词)子串集中在一起
a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana
之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀
代码:
[cpp] view plaincopyprint?
/*给定出一个字符串,输出最长的重复子字符串*/
#include <iostream>
#include <algorithm>
#include <string>
using namespace std;
const int MaxCharNum = 5000000;
bool StrCmp(char* str1,char* str2);
void GenSuffixArray(char* str,char* suffixStr[]);
int ComStrLen(char* str1,char* str2);
void GenMaxReStr(char* str);
int main()
{
char str[MaxCharNum];
cin.getline(str,MaxCharNum);//遇到回车结束
GenMaxReStr(str);
system("pause");
return 1;
}
void GenMaxReStr(char* str)
{
int len = strlen(str);
int comReStrLen = 0;
int maxLoc = 0;
int maxLen = 0;
char* suffixStr[MaxCharNum];
GenSuffixArray(str,suffixStr);//产生后缀数组
//对后缀数组进行排序
sort(suffixStr,suffixStr+len,StrCmp);
//统计相邻单词中相同的字符数,并输出结果
for (int i = 0;i < len-1;i++ )
{
comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]);
if (comReStrLen > maxLen)
{
maxLoc = i;
maxLen = comReStrLen;
}
}
//输出结果
for (int i = 0;i < maxLen;i++)
{
cout<<suffixStr[maxLoc][i];
}
cout<<endl;
}
/*为字符串产生其后缀数组,并存放到数组suffixStr中*/
void GenSuffixArray(char* str,char* suffixStr[])
{
int len = strlen(str);
for (int i = 0;i < len;i++)
{
suffixStr[i] = &str[i];
}
}
/*返回str1和str2的共同前缀的长度*/
int ComStrLen(char* str1,char* str2)
{
int comLen = 0;
while(*str1 && *str2)
{
if (*str1 == *str2)
{
comLen++;
}
str1++;
str2++;
}
return comLen;
}
//字符串升序排序
bool StrCmp(char* str1,char* str2)
{
if (strcmp(str1,str2) >=0 )
{
return false;
}
return true;
}
/*给定出一个字符串,输出最长的重复子字符串*/ #include <iostream> #include <algorithm> #include <string> using namespace std; const int MaxCharNum = 5000000; bool StrCmp(char* str1,char* str2); void GenSuffixArray(char* str,char* suffixStr[]); int ComStrLen(char* str1,char* str2); void GenMaxReStr(char* str); int main() { char str[MaxCharNum]; cin.getline(str,MaxCharNum);//遇到回车结束 GenMaxReStr(str); system("pause"); return 1; } void GenMaxReStr(char* str) { int len = strlen(str); int comReStrLen = 0; int maxLoc = 0; int maxLen = 0; char* suffixStr[MaxCharNum]; GenSuffixArray(str,suffixStr);//产生后缀数组 //对后缀数组进行排序 sort(suffixStr,suffixStr+len,StrCmp); //统计相邻单词中相同的字符数,并输出结果 for (int i = 0;i < len-1;i++ ) { comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]); if (comReStrLen > maxLen) { maxLoc = i; maxLen = comReStrLen; } } //输出结果 for (int i = 0;i < maxLen;i++) { cout<<suffixStr[maxLoc][i]; } cout<<endl; } /*为字符串产生其后缀数组,并存放到数组suffixStr中*/ void GenSuffixArray(char* str,char* suffixStr[]) { int len = strlen(str); for (int i = 0;i < len;i++) { suffixStr[i] = &str[i]; } } /*返回str1和str2的共同前缀的长度*/ int ComStrLen(char* str1,char* str2) { int comLen = 0; while(*str1 && *str2) { if (*str1 == *str2) { comLen++; } str1++; str2++; } return comLen; } //字符串升序排序 bool StrCmp(char* str1,char* str2) { if (strcmp(str1,str2) >=0 ) { return false; } return true; }
程序输入:ask not what your country can do for you,but what you can do for your country
输出:can do for you
时间复杂度分析:产生后缀数组-时间复杂度O(N)、对后缀数组排序是O(N*NlogN),第一个N表示字符串的比较,后面NlogN使用快排排序。依次检测相邻两个后缀的公共长度-时间复杂度O(N*N)、取出最大公共长度的前缀-时间复杂度O(N)。
总的时间复杂度是O(N*NlogN)
这里使用系统函数sort和strcmp生成有序的后缀数组,他们没有充分的利用数组重复的特性
我们可以使用倍增算法高效的产生排好序的后缀数组,从而提高效率
相关文章推荐
- 输入一个字符串,输出该字符串的最长重复子序列。
- 给定一个字符串,输出最长的重复子串
- 给定一个字符串a,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长? 输出需要删除的字符个数。
- 给定一个数字序列,输出一个最长的子序列
- 给定一个字符串s,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长呢? 输出需要删除的字符个数。
- 腾讯 2017 暑假实习生编程题(一):给定一个字符串s,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长呢? 输出需要删除的字符个数。
- 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S,请你把其循环左移K位后的序列输出。例如,字符序列S=”abcXYZde
- 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S,请你把其循环左移K位后的序列输出。例如,字符序列S=”abcXYZde
- 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S,请你把其循环左移K位后的序列输出。例如,字符序列S=”abcXYZdef”,要求输出循环左移3位后的结果,即“XYZdefabc”。是不是很简单?OK,搞定它!
- 求一个字符串的最长重复子序列
- 给定一个字符串,输出最长的重复子串
- 给定一个字符串。求最长的无重复子字符串长度。
- 算法题目二:寻找最长重复子序列(4) 求给定字符串重复最长的子串
- 给定一个字符串s,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长呢? 输出需要删除的字符个数。
- 面试题:给定一个数组,数组中只包含0和1。请找到一个最长的子序列,其中0和1的数量是相同的
- 每日面试题:给定一个字符串,求出其最长的重复子串
- 求给定字符串中最长回文序列
- 给定一个字符串,求出其最长的重复子串。
- 一个字符串A的子串被定义成从A中顺次选出若干个字符构成的串。如A=“cdaad" ,顺次选1,3,5个字符就构成子串" cad" ,现给定两个字符串,求它们的最长共公子串。 小王对既是素数又是回文的
- 给定一个字符串,找出该字符串的最长回文子串