KMP算法思想及实现

极乐净土

2014-07-17

关注关注

KMP算法是通过分析模式字符串，预先计算每个位置发生不匹配的时候，所需GOTO的下一个比较位置，整理出来一个next数组，然后在上面的算法中使用。

参考一个牛人的文章：http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

举例说明：

有一个字符串"BBC ABCDAB ABCDABCDABDE"，我们想知道，里面是否包含另一个字符串"ABCDABD"？

许多算法可以完成这个任务，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Donald Knuth。

这种算法不太容易理解，网上有多个说法，希望这篇文章能帮助你理解，整理如下

一、例子分析

1.的

KMP算法思想及实现

首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。

2.的

KMP算法思想及实现

因为B与A不匹配，搜索词再往后移

3.的

KMP算法思想及实现

就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止

4.的

KMP算法思想及实现

接着比较字符串和搜索词的下一个字符，还是相同

5.的

KMP算法思想及实现

直到字符串有一个字符，与搜索词对应的字符不相同为止

6.的

KMP算法思想及实现

这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

7.的

KMP算法思想及实现

一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

8.构造匹配表

KMP算法思想及实现

怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，请见二。

9.的

KMP算法思想及实现

已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4，所以将搜索词向后移动4位

10.的

KMP算法思想及实现

因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

11.的

KMP算法思想及实现

因为空格与A不匹配，继续后移一位

12.的

KMP算法思想及实现

逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位

13.的

KMP算法思想及实现

逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

14.多说一点：

KMP算法思想及实现

"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

二、如何构造“部分匹配表”

构造匹配表之前，要了解“前缀”和“后缀”概念。

前缀：指除了最后一个字符以外，一个字符串的全部头部组合

后缀：指除了第一个字符以外，一个字符串的全部尾部组合

举例说明

字符串：bread

前缀：b,br,bre,brea

后缀：read,ead,ad,d

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例。

KMP算法思想及实现

"A"的前缀和后缀都为空集，共有元素的长度为0；

"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

三、源码实现

//求模式串T的next值，即部分匹配值
void GetNext(char *T,int *next)
{
	int i = 0;  
	int j = -1;  
	next[0] = -1;  
	while(T[i] != '\0')  
	{  
		if(j == -1 || T[j] == T[i]) //T[j]为前缀的单个字符,T[i]为后缀的单个字符  
		{                           //T[-1]不存在所以在回溯到j == -1时直接++j  
			++j;  
			++i;  
			if(T[j] != T[i]) //当前字符串与前缀字符不同  
				next[i] = j; //j为next在i位置的值  
			else  
				next[i] = next[j]; // 相同则将前缀字符的next值赋给next在i位置的值  
		}  
		else  
			j = next[j]; //如果不相等则回溯  
	}

}

//Kmp字符串匹配函数
int KMPSearch(char *s,char *t,int pos)
{
	int i = pos - 1; //数组的下标从零开始  
	int j = 0;  
	int next[255];  
	GetNext(t,next);  
	while(s[i] != '\0' && t[j] != '\0') //如果字符串未结束则继续循环  
	{  
		if(s[i] == t[j])  
		{  
			++i;  
			++j;  
		}  
		else  
		{  
			j = next[j]; //不相等则回溯  
			if(j == -1)  
			{  
				++j;  
				++i;  
			}  
		}  
	}  
	if(t[j] == '\0')  
		return i - strlen(t) + 1;  
	else  
		return -1;

}


int main(int argc,char * argv[])
{
	char s[255] = "abca";  
	char t[255] = "ab";  
	int pos = 0,position = 0; 
	position = KMPSearch(s,t,1);  
	if(position == -1)  
		printf("子串未在主串的%d个位置之后出现\n",pos);  
	else  
		printf("子串在主串的第%d个位置出现:\n",position);
	system("pause");
}

参考

1.http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
2.http://baike.baidu.com/link?url=LWJTa6tSS_rQc5pmCM8jg1kZ5mnPWKrNyKpL0lOdMabql1bGYmAtswkU2HJiOFzi

kmp

安科网

KMP算法思想及实现

极乐净土

极乐净土

相关推荐

KMP算法：关于各个步骤的疑惑和思考

别再暴力匹配字符串了，高效的KMP才是真的香！

KMP 算法的两种实现

学习KMP算法时想到的另一种好方法

数据结构实验之串三：KMP应用（KMP模板）

字符串匹配算法之BF、KMP

KMP小扩展，找出子串在主串中出现的所有位置

数据结构实验之串三：KMP应用

关于KMP算法的理解

KMP算法及拓展KMP算法

Python实现字符串匹配的KMP算法

结合kmp算法的匹配动画浅析其基本思想

KMP算法（1）：如何理解KMP

为虚拟机中的 openSUSE 12.1 安装 VBoxGuestAdditions 4.1.10

python3 kmp 字符串匹配的方法

JavaScript中数据结构与算法(五)：经典KMP算法

Python字符串匹配算法KMP实例

基于KMP算法JavaScript的实现方法分析

KMP算法用JavaScript实现

KMP 算法

极乐净土