後綴數組

在計算機科學里, 後綴數組（英語：suffix array）是一個通過對字符串的所有後綴經過排序後得到的數組。此數據結構被運用於全文索引、數據壓縮算法、以及生物信息學。

後綴數組被烏迪·曼伯爾（英語：Udi Manber）與尤金·邁爾斯（英語：Eugene Myers）於1990年提出，作為對後綴樹的一種替代，更簡單以及節省空間。它們也被Gaston Gonnet 於1987年獨立發現，並命名為「PAT數組」。

在2016年，李志澤，李建和霍紅衛（頁面存檔備份，存於網際網路檔案館）提出了第一個時間複雜度（線性時間）和空間複雜度（常數空間）都是最優的後綴數組構造算法，解決了該領域長達10年的open problem。

定義

令字符串 $S=S[1]S[2]...S[n]$ ， $S[i,j]$ 表示 $S$ 的子字符串，下標從 $i$ 到 $j$ 。

$S$ 的後綴數組 $A$ 被定義為一個數組，內容是 $S$ 的所有後綴經過字典排序後的起始下標。

對於所有的有： $1<i\leq n$ : $S[A[i-1],n]<S[A[i],n]$ 。

考慮字符串 $S$ =banana$:

i	1	2	3	4	5	6	7
$S[i]$	b	a	n	a	n	a	$

字符串的結尾是特殊字符$，用作特殊標誌。該字符串有以下後綴：

後綴經過升序排序後：

後綴數組 $A$ 包含這些後綴的起始位置：

i	1	2	3	4	5	6	7
$A[i]$	7	6	4	2	1	5	3

閱論編字符串
String metric（英語：String metric）	字符串近似匹配 Bitap算法 Damerau–Levenshtein距離編輯距離漢明距離 Jaro–Winkler距離李距離萊文斯坦自動機萊文斯坦距離 Wagner–Fischer算法
字符串搜索算法	Apostolico–Giancarlo算法博耶-穆爾字符串搜索算法 Boyer–Moore–Horspool算法 KMP算法拉賓-卡普算法
多字符串搜索	AC自動機 Commentz-Walter算法拉賓-卡普算法
正則表達式	正則表達式引擎比較 Regular tree grammar（英語：Regular tree grammar）湯普森構造法非確定有限狀態自動機
序列比對	Hirschberg's algorithm（英語：Hirschberg's algorithm）尼德曼-翁施算法史密斯-沃特曼算法
數據結構	DAFSA（英語：Deterministic acyclic finite state automaton）後綴數組後綴自動機（英語：Suffix automaton）後綴樹 Generalized suffix tree（英語：Generalized suffix tree） Rope（英語：Rope (data structure)）三元搜索樹
其它	語法分析模式匹配 Compressed pattern matching（英語：Compressed pattern matching）最長公共子序列最長公共子串 Sequential pattern mining（英語：Sequential pattern mining）字符串排序算法（英語：:Category:String sorting algorithms）