跳转到内容

莱文斯坦距离

维基百科,自由的百科全书

莱文斯坦距离(英语:Levenshtein distance)是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。

允许的编辑操作包括:

  1. 将一个字符替换成另一个字符
  2. 插入一个字符
  3. 删除一个字符

俄罗斯科学家弗拉基米尔·莱文斯坦在1965年提出这个概念[1][2]

定义

如果分别用 表示 两个字符串的长度,那么它们的列文斯坦距离为 ,它符合:

是一个指示函数indicator function),当 时,其值为0,其他时候它等于 1 。

表示 的前 个字符与 的前 个字符之间的列文斯坦距离。( 都是从1开始的下标)


注意:min运算中的第一个公式代表( 从 中)删除字符(以到达 );第二个公式代表插入字符;第三个代表替换(取决于当前字符是否相同)

例如

将“kitten”一字转成“sitting”的莱文斯坦距离为3:

  1. kitten → sitten (k→s)
  2. sitten → sittin (e→i)
  3. sittin → sitting (插入g)

应用

算法

动态规划经常被用来作为这个问题的解决手段之一。

int LevenshteinDistcance(string str1[1..lenStr1], string str2[1..lenStr2])
    int d[0..lenStr1, 0..lenStr2]
    int i, j, cost
 
    for i = 0 to lenStr2
       d[i, 0] := i
    for j = 0 to lenStr1
       d[0, j] := j
 
    for i = 1 to lenStr2
        for j = 1 to lenStr1
            if str2[i] = str1[j] 
                cost := 0
            else 
                cost := 1
            d[i, j] := min(
                                d[i-1, j  ] + 1,     // 删除
                                d[i  , j-1] + 1,     // 插入
                                d[i-1, j-1] + cost   // 替換
                            )
 
   return d[lenStr1, lenStr2]

参见

参考文献

  1. ^ 王淼; 蔡忠闽; 沈超; 华涛. 行为截获技术对鼠标动力学身份认证的影响. 微电子学与计算机. 2013-04-01, 30 (4): 14–21 [2023-12-20]. ISSN 1000-7180. (原始内容存档于2023-12-20) (中文). 
  2. ^ В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов [能够纠正删除、插入和反转的二进制代码]. Доклады Академии Наук СССР. 1965, 163 (4): 845–848 (俄语).