字符串相似度算法-莱文斯坦距离算法

ddxygq

2019-07-01

莱文斯坦(Levenshtein)距离

莱文斯坦距离可以解决字符串相似度的问题。
在莱文斯坦距离中，对每一个字符都有三种操作:删除、添加、替换
例如有s1和s2两个字符串，a和b是与之对应的保存s1和s2全部字符的数组，i/j是数组下标。莱文斯坦距离的含义，是求将a变成b(或者将b变成a)，所需要做的最小次数的变换。

举个例子，字符串"kitten" 与“sitting” 的莱文斯坦距离是3，因为将kitten变为sitting，最少需要三次变换：
第一步
kitten -> sitten （字符k变成s）

sitten -> sittin （字符e变成i）

sittin -> sitting （在末尾插入字符g）

python实现

莱文斯坦距离的python模块在https://github.com/ztane/pyth...，py2和py3都支持。

安装Levenshtein模块

windows安装
    1，pip 安装Levenshtein模块
    pip install python-Levenshtein
    具体安装过程中，需要C++ 14.0 以上版本支持。C++ 下载路径:https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads
    2，源码安装
    首先下载python_Levenshtein的源码:https://www.lfd.uci.edu/~gohlke/pythonlibs/#python-levenshtein
    下载的时候，注意源码包的python版本与本机安装python版本一致；同时需要注意的是，系统的位数。
    拿python_Levenshtein‑0.12.0‑cp36‑cp36m‑win_amd64.whl为例，cp36表示python版本是python3.6，amd64表示支持64位windows系统。
    pip install python_Levenshtein‑0.12.0‑cp36‑cp36m‑win_amd64.whl
linux安装
    pip 安装Levenshtein模块
    pip install python-Levenshtein

计算两个字符串的相似度

import Levenshtein

s3='kitten'
s4='sitting'

result=Levenshtein.ratio(s3,s4)
print('s3:%s,s4:%s:similar:%s' % (s3,s4,str(result)))

#s3:kitten,s4:sitting:similar:0.6153846153846154

案例

计算两个字符串list的相似度

import Levenshtein
import jieba

autohome='2009款 1.6L 自动G特别版'
#current='花冠 2009款 1.6L 自动G特别版'
current='2009款 自动G特别版 1.6L'
autohome_jieba_gene=jieba.cut(autohome)
current_jieba_gene=jieba.cut(current)

l1 = list(autohome_jieba_gene)
l2 = list(current_jieba_gene)

listSimilar=Levenshtein.seqratio(l1,l2)

print('l1:%s,l2:%s,similar:%s' %(repr(l1),repr(l2),str(listSimilar)))

#l1:['2009', '款', ' ', '1.6', 'L', ' ', '自动', 'G', '特别版'],l2:['2009', '款', ' ', '自动', 'G', '特别版', ' ', '1.6', 'L'],similar:0.6666666666666666

ddxygq

0 关注 0 粉丝 0 动态

相关推荐

如何用Python清理文本数据？

不是所有数据格式都会采用表格格式。随着我们进入大数据时代，数据的格式非常多样化，包括图像、文本、图形等等。在本文中，将展示如何使用Python预处理文本数据，我们需要用到 NLTK 和 re-library 库。我们这样做的原因是为了避免区分大小写的过程。

cakecc00 2020-11-06

python中strip(),lstrip(),rstrip()函数的使用讲解

（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。）如果strip()的参数为空，那么会默认删除字符串头和尾的空白字符。#这里注意字符串a的两端都有一个空白字符，字符a和n之间也有一个。这两个函数和上面的strip()基本是一样的，参数

世事一场大梦 2020-11-17

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 9评论 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

什么叫做类比，为什么有些 Python 入门教程结构不合理

想必关注未闻 Code的同学或多或少都在网上看过各种各样的 Python 入门教程。这些教程在讲 Python 基础数据结构的时候，一般是按照下面这个模式来讲的：。这个结构虽然说是中规中矩由浅入深，但是它并没有让读者做到类比学习触类旁通。因为这些教程的教

PYTandFA 2020-09-15

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

Python基础---转义字符——Python

字符串中的转义字符。\t 在控制台输出一个制表符，协助在输出文本时垂直方向保持对齐。制表符的功能是在不使用表格的情况下在垂直方向按列对齐文本

kevinweijc 2020-08-18

动态规划（四）——如何实现搜索引擎中的拼写纠错功能？

如何量化两个字符串之间的相似程度呢？有一个非常著名的量化方法，那就是编辑距离。编辑距离指的就是，将一个字符串转化成另一个字符串，需要的最少编辑操作次数。莱文斯坦距离和最长公共子串长度，从两个截然相反的角度，分析字符串的相似程度：。根据回溯算法的代码实现，我

earthhouge 2020-08-18

vim

如果不知道vim需要安装的包名称可以使用以下命令来查询vim的包名称；如果是20h，表示左移20个字符。:s/word1/word2/g：在当前行将word1替换成word2（！！另存文件会自动创建:r [filename]：读取filename指定文件中

yonggeno 2020-08-18

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

关于 JavaScript 字符串的一个小知识

说起字符串，我们再熟悉不过了。接触编程的第一个经典任务就是输出字符串：Hello, world。但是你知道 JavaScript 字符串在计算机里是怎么表示的吗?最简单直观但不太准确的的理解就是，字符串就是由英文字母、数字和标点符号等这些字符组成的序列。

CXsilent 2020-08-12

php 字符串分割函数 str_split,chunk_split

如果 split_length 小于 1，返回 FALSE 。如果 split_length 参数超过了 string 超过了字符串 string 的长度，整个字符串将作为数组仅有的一个元素返回。否则每个字符块为单个字符。var_dump; //产生警告

amberom 2020-08-03

（三）python之字符编码

# 1、打开编辑器就打开了启动了一个进程，是在内存中的，所以，用编辑器编写的内容也都是存放与内存中的，断电后数据丢失。# 2、要想永久保存，需要点击保存按钮：编辑器把内存的数据刷到了硬盘上。# 3、在我们编写一个py文件，跟编写其他文件没有任何区别，都只是

yiyilanmei 2020-08-03

字符串匹配算法

虽然算不上什么好方法，但是非常简单。对于所有的暴力算法，我们应该思考如何进行优化，比如BF算法，当我们遇到不匹配字符的时候，只能从头的下一个字符开始匹配。这样其实做了很多无用的重复工作。二者的思想都是避免无用功的移动。step_good为后移位数；pos1

纬纬 2020-07-31

String、StringBuffer和StringBuilder的区别

String类是不可变类，即一旦一个String对象被创建以后，包含在这个对象中的字符序列是不可改变的，直至这个对象被销毁。一旦通过StringBuffer生成了最终想要的字符串，就可以调用它的toString()方法将其转换为一个String对象.Str

zhuyonge 2020-07-26

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

ddxygq

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号