计算两组标签相似度算法——levenshtein distance 编辑距离算法

faiculty

2020-02-17

　　标签在数据分析中起到很重要的作用，给用户打标签，给商品打标签，给新闻打标签，好的标签可以为我们后期分析数据时提供很大的便利。有时我们需要计算两个对象之间标签的相似度。目前学习的算法是levenshtein distance 编辑距离算法。

　　代码示例：

//标签相似度
    public static double levenshtein(String s1, String s2) {
        
        System.out.println("levenshtein    str1:"+s1+"    str2:"+s2);
        DecimalFormat df=new DecimalFormat("0.00");//java保留两位小数s
        String[] str1 = s1.split("\\|");
        String[] str2 = s2.split("\\|");
        // 计算两个字符串的长度。
        int len1 = str1.length;
        int len2 = str2.length;
        // 建立上面说的数组，比字符长度大一个空间
        int[][] dif = new int[len1 + 1][len2 + 1];
        // 赋初值，步骤B。
        for (int a = 0; a <= len1; a++) {
            dif[a][0] = a;
        }
        for (int a = 0; a <= len2; a++) {
            dif[0][a] = a;
        }
        // 计算两个字符是否一样，计算左上的值
        int temp;
        for (int i = 1; i <= len1; i++) {
            for (int j = 1; j <= len2; j++) {
                if (str1[i - 1] == str2[j - 1]) {
                    temp = 0;
                } else {
                    temp = 1;
                }
                // 取三个值中最小的
                dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1, dif[i - 1][j] + 1);

            }
        }
        // 取数组右下角的值，同样不同位置代表不同字符串的比较
        // System.out.println("差异步骤：" + dif[len1][len2]);
        // 计算相似度
        double similarity = 1 - (double) dif[len1][len2] / Math.max(str1.length, str2.length);

        similarity = Double.parseDouble(df.format(similarity));
        
        return similarity;
    }
    
    private static int min(int a, int b, int c) {
        int min = a < b ? a : b;
        return min < c ? min : c;
    }

编辑距离算法 similarity

faiculty

0 关注 0 粉丝 0 动态

相关推荐

文本相似度余弦值相似度算法 VS L氏编辑距离（动态规划）

本文对两种文本相似度算法进行比较。余弦值相似度算法 VS 最小编辑距离法1、L氏编辑距离编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个

duyifei0 2019-06-29

文本相似度余弦值相似度算法 VS L氏编辑距离（动态规划）

本文对两种文本相似度算法进行比较。余弦值相似度算法 VS 最小编辑距离法1、L氏编辑距离编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个

Broadview 2019-06-29

算法题解：最小编辑距离（动态规划算法）

为了使用动态规划算法，要先将父问题分解成子问题。那么现在就需要我们找出父问题和子问题之间的转移关系。推导父子问题之间的转移关系有2中思路：。假设已经知道一些子问题的答案，能计算出哪些同一类型、规模更大的父问题。假设要求s3与s4两个字符串之间的最小编辑距离

风和日丽 2019-06-26

Python实现计算最小编辑距离

最小编辑距离或莱文斯坦距离，指由字符串A转化为字符串B的最小编辑次数。允许的编辑操作有：删除，插入，替换。具体内容可参见：维基百科―莱文斯坦距离。一般代码实现的方式都是通过动态规划算法，找出从A转化为B的每一步的最小步骤。从Google图片借来的图，

PythonGCS 2019-04-23

[LeetCode] 72. Edit Distance 编辑距离 All LeetCode Questions List 题目

You have the following 3 operations permitted on a word:. a) Insert a characterb) Delete a characterc) Replace a character. 给2个单

MATLAB 2018-03-20

[LeetCode] 161. One Edit Distance 一个编辑距离 All LeetCode Questions

Given two strings S and T, determine if they are both one edit distance apart.变换步骤可以是：插入，删除和替换。所以考虑三种情况：

MATLAB 2018-03-20

Noisy Channel模型纠正单词拼写错误最短编辑距离算法实现

本文介绍 Stanford《From Languages to Information》课程中讲到的单词拼写错误纠正。背后的数学原理主要是贝叶斯公式。单词拼写错误纠正主要涉及到两个模型：一个是Nosiy Channel模型，它是贝叶斯公式中的似然函数；

BitTigerio 2017-12-09

faiculty

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号