给全文搜索引擎Manticore (Sphinx) search 增加中文分词

看上去很美

2019-07-01

Sphinx search 是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngram tokenizer对中文进行索引和搜索。

但是，像中文、日文、韩文这种文字使用ngram还是有很大弊端的：

当Ngram=1时，中文（日文、韩文）被分解成一个个的单字，就像把英文分解成一个个字母那样。这会导致每个单字的索引很长，搜索效率下降，同时搜索结果习惯性比较差。

当Ngram=2或更大时，会产生很多无意义的“组合”，比如“的你”、“为什”等，导致索引的字典、索引文件等非常大，同时也影响搜索速度。

基于以上弊端，为中日韩文本加入分词的tokenizer是很有必要的。

于是决定来做这件事。先去Sphinxsearch网站去看看，发现它已经发布了新的3.x版本，而且加入了很多很棒的特性，然而它从Sphinxsearch 3.x 开始，暂时不再开源. 不过，部分前Sphinxsearch的开发人员跳出来成立新团队，在Sphinx 2.x版本基础上开发自己的Manticoresearch。这两者很像，从它们的名字就可以看出来，这俩都是狮身怪兽。

Sphinx 是（古埃及）狮身人面像，Manticore 是（传说中的）人头狮身龙（蝎）尾怪兽

Manticoresearch 从Sphinxsearch 继承而来，并做了性能优化. 因此，我选择了Manticoresearch 来添加中日韩分词。

首先从Manticoresearch的github仓库pull最新的代码来谈价，后面我也会尽力与Manticoresearch的主分支保持同步。

算法实现

算法基于字典，具体是cedar的实现的双数组trie。cedar是C++实现的高效双数组trie，也是分词字典的最佳之选。cedar的协议是GNU GPLv2, LGPLv2.1, and BSD;或者email联系作者所要其它协议。

通过最小匹配（而非单字）来匹配字典和字符串，把字符串分割成最短（而非单字）的词。如果遇到处理不了的歧义时，以单字做词。这样的目的是，保证搜索时能找到这些内容而不丢失。

稍微解释一下，对于搜索引擎的分词为什么这么做：

搜索引擎要能找到尽可能全内容：最彻底的方法是ngram=1，每个字单独索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本会被找到，但缺点就如前面所说。
搜索引擎要能找到尽可能相关的内容：分词就是比较好的方法，对词进行索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本就不会被找到。但分词的粒度要小，比如“编程语言”这是一个词组，如果把这个分成一个词，你搜索“编程”时，就找不到只含“编程语言”的文本，同样的，“上海市”要分成“上海”和“市”，等等。所以，“最小匹配”适用于搜索引擎。
编译安装

从github仓库manticoresearch-seg获取源码，编译方法跟Manticoresearch一样，具体看官方文档。

使用方法

准备词表把所有词写到一个txt文件，一行一个词，如下所示：
words.txt
中文
中国語
중국어
创建字典成功编译代码后，就会得到创建字典的可执行程序make_segdictionary. 然后执行命令:
./make_segdictionary words.txt words.dict

这样就得到了字典文件: words.dict

配置索引只需在配置文件的 index {...} 添加一行即可：
index {
```
...
seg_dictionary = path-to-your-segmentation-words-dictionary
...
```
}

提醒: 分词对批量索引和实时索引都起作用。

吐槽

添加分词最初的想法是，我的代码作为新增文件加入项目，只在原有文件个别处添加就好。这样做分得比较清楚，后面对manticore官方仓库提交代码也比较清晰。于是就尝试这样做。

然而，Sphinx的代码组织的真是有点乱，Manticore沿用Sphinx的代码所以架构是一样的。最大的一个cpp文件sphinx.cpp 竟然有3万多行代码，很多类的声明直接放在这个.cpp 文件里面，而没有放到头文件sphinx.h里面。因为我实现的分词tokenizer必须要继承它的类保持接口一致。尝试着把cpp文件的一些声明移到.h文件，结果是越移越多，要对原始文件做很大改动，甚至可能要重新架构源代码。不是不可以重新架构，一来会很费时间，二来向官方提交代码很难被接受，三是跟官方代码保持同步就很费劲，最终还是在原来sphinx.cpp文件中添加分词tokenizer: CSphTokenizer_UTF8Seg 。

当然，Sphinx的代码的类的继承关系比较清晰，继承原来的tokenizer实现新的也不算费事，修改了4个源码文件就添加好了分词tokenizer。

文章首发于我的个人博客猿人学
你也可以关注我的个人公众号：猿人学Python

搜索引擎 sphinx 中文分词全文搜索引擎分词索引

安科网

给全文搜索引擎Manticore (Sphinx) search 增加中文分词

看上去很美

words.txt

看上去很美

相关推荐

使用sphinx search打造你自己的中文搜索引擎

Go语言中文分词技术使用技巧（一）

如何在Linux下安装部署分布式全文搜索引擎

全文搜索引擎 Elasticsearch

分布式全文搜索引擎ElasticSearch—超详细

深入搜索引擎原理

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

由于Elasticsearch是在 Lucene 基础上构建

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

看上去很美