分词器之IK Analyzer

某某某

2016-08-02

IK Analyzer 是基于Lucene的中文分词框架。

一：下载分词器

IK Analyzer 2012FF 百度网盘下载地址：http://pan.baidu.com/s/1boFDd9d

IKAnalyzer-5.0 百度网盘下载地址：http://pan.baidu.com/s/1dE5zBrV

二：IK Analyzer 分词器使用

在项目中引入如下：

a，IKAnalyzer2012FF_u1.jar 或者IKAnalyzer-5.0.jar

b，IKAnalyzer.cfg.xml

c，mydict.dic

d，ext_stopword.dic

示例代码： Lucene的版本是6.1.0

package com.lucene.analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * 分词器测试类
 * @author luorufeng
 * @date  2016年8月2日
 */
public class TestAnalyzer {
	public static void main(String[] args) throws IOException {
//		Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器  2012  
		//http://blog.sina.com.cn/s/blog_69a69e1a0102w8br.html
		Analyzer analyzer = new IKAnalyzer();//庖丁分词器        

		String text = "lucene是一个很高大上、很牛逼的java搜索引擎工具包,大家快点来学习";
		testAnalyzer(analyzer,text);
	}
	
	/**
	 * 分词器测试方法
	 * @author luorufeng
	 * @date  2016年8月2日
	 * @param analyzer
	 * @param text
	 * @throws IOException 
	 */
	public static void testAnalyzer(Analyzer analyzer,String text) throws IOException{
		System.out.println("当前分词器："+analyzer.getClass().getSimpleName());
		//分词  
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		tokenStream.reset();
		//遍历
		while(tokenStream.incrementToken()){
			System.out.print(charTermAttribute+"|");
		}

		tokenStream.end();
		tokenStream.close();
	}
}

运行后的运行结果：

当前分词器：IKAnalyzer

加载扩展词典：mydict.dic

加载扩展停止词典：ext_stopword.dic

lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引擎|搜索|索引|引擎|工具包|工具|包|大家|快点|点来|学习|

中文分词分词 lucene

某某某

0 关注 0 粉丝 0 动态

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 2020-09-11

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 2020-07-29

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。

troysps 2020-07-04

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 2020-05-31

es中中文分词器的使用

　　es整体都整理好了，进行补充没有实现的一些es知识点。　　本文终止在线安装，从第5开始线下安装。

IceStreamLab 2020-05-03

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

官网版本 Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载

winxcoder 2020-04-19

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

tigercn 2020-04-18

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 2020-04-10

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

houhow 2020-02-18

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 2020-01-28

elasticsearch 安装中文分词器

为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。1，Elasticsearch中文分词我们采用Ik

李玉志 2020-01-17

docker 安装ElasticSearch的中文分词器IK

本篇文章使用的ES版本是6.6.0，使用的在线安装；本文只是针对一个一个容器进行安装的，当然可以使用Dockerfile将IK做成新的镜像的，这篇文章就不介绍了。

mengyue 2020-01-01

solr+IKAnalyzer部署

solr：选用最新solr版本4.8.1。IKAnalyzer在分词效率上比庖丁分词要差，但是在分词模式、分词个数、中英文数字汉子分词、词库扩展性和对lucene的支持都比庖丁分词要强。最终使用IKAnalyzer作为中文分词工具。Servlet容器：选择

江夏lz 2014-05-31

ELK---- Elasticsearch 使用ik中文分词器

默认分词器，查询的时候会把中文一个汉字当作一个关键字拆分，这样是不符合我们的需求的，所以需要安装分词器。当前有多种分词器可下载，据说比较好用的是IK分词器。注意，下载分词器的时候，版本必须要与Elasticsearch安装的版本一致，否则会出现不可描述的错

李玉志 2019-12-25

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 2019-12-02

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具，很强大。solr本身能够用jetty启动，但是还是用tomcat启动比较适合我自己。学习solr有两个星期了，到现在solr最新版已经是6.3.0了，不过没关系，基本的东西都是一样的。4）在tomcat-so

小树不倒我不倒 2016-11-27

中文分词（概况）

中文属于分析型语言，词基本上没有专门表示语法意义的附加成分,形态变化很少，语法关系靠词序和虚词来表示。对于未登录词的处理。未登录词大致包括以下几类。中国人名，翻译地名，机构名，商标字号，专业术语，?缩略语，如三个代表、扫黄打非。新词语，如美刀、港刀对每一类

算法改变人生 2020-06-25

某某某

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号