Elasticsearch之中文分词器插件es-ik

栏目: 编程工具 · 发布时间: 6年前

内容简介：比如，我现在，拿个具体实例来展现下，

elasticsearch官方默认的分词插件

1、elasticsearch官方默认的分词插件，对中文分词效果不理想。

比如，我现在，拿个具体实例来展现下，验证为什么，es官网提供的分词插件对中文分词而言，效果差。

Elasticsearch之中文分词器插件es-ik

[hadoop@HadoopMaster elasticsearch-2.4.3]$ jps

2044 Jps

1979 Elasticsearch

[hadoop@HadoopMaster elasticsearch-2.4.3]$ pwd

/home/hadoop/app/elasticsearch-2.4.3

[hadoop@HadoopMaster elasticsearch-2.4.3]$ curl ‘http://192.168.80.10:9200/zhouls/_analyze?pretty=true’ -d ‘{“text”:”这里是好记性不如烂笔头感叹号的博客园”}’

{

“tokens” : [ {

“token” : “这”,

“start_offset” : 0,

“end_offset” : 1,

“type” : “<IDEOGRAPHIC>”,

“position” : 0

}, {

“token” : “里”,

“start_offset” : 1,

“end_offset” : 2,

“type” : “<IDEOGRAPHIC>”,

“position” : 1

}, {

“token” : “是”,

“start_offset” : 2,

“end_offset” : 3,

“type” : “<IDEOGRAPHIC>”,

“position” : 2

}, {

“token” : “好”,

“start_offset” : 3,

“end_offset” : 4,

“type” : “<IDEOGRAPHIC>”,

“position” : 3

}, {

“token” : “记”,

“start_offset” : 4,

“end_offset” : 5,

“type” : “<IDEOGRAPHIC>”,

“position” : 4

}, {

“token” : “性”,

“start_offset” : 5,

“end_offset” : 6,

“type” : “<IDEOGRAPHIC>”,

“position” : 5

}, {

“token” : “不”,

“start_offset” : 6,

“end_offset” : 7,

“type” : “<IDEOGRAPHIC>”,

“position” : 6

}, {

“token” : “如”,

“start_offset” : 7,

“end_offset” : 8,

“type” : “<IDEOGRAPHIC>”,

“position” : 7

}, {

“token” : “烂”,

“start_offset” : 8,

“end_offset” : 9,

“type” : “<IDEOGRAPHIC>”,

“position” : 8

}, {

“token” : “笔”,

“start_offset” : 9,

“end_offset” : 10,

“type” : “<IDEOGRAPHIC>”,

“position” : 9

}, {

“token” : “头”,

“start_offset” : 10,

“end_offset” : 11,

“type” : “<IDEOGRAPHIC>”,

“position” : 10

}, {

“token” : “感”,

“start_offset” : 11,

“end_offset” : 12,

“type” : “<IDEOGRAPHIC>”,

“position” : 11

}, {

“token” : “叹”,

“start_offset” : 12,

“end_offset” : 13,

“type” : “<IDEOGRAPHIC>”,

“position” : 12

}, {

“token” : “号”,

“start_offset” : 13,

“end_offset” : 14,

“type” : “<IDEOGRAPHIC>”,

“position” : 13

}, {

“token” : “的”,

“start_offset” : 14,

“end_offset” : 15,

“type” : “<IDEOGRAPHIC>”,

“position” : 14

}, {

“token” : “博”,

“start_offset” : 15,

“end_offset” : 16,

“type” : “<IDEOGRAPHIC>”,

“position” : 15

}, {

“token” : “客”,

“start_offset” : 16,

“end_offset” : 17,

“type” : “<IDEOGRAPHIC>”,

“position” : 16

}, {

“token” : “园”,

“start_offset” : 17,

“end_offset” : 18,

“type” : “<IDEOGRAPHIC>”,

“position” : 17

} ]

}

[hadoop@HadoopMaster elasticsearch-2.4.3]$

总结

如果直接使用Elasticsearch的朋友在处理中文内容的搜索时，肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字，当用Kibana作图的时候，按照term来分组，结果一个汉字被分成了一组。

这是因为使用了Elasticsearch中默认的标准分词器，这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字，因此 引入es之中文的分词器插件es-ik就能解决这个问题 。

如何集成IK分词工具

总的流程如下：

第一步： 下载es的IK插件 https://github.com/medcl/elasticsearch-analysis-ik/tree/2.x

第二步：使用maven对 下载的es-ik源码进行编译 (mvn clean package -DskipTests)

第三步：把编译后的target/releases下的elasticsearch-analysis-ik-1.10.3.zip文件 拷贝到ES_HOME/plugins/ik 目录下面，然后使用unzip命令解压

如果unzip命令不存在，则安装：yum install -y unzip

第四步：重启es服务

第五步： 测试分词效果 ： curl ‘http://your ip:9200/zhouls/_analyze?analyzer=ik_max_word&pretty=true’ -d ‘{“text”:”这里是好记性不如烂笔头感叹号的博客们”}’

注意：若你是单节点的es集群的话，则只需在一台部署es-ik。若比如像我这里的话，是3台，则需在三台都部署es-ik，且配置要一样。

elasticsearch-analysis-ik-1.10.0.zip对应于elasticsearch-2.4.0

elasticsearch-analysis-ik-1.10.3.zip对应于elasticsearch-2.4.3

Elasticsearch之中文分词器插件es-ik

我这里，已经给大家准备好了，以下是我的CSDN账号。下载好了，大家可以去下载。

http://download.csdn.net/detail/u010106732/9890897

http://download.csdn.net/detail/u010106732/9890918

Elasticsearch之中文分词器插件es-ik

https://github.com/medcl/elasticsearch-analysis-ik/tree/v1.10.0

Elasticsearch之中文分词器插件es-ik

第一步: 在浏览器里，输入 https://github.com/

Elasticsearch之中文分词器插件es-ik

第二步： https://github.com/search?utf8=%E2%9C%93&q=elasticsearch-ik

Elasticsearch之中文分词器插件es-ik

第三步： https://github.com/medcl/elasticsearch-analysis-ik ，点击2.x 。当然也有一些人在用2.4.0版本，都适用。若你是使用5.X，则自己对号入座即可，这个很简单。

Elasticsearch之中文分词器插件es-ik

第四步： https://github.com/medcl/elasticsearch-analysis-ik/tree/2.x 得到

Elasticsearch之中文分词器插件es-ik

第五步：找到之后，点击，下载， 这里选择离线安装 。

Elasticsearch之中文分词器插件es-ik

第六步：将Elasticsearch之中文分词器插件es-ik的压缩包解压下，初步认识下其目录结构，比如我这里放到D盘下来认识下。并为后续的maven编译做基础。

Elasticsearch之中文分词器插件es-ik

第七步：用本地安装好的maven来编译

Elasticsearch之中文分词器插件es-ik

Microsoft Windows [版本 6.1.7601]

C:\Users\Administrator>cd D:\elasticsearch-analysis-ik-2.x

C:\Users\Administrator>d:

D:\elasticsearch-analysis-ik-2.x>mvn

得到，

Elasticsearch之中文分词器插件es-ik

D:\elasticsearch-analysis-ik-2.x>mvn clean package -DskipTests

[INFO] Scanning for projects…

[INFO]

[INFO] ————————————————————————

[INFO] Building elasticsearch-analysis-ik 1.10.4

[INFO] ————————————————————————

Downloading: http://maven.aliyun.com/nexus/content/repositories/central/org/apac

he/maven/plugins/maven-enforcer-plugin/1.0/maven-enforcer-plugin-1.0.pom