ElasticSearch 倒排索引简析

栏目: IT技术 · 发布时间: 4年前

内容简介:假设有一个交友网站,信息表如下:

ElasticSearch 倒排索引简析

内容概要

  • 倒排索引是什么?为什么需要倒排索引?
  • 倒排索引是怎么工作的?

1. 倒排索引是什么?

假设有一个交友网站,信息表如下:

ElasticSearch 倒排索引简析

美女1:“ 我要找在上海做 PHP 的哥哥。

需要匹配 性别、城市、语言列

美女2:“ 我要找北京的爱旅游、爱美食的 JAVA 哥哥。

更复杂了是吧,实际场景中,会有更复杂的排列组合。

对于这类的搜索,关系型数据库的索引就很难应付了,适合使用全文搜索的倒排索引。

倒排索引是一种数据库的索引形式,存储了 “内容 -> 文档” 映射关系 ,目的是快速的进行全文搜索。

2. 倒排索引是怎么工作的?

主要包括2个过程:

  • 创建倒排索引
  • 倒排索引搜索

2.1 创建倒排索引

举个例子,有2个文档:

  • Document#1

Recipe of pasta with sauce pesto

  • Document#2

Recipe of delicious carbonara pasta

先对文档进行分词,形成一个个的 token ,也就是 单词 ,然后保存这些 token 与文档的对应关系。

结果如下:

ElasticSearch 倒排索引简析

2.2 倒排索引搜索

搜索示例:

  • 搜索 “ pasta recipe

先分词,得到2个 token,( “ pasta ”、“ recipe ” )。

然后去倒排索引中进行匹配。

ElasticSearch 倒排索引简析

这2个词在2个文档中都匹配,所以2个文档都会返回,而且分数相同。

  • 搜索 “ carbonara pasta

ElasticSearch 倒排索引简析

同样,2个文档都匹配,都会返回。

这次 document#2 的分数要比 document#1 高。

因为 #2 匹配了2个词(“ carbonara ”、“ pasta ”),#1 只匹配了一个(“ pasta ”)。

2.3 转换

有时我们可以在保存和搜索之前对 token 进行一些转换,最普遍的例如:

  • 扔掉停止词

停止词是那些使用量非常大,但又没有什么意义的词。

例如英文中的 “ of”, “the”, “for ” ……

  • 元素化

把单词处理为字典中的标准词,例如:

“running” => “run”

“walks” => “walk”

“thought” =>“think”

  • 词干分析

通过切断词尾将一个词转换成词根形式的过程。

不能处理不规则动词的情况,但可以处理字典中没有的词。


以上所述就是小编给大家介绍的《ElasticSearch 倒排索引简析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

中国游戏风云

中国游戏风云

王亚晖 / 中国发展出版社 / 2018-11-1 / 168.00元

本书以时间为序,介绍了整个游戏产业发展的跌宕起伏。分别讲述了早期游戏市场、单机游戏、网络游戏、网页游戏和手机游戏以及未来游戏世界。作者本人曾为知名游戏产业人,书中披露了大量不为大众所知的行业故事和行业数据。为游戏的制作者、投资人、玩家,抑或想了解游戏的人,提供了一个理性的梳理。一起来看看 《中国游戏风云》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

MD5 加密
MD5 加密

MD5 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器