匹配查询

不管你搜索什么内容,match查询是你首先需要接触的查询。它是一个高级查询,意味着match查询知道如何更好的处理全文检索和准确值检索。

这也就是说,match查询的一个主要用途是进行全文搜索。让我们通过一个小例子来看一下全文搜索是如何工作的。

索引一些数据

首先,我们使用bulk API来创建和索引一些文档:

  1. DELETE /my_index <1>
  2. PUT /my_index
  3. { "settings": { "number_of_shards": 1 }} <2>
  4. POST /my_index/my_type/_bulk
  5. { "index": { "_id": 1 }}
  6. { "title": "The quick brown fox" }
  7. { "index": { "_id": 2 }}
  8. { "title": "The quick brown fox jumps over the lazy dog" }
  9. { "index": { "_id": 3 }}
  10. { "title": "The quick brown fox jumps over the quick dog" }
  11. { "index": { "_id": 4 }}
  12. { "title": "Brown fox brown dog" }

// SENSE: 100_Full_Text_Search/05_Match_query.json

<1> 删除已经存在的索引(如果索引存在)

<2> 然后,关联失效这一节解释了为什么我们创建该索引的时候只使用一个主分片。

单词查询

第一个例子解释了当使用match查询进行单词全文搜索时发生了什么:

  1. GET /my_index/my_type/_search
  2. {
  3. "query": {
  4. "match": {
  5. "title": "QUICK!"
  6. }
  7. }
  8. }

// SENSE: 100_Full_Text_Search/05_Match_query.json

Elasticsearch通过下面的步骤执行match查询:

  1. 检查field类型
    title字段是一个字符串(analyzed),所以该查询字符串也需要被分析(analyzed)

  2. 分析查询字符串
    查询词QUICK!经过标准分析器的分析后变成单词quick。因为我们只有一个查询词,因此match查询可以以一种低级别term查询的方式执行。

  3. 找到匹配的文档
    term查询在倒排索引中搜索quick,并且返回包含该词的文档。在这个例子中,返回的文档是1,2,3。

  4. 为每个文档打分
    term查询综合考虑词频(每篇文档title字段包含quick的次数)、逆文档频率(在全部文档中title字段包含quick的次数)、包含quick的字段长度(长度越短越相关)来计算每篇文档的相关性得分_score。(更多请见相关性介绍)

这个过程之后我们将得到以下结果(简化后):

  1. "hits": [
  2. {
  3. "_id": "1",
  4. "_score": 0.5, <1>
  5. "_source": {
  6. "title": "The quick brown fox"
  7. }
  8. },
  9. {
  10. "_id": "3",
  11. "_score": 0.44194174, <2>
  12. "_source": {
  13. "title": "The quick brown fox jumps over the quick dog"
  14. }
  15. },
  16. {
  17. "_id": "2",
  18. "_score": 0.3125, <2>
  19. "_source": {
  20. "title": "The quick brown fox jumps over the lazy dog"
  21. }
  22. }
  23. ]

<1> 文档1最相关,因为 title 最短,意味着quick在语义中起比较大的作用。

<2> 文档3比文档2更相关,因为在文档3中quick出现了两次。