ElasticSearch 实现分词全文检索 - 聚合查询 cardinality

elasticsearch,实现,分词,全文检索,聚合,查询,cardinality · 浏览次数 : 284

小编点评

**ElasticSearch 实现分词全文检索** **概述** ElasticSearch 支持分词全文检索，允许您在搜索中使用多个词语或分词词语进行全文搜索。这使得您可以更精细地搜索相关文档。 **RESTful 基本操作** 使用 RESTful API 进行分词全文检索： 1. 创建一个 `SearchRequest` 对象，指定索引名称和搜索条件。 2. 创建一个 `SearchSourceBuilder` 对象，设置聚合器，例如计算文档数量。 3. 使用 `client.search()` 方法执行搜索，并获取搜索结果。 **示例** ```java // 创建搜索请求对象 SearchRequest request = new SearchRequest("indexName", "query"); // 创建聚合器 SearchSourceBuilder builder = new SearchSourceBuilder(); builder.aggregation(AggregationBuilders.terms("field_name")); // 设置聚合器 request.source(builder); // 执行搜索 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 获取搜索结果 List hits = response.hits; // 打印搜索结果 for (Hit hit : hits) { // 处理搜索结果 } ``` **统计聚合查询** 使用 `extendedStats()` 聚合器计算文档的统计信息，例如最大值、最小值、平均值等。 ```java // 创建搜索请求对象 SearchRequest request = new SearchRequest("indexName", "query"); // 创建聚合器 SearchSourceBuilder builder = new SearchSourceBuilder(); builder.aggregation(AggregationBuilders.extendedStats("field_name")); // 设置聚合器 request.source(builder); // 执行搜索 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 获取搜索结果 ExtendedStats agg = response.getAggregations().get("agg"); // 打印最大值、最小值、平均值等 System.out.println(agg.getMax()); System.out.println(agg.getMin()); System.out.println(agg.getAverage()); ``` **其他功能** * **分词词语搜索**：使用 `terms` 或 `multi_terms` 关键字搜索分词词语。 * **忽略分词符号**：可以使用 `analyzer` 设置分词符号，例如 `standard` 或 `snowball`。 * **自定义聚合器**：您可以自定义聚合器以处理特定需求。

正文

数据准备

ElasticSearch 实现分词全文检索 - 测试数据准备

聚合查询

ES 的聚合查询和MySQL的聚合查询类型，ES的聚合查询相比MySQL要强大，提供的统计数据的方式多种多样

# ES聚合查询的 Restful 语法
POST /index/type/_search
{
   "aggs":{
       "名字(agg)":{
            "agg_type":{
               "属性":"值"
            }
       }
   }
}

去重计数查询 (Cardinality)

去重计数，即 Cardinality，第一步先将返回的文档中的一个指定的field进行去重，统计一共有多少条

#去重计数
POST /sms-logs-index/_search
{
  "aggs": {
    "agg": {
      "cardinality": {
        "field": "province"
      }
    }
  }
}

Java

@Test
void cardinalityQuery() throws Exception {
    String indexName = "sms-logs-index";
    RestHighLevelClient client = ESClient.getClient();

    //1. 创建SearchRequest对象
    SearchRequest request = new SearchRequest(indexName);

    //2. 指定查询条件
    SearchSourceBuilder builder = new SearchSourceBuilder();
    builder.aggregation(AggregationBuilders.cardinality("agg").field("province"));

    request.source(builder);

    //3. 执行查询
    SearchResponse resp = client.search(request, RequestOptions.DEFAULT);

    //4. 输出返回值
    Cardinality agg = resp.getAggregations().get("agg");
    long value = agg.getValue();
    System.out.println(value);
}

范围统计 (range)

统计一定范围内出现的文档个数，比如：针对某一个Field的值在 0_100,100200,200~300 之间文档出现的个数分别是多少
范围统计可以针对普通的数值，针对时间类型，针对IP类型，都可以做相应的统计。
range,data_range,ip_range

# 数值方式范围统计
POST /sms-logs-index/_search
{
  "aggs": {
    "agg": {
      "range": {
        "field": "fee",
        "ranges": [
          {
            "to": 20
          },
          {
            "from": 20, # from 有包含当前值的意思
            "to": 30
          },
          {
            "from": 30
          }
        ]
      }
    }
  }
}

# 数值方式范围统计
POST /sms-logs-index/_search
{
  "aggs": {
    "agg": {
      "date_range": {
        "field": "createDate",
        "format":"yyyy",
        "ranges": [
          {
            "to": 2023  # 2023以前的数据量
          }, 
          {
            "from": 2023 # 2023以后的数据量
          }
        ]
      }
    }
  }
}

# IP方式范围统计
POST /sms-logs-index/_search
{
  "aggs": {
    "agg": {
      "ip_range": {
        "field": "ipAddr",
        "ranges": [
          {
            "to": "172.16.0.4"
          }, 
          {
            "from": "172.16.0.4"
          }
        ]
      }
    }
  }
}

Java

@Test
void rangeQuery() throws Exception {
    String indexName = "sms-logs-index";
    RestHighLevelClient client = ESClient.getClient();

    //1. 创建SearchRequest对象
    SearchRequest request = new SearchRequest(indexName);

    //2. 指定查询条件
    SearchSourceBuilder builder = new SearchSourceBuilder();
    builder.aggregation(AggregationBuilders.range("agg").field("fee")
            .addUnboundedTo(20)
            .addRange(20, 30)
            .addUnboundedFrom(30));

    request.source(builder);

    //3. 执行查询
    SearchResponse resp = client.search(request, RequestOptions.DEFAULT);

    //4. 输出返回值
    org.elasticsearch.search.aggregations.bucket.range.Range agg = resp.getAggregations().get("agg");
    for (Range.Bucket bucket : agg.getBuckets()) {
        String key = bucket.getKeyAsString();
        Object from = bucket.getFrom();
        Object to = bucket.getTo();
        long docCount = bucket.getDocCount();
        System.out.println(String.format("Key:%s From: %s  to: %s DocCount: %s", key, from, to, docCount));
    }
}

统计聚合查询 (extended_stats)

他可以查询指定Field的最大值，最小值，平均值，平方和...

# 统计聚合查询
POST /sms-logs-index/_search
{
  "aggs": {
    "agg": {
      "extended_stats": {
        "field": "fee"
      }
    }
  }
}

返回值

"aggregations" : {
    "agg" : {
      "count" : 8,
      "min" : 17.0,
      "max" : 45.0,
      "avg" : 31.25,
      "sum" : 250.0,
      "sum_of_squares" : 8468.0,
      "variance" : 81.9375,
      "variance_population" : 81.9375,
      "variance_sampling" : 93.64285714285714,
      "std_deviation" : 9.051933495115836,
      "std_deviation_population" : 9.051933495115836,
      "std_deviation_sampling" : 9.676923950453322,
      "std_deviation_bounds" : {
        "upper" : 49.35386699023167,
        "lower" : 13.146133009768327,
        "upper_population" : 49.35386699023167,
        "lower_population" : 13.146133009768327,
        "upper_sampling" : 50.60384790090664,
        "lower_sampling" : 11.896152099093356
      }
    }
  }

Java

@Test
void extendedQuery() throws Exception {
    String indexName = "sms-logs-index";
    RestHighLevelClient client = ESClient.getClient();

    //1. 创建SearchRequest对象
    SearchRequest request = new SearchRequest(indexName);

    //2. 指定查询条件
    SearchSourceBuilder builder = new SearchSourceBuilder();
    builder.aggregation(AggregationBuilders.extendedStats("agg").field("fee"));
    request.source(builder);

    //3. 执行查询
    SearchResponse resp = client.search(request, RequestOptions.DEFAULT);

    //4. 输出返回值
    ExtendedStats agg = resp.getAggregations().get("agg");
    double max = agg.getMax();
    double min = agg.getMin();
    System.out.println(String.format("Max:%s Min: %s ", max, min));
}

官方文档：https://www.elastic.co/guide/cn/elasticsearch/reference/index.html