ELK Stack - Elasticsearch · 搜索引擎 · 部署应用 · 内部结构 · 倒排索引 · 服务接入

elk,stack,elasticsearch · 浏览次数 : 109

小编点评

一、ELK Stack 介绍 Elasticsearch、Logstash 和 Kibana 构成了一个开源的日志分析套件，称为 ELK Stack（Elasticsearch、Logstash 和 Kibana）。Elasticsearch 是一个分布式、RESTful 风格的搜索引擎，负责存储、检索和分析数据。Logstash 是一个服务器端数据处理管道，负责收集、转换和转发数据。Kibana 则是一个 Web 应用程序，用于可视化、监控和搜索 Elasticsearch 中的数据。二、Elasticsearch 部署 1. 系统准备：创建用户、调整系统并发限制、开放端口等。 2. 部署启动：解压源码包、配置文件、启动 Elasticsearch 进程等。 3. 重设密码：重新生成并设置 Elasticsearch 超级用户密码。 4. 容器方式：使用 Docker 容器部署 Elasticsearch。三、Elasticsearch 应用 1. 内部特征索引：使用倒排索引技术实现全文检索。 2. REST API：使用 GET、PUT、POST 等方法操作 Elasticsearch 数据。 3. .NET 接入：使用 NEST 或 Elastic.Clients.Elasticsearch 与 Elasticsearch 服务通信。四、Elasticsearch 基本操作 1. 查看健康检测信息：使用 _cat/health 和 _cat/nodes API 查看集群状态。 2. 查看所有索引：使用 _cat/indices API 查看所有索引。 3. 创建索引：使用 PUT 方法创建索引。 4. 插入数据：使用 Index API 插入数据。 5. 查询数据：使用 GET、POST 和 Search API 查询数据。 6. 修改数据：使用 Update API 修改数据。 7. 删除数据：使用 Delete API 删除数据。 8. 分页匹配搜索：使用 Search API 实现分页匹配搜索。 9. 分页包含搜索：使用 Search API 实现分页包含搜索。 10. 聚合查询：使用 Aggregations API 进行聚合查询。五、Elasticsearch 高级特性 1. 正排索引与倒排索引：了解它们的区别和应用场景。 2. 文本类型字段排序：讨论文本字段排序的不同方式。 3. 使用 fielddata=true 改变字段属性：了解其优缺点。六、总结本章节介绍了 ELK Stack 的基本概念、部署、基本操作以及高级特性。通过学习这些内容，读者可以更好地理解和使用 ELK Stack 进行日志分析和数据检索。

正文

系列目录

ELK Stack - Elasticsearch · 搜索引擎 · 全文检索 · 部署应用 · 内部结构 · 倒排索引 · 服务接入

ELK Stack - Kibana (待续)

ELK Stack - Logstash (待续)

ELK Stack - Beats (待续)

ELK Stack - Application Performance Monitoring (待续)

本章基于：RHELinux v8+，ELK Stack v8.x，Docker v23.x，VS2022，.NET6，Postman v10.x，Microsoft Edge v124.x

希望我能讲明白，有不妥，请告诉我，让我纠正更多。

一、ELK Stack 介绍

Elasticsearch、Logstash 和 Kibana。也可称为 Elastic Stack。

Elasticsearch 是一个分布式、RESTful 风格的、并且拥有极佳的查询能力、数据分析、统计能力，每个数据都被编入索引，包括全文检索/地理位置/列存储等。能够水平扩展集群，每秒处理海量事件，自动管理索引和分布式集群中的查询，以惊叹的速度实现极其流畅的操作。

Kibana 则可以进行全面透彻的分析后，从一个 UI 中进行监督和管理，并从多个用例和团队中透视出大量信息，发现洞察/调查威胁/监测系统/评估搜索性能等。也就是将数据转变为结果，使你快速做出响应以解决。所有这些都基于Elasticsearch上完成。

Logstash 是服务器端数据处理管道，在数据传输过程中，能够解析其中的各个事件，识别已命名的字段或以重新构建结构，比如把相似的数据从新划分或组装，也可同时从多个来源采集数据，并将它们转换成通用格式，发送到(ES)存储库中，以便进行更强大的分析和实现更大价值。

ℹ️也就是说：Logstash 采集数据 >> Elasticsearch 数据分析 >> Kibana 呈现结果，不如看下官网对于ELK的架构图：

ELK

上面介绍的好像有点。。。好理解么？？？

ℹ️特点与应用

快：这主要是针对 Elasticsearch 来说，可以做数据的搜索引擎，这比一般的关系型DB可快多了。但搜索的结果可能会有些许的偏差，因为反向索引，就像百度一样，结果中也有不一定是自己想要的信息，但它足够快。

分析：由于快，可以时时分析出一些状态数值等的变化，比如某应用的运行状况/某业务的处理能力波动/或者任何运行指标等，参考这些结果，就可以去采集/发现/预知/可能/洞察/扩展/优化等。这是 ELK Stack 套件的价值所在。

进入本章的重点，Elasticsearch，那它能做什么？

存储数据，快速搜索，一个特别的 DataBase，除 CURD 外，就是快。

我们暂且以这样的认识，往下看。

把 Elasticsearch 部署起来，完成它的 CRUD，这是本篇文章的主要任务。

作者：[Sol·wang] - 博客园，原文出处：https://www.cnblogs.com/Sol-wang/p/17490582.html

二、Elasticsearch 部署

搜索引擎 Elasticsearch，它是用JAVA写的，所以默认自带JDK，不用再部署JAVA环境。或者通过 elasticsearch-env 文件修改为指定的JAVA环境。

2.1 系统准备

1、应ES要求，在 Linux 创建用来运行ES的系统自定义用户：useradd elk

2、应ES要求，提升单进程可允许的最大内存：文件/etc/sysctl.conf追加vm.max_map_count=262144再执行命令sysctl -p后生效

3、应ES要求，为用户调整系统并发限制：vim /etc/security/limits.conf（关于Limits可参考）

elk              soft    nofile          65536
elk              hard    nofile          65536
复制

4、开放ES用到的9200/9300端口(可参考)；测试环境可直接关闭防火墙：systemctl stop firewalld

2.2 部署启动

ℹ️去官网找源码下载地址：https://www.elastic.co/cn/downloads/elasticsearch

# 官网源码下载
curl -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.7.1-linux-x86_64.tar.gz
# 源码包解压缩
tar -zxvf elasticsearch-8.7.1-linux-x86_64.tar.gz
# 为主目录赋予运行用户(els)的权限（可读可写可执行）
# - 默认情况下，Elasticsearch的data数据文件/logs日志文件 都在主目录下；
# - 倘若计划将数据文件/日志文件配置到其它目录，也要为运行用户赋予响应权限。
chown -R els {path} && chmod -R 754 {path}
# 切换到解压包下的主目录
cd elasticsearch-8.7.1
复制

ℹ️编辑配置文件：vim config/elasticsearch.yml

# 单机基础配置项：
cluster.name: my-elasticsearch            # 自定义集群名称
node.name: node-a                         # 自定义节点名称
network.host: 0.0.0.0                     # 外部可访问的IP
http.port: 9200                           # 对外开放的端口
cluster.initial_master_nodes: ["node-a"]  # 集群初始化节点
复制

ℹ️Linux命令行指定用户启动

# 切换至创建的系统用户
su elk
# 主目录下启动 [p:存储进程号] [d:后台启动]
bin/elasticsearch [-p /tmp/es.pid] [-d]
复制

首次启动 Elasticsearch 时，默认情况下会启用和配置以下安全功能：

- 启用身份验证和授权，为 Elasticsearch 内置超级账号 elastic 并生成密码。
- 为传输层和HTTP层生成TLS的证书和密钥，并使用这些密钥和证书启用和配置TLS。
- 为 Kibana 生成一个注册令牌，是为需要接入 Kibana 的凭证，有效期为30分钟。

(记住以上[密码/密钥/令牌]等信息，后续会用到；当是后台方式 -d 启动时，信息存于日志文件)

ℹ️部署效果预览

浏览器SSL访问：https://{IP}:9200（8.x默认开启SSL）

输入默认账号 elastic 和生成的密码（建议及时变更密码）

重新初始化 Elasticsearch

删除 data 文件夹，删除 logs 内所有文件，再启动。

ℹ️停止运行ES

- 摧毁进程方式

先查找ES的进程号PIDps aux | grep elastic 再依PID毁掉进程kill -15 {PID}
如果启动时-p指定了PID的存储，更便捷/更动态的停止方式：pkill -F /tmp/es.pid

2.3 重设密码

重新生成随机密码：bin/elasticsearch-reset-password -u {uname}

或者自定义新密码：bin/elasticsearch-reset-password -u {uname} -i

2.4 容器方式

当然，任何东西，Docker 容器方式就很便捷了；测试用的「单节点模式」如下：

# 启动 ES 容器
docker run -dit --name es -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:8.10.3
# 查看启动日志〔超级用户密码/HTTP证书密钥/Kibana令牌〕等
docker logs es
# 在容器内，为 ES 的超级用户 elastic 自动重设密码，取出已生成的密码〔后续连接登录用〕
docker exec -it es /usr/share/elasticsearch/bin/elasticsearch-reset-password -u elastic
复制

2.5 登录到ES

上小节操作ES启动完成后，就可以通过多种连接方式进行登录，比如浏览器，比如Postman工具，比如某开发语言，都能连到已有节点实例上。

ℹ️浏览器访问ES首页：https://{address}:9200/〔它会弹框让你输入默认超级账号elastic和启动时生成的密码〕

看呢，登录成功了，它的首页给出了ES实例的基本信息。

ℹ️浏览器查看ES所有节点的健康检测信息：https://{address}:9200/_cat/health?v

看呢，它出现了，部署的单节点，当前的健康检测信息。

关于健康检测，首要关注的，当然是每个节点实例的运行状况 status 了，这里的状态分哪几种呢？

green：正常，所有分片均已分配。
yellow：可用，主分片已分配，但副本存在隐患，当发生隐患时，可能会丢失数据。
red：不可用，未分配一个或多个主分片，因此某些数据不可用。

ℹ️浏览器查看所有节点信息：https://{address}:9200/_cat/nodes?v

看呢，它出现了，各节点的信息，之前单节点启动，所以只有一条节点信息了。

ℹ️用Postman工具创建一个自定义索引，https://{address}:9200/{索引名称}

看呢，它创建成功了，当输入账号密码，以 PUT 方式，创建了一个名为「myfirstindex」的索引。

ℹ️浏览器已创建的索引：

看呢，它出现了，刚创建的索引名称「myfirstindex」。

Elasticsearch 默认是开启 SSL 的，所以应该用 HTTPS 方式访问它。

2.6 管理ES的工具与插件

当我们做一些基本的操作时，尤其是在开发测试环境，比如数据的维护，比如节点运行状态，比如后续的集群管理，等等，通过命令行操作，很不方便。

通过工具就很直观了，鼠标点点，就很快捷方便，比较受欢迎的浏览器插件：

老牌浏览器插件：Multi Elasticsearch Head
不轻易告诉别人的后来者优秀插件：Elasticsearch Tools
应该是国人开发的浏览器插件(包括不限于插件)：es-client

去搜吧，Chrome 应用市场😆

三、Elasticsearch 应用

在早前，我记得有过这样的方式辅助数据搜索：
在关系型 DataBase 中，为每笔数据贴上标签，你认为这条数据可以想象到的标签，都可以贴上，标签数量自己控制；或者在该表中追加几列，每列存一个标签，或者关联标签表等等。搜索时先用字符==匹配标签，再关联出对应数据集。个人认为 Elasticsearch 也是类似这种思路的系统化的具体实现。

3.1 内部特征

索引 Index：相当于关系型DB的库或表都可以，是一组数据的集合。
文档 Document：于Index上的一条数据，表示一个数据对象，相当于关系型DB中的行。
栏位 Field：于Document上的一个数据属性。相当于关系型DB中的列。
分词器 analyzer：将文本内容中的词语/短语/语义等提炼出为关键字后存储，用于全文检索很合适。
这里提一下正排索引：这个应用的非常常见；就比如关系型DB，有索引列，通过索引值找对应数据的原理。
倒排索引：事先提炼出的多个关键字，关键字再与此数据的Id标识对应起来，甚至对应多个数据的Id标识。

搜索的执行过程

按输入的内容，匹配到提炼出的关键字，会找到对应的一些数据索引，再通过Id值找到对应的数据。
也就是说：比关系型DB多出了提炼关键字/关键字与索引标识列 Mapping。这也就是倒排索引的体现。

3.2 REST APIs

常见的基础操作，更多操作方式于后续的 Kibana 中详解。

ACTION	Method	URL	Body
ES首页	GET	:9200/
健康检测	GET	:9200/_cat/health?v
节点列表	GET	:9200/_cat/nodes?v
查看所有索引	GET	:9200/_cat/indices?v
创建一个索引	PUT	:9200/<index-name>
查看单个索引	GET
移除一个索引	DELETE
修改数据	POST	:9200/<index-name>/_update/<ID>	{"doc":{<列>:<值>}}
追加数据	POST	:9200/<index-name>/_doc/<ID>	<JSON-Entity>
取单数据	GET
覆盖数据	PUT
移除数据	DELETE
模糊搜索数据	GET	:9200/<index-name>/_search?q=<列>:<值>
全量查询数据	GET/POST	:9200/<index-name>/_search
模糊查询数据	GET/POST		{"query":{"match":{<列>:<值>}}}
全字等于查询	GET/POST		{"query":{"match_phrase":{<列>:<值>}}}
分页排序查询	GET/POST		{ "query":{"match":{}}, "from":0, "size":10, "_source":["<指明结果字段>"], "sort":{"<列>":{"order":"asc"}} }

关于排序

默认请求下，Elasticsearch 仅支持数据 / 布尔 / 日期等的排序，不支持 text 类型的字段进行排序。

如果需要 text 类型字段的排序，需要在 sort 中的排序列名加上后缀.keyword；
比如 "sort":{ "title.keyword" : {"order":"asc"}}
一般不会这样做，个人认为，是否需要回头看看或调整方案，生产环境不推荐吧。

另一种方式，改变字段属性 fielddata=true，使其不使用倒排索引，以将数据加载到内存中检索的方式。
官网不推荐这种方式，随着数据量的积累，它会占用大量的内存空间。

3.3 .NET 接入

为某种语言，用来连接到Elasticsearch服务及管理数据的客户端程序包，比较常用的，官网提供的NEST，在NuGet中搜索NEST，NEST仅支持7.x及以下版本的ES。。。然而现在，NEST已经有了替代品，官网提供的Elastic.Clients.Elasticsearch，仅针对新版ES8+的客户端，在NuGet中搜索即可；可能也是未来的客户端。

Elastic.Clients.Elasticsearch 与 NEST 的使用基本相似，NuGet 安装 Elastic.Clients.Elasticsearch。实现如下样例：

ℹ️Connecting

# 单节点连接
var es_c_settings = new ElasticsearchClientSettings(new Uri("https://localhost:9200"))
    # 证书密钥（HTTP CA certificate SHA-256 fingerprint）
    .CertificateFingerprint("xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx")
    # 账号密钥（Password for the elastic user）
    .Authentication(new BasicAuthentication("elastic", "*******************"));
# 创建客户端
var client = new ElasticsearchClient(es_c_settings);
复制

ℹ️集群连接

# 多节点连接 集群
# 默认情况下，通过循环以轮循方式请求节点。自动排除不正常的节点，直到恢复正常。
var es_node_pool = new StaticNodePool(new Uri[]{
	new Uri("https://myserver1:9200"),
	new Uri("https://myserver2:9200"),
	new Uri("https://myserver3:9200")
});
var es_c_settings = new ElasticsearchClientSettings(es_node_pool)
    # 证书密钥（HTTP CA certificate SHA-256 fingerprint）
    .CertificateFingerprint("xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx")
    # 账号密钥（Password for the elastic user）
    .Authentication(new BasicAuthentication("elastic", "*******************"));
# # 创建客户端
var client = new ElasticsearchClient(es_c_settings);
复制

ℹ️Create index

# 创建指定名称的索引（必须小写）
CreateIndexResponse index_resp = client.Indices.Create("beautifulcity");
if (index_resp.IsValidResponse) {
    Console.WriteLine($"Index name {index_resp.Index.ToString()} succeeded.");
}
复制

ℹ️Insert data

# Entity
var m_city = new BeautifulCity() {
    name = "杭州",
    postcode = 310000,
    attractions = new string[] { "江南", "宋韵" },
    describe = "杭州市地处中国华东地区、钱塘江下游、杭州湾西端、京杭大运河南端，属亚热带季风气候，四季分明，雨量充沛。市境西部属浙西丘陵区，东部属浙北平原，水网密布，物产丰富。",
};
# Insert to index
IndexResponse index_resp = client.Index(m_city, "beautifulcity");
if (index_resp.IsValidResponse) {
    Console.WriteLine($"Index document with ID {index_resp.Id} succeeded.");
}
复制

ℹ️Query single

# From index by ID
var index_resp = client.Get<BeautifulCity>("1001", idx => idx.Index("beautifulcity"));
if (index_resp.IsValidResponse) {
    Console.WriteLine(JsonSerializer.Serialize(index_resp.Source));
}
复制

ℹ️Change entity

# Entity
var m_city = new BeautifulCity() {
    attractions = new string[] { "江南", "宋韵", "临安" } 
};
# From index by ID
var response = client.Update<BeautifulCity, BeautifulCity>("beautifulcity", "1001", u => u.Doc(m_city));
if (response.IsValidResponse) {
    Console.WriteLine("Update document succeeded.");
}
复制

ℹ️Remove entity

# From index by ID
var response = client.Delete("beautifulcity", "1001");
if (response.IsValidResponse) {
    Console.WriteLine("Delete document succeeded.");
}
复制

ℹ️分页匹配搜索

# from index by name
var response = client.Search<BeautifulCity>(s => s.Index("beautifulcity")
    .From(0).Size(10)
    .Query(q => q.Match(t => t.Field(f => f.name).Query("杭州")))
);
if (response.IsValidResponse) {
    Console.WriteLine(JsonSerializer.Serialize(response.Documents));
}
复制

ℹ️分页包含搜索

var response = client.Search<BeautifulCity>(s => s.Index("beautifulcity")
    .From(0).Size(10).Query(q => q.Term(t => t.name, "杭"))
);
if (response.IsValidResponse) {
    Console.WriteLine(JsonSerializer.Serialize(response.Documents));
}
复制

ℹ️聚合查询

var response = client.Search<BeautifulCity>(s => s.Index("beautifulcity")
    .Aggregations(aggs => aggs
        .Max("my-max", max => max.Field(f => f.name))
        .Avg("my-avg", avg => avg.Field(f => f.postcode))
        .Sum("my-sum", sum => sum.Field(f => f.postcode))
    )
);
if (response.IsValidResponse) {
    Console.WriteLine(JsonSerializer.Serialize(response.Documents));
}
复制

是不是有点类似，实现了一个 DBHelper 或者 ORM。

ELK Stack - Elasticsearch · 搜索引擎 · 部署应用 · 内部结构 · 倒排索引 · 服务接入

小编点评

正文

一、ELK Stack 介绍

二、Elasticsearch 部署

2.1 系统准备

2.2 部署启动

2.3 重设密码

2.4 容器方式

2.5 登录到ES

2.6 管理ES的工具与插件

三、Elasticsearch 应用

3.1 内部特征

3.2 REST APIs

3.3 .NET 接入

与ELK Stack - Elasticsearch · 搜索引擎 · 部署应用 · 内部结构 · 倒排索引 · 服务接入相似的内容：

ELK Stack - Elasticsearch · 搜索引擎 · 部署应用 · 内部结构 · 倒排索引 · 服务接入

[转帖]ELKStack入门篇（一）之ELK部署和使用

[转帖]ELKStack入门篇（二）之Nginx、Tomcat、Java日志收集以及TCP收集日志使用

使用docker搭建ELK分布式日志同步方案

ELK日志缺失问题排查-多行日志聚合Logstash配置问题

ELK日志缺失问题排查-Logstash消费过慢问题

[转帖]比快更快的 ELK 8 安装使用指南-Elasticsearch，Kibana，Logstash

filebeat新filestream类型是否支持tail_files类似功能探究

[转帖]Redis cluster故障复盘，预案、工具、判断一样都不能少！

ELKF（elasticsearch、logstash、kibana、filebeat）搭建及收集nginx日志

# 热门排行