[转帖]etcd网络模块解析

etcd,网络,模块,解析 · 浏览次数 : 0

小编点评

**1. RaftHttp 模块介绍** **1.1. 整体结构图** ```mermaid graph LR raftModule --> >raftHttpModule raftHttpModule --> >streamWriter raftHttpModule --> >streamReader ``` **1.2. 关键数据结构分析** * **rafthttp.Transport:** 维护网络连接对象等流对象。 * **http.Transport:** 创建和维护网络连接。 * **rafthttp.remote:** 封装pipeline。 * **rafthttp.peer:** 与远程端建立和维护网络连接。 * **rafthttp.pipeline:** 用于发送快照数据。 * **rafthttp.streamWriter:** 输出流，用于发送数据。 * **rafthttp.streamRader:** 输入流，用于接收数据。 ``` **2. 关键流程分析** **2.1. raftExample 的网络模块初始化** **2.2. 启动peer流程** **2.3. streamWriter启动流程** **2.4. streamReader启动流程** **3. 传输格式在代码中，其实我们可以看到streamReader和streamWriter都分别有两个对象的。** * streamWriter：writer和msgAppV2Writer，用于发送消息数据。 * msgAppReader和msgAppV2Reader，用于接收消息数据。 **3.1. msgApp格式Message压缩后发送的格式** * 简单，直接写入消息长度，然后接着是压缩后的数据。 * 解压时先读取消息长度，然后读取指定长度的数据进行反序列化为Message格式。 **3.2. msgAppV2格式根据Message的消息类型分为3种格式存储** * 3.2.1. linkHeartbeatMessage类型的消息只有一个字节，字节值为uint8的0。 * 3.2.2. 数据格式是msgTypeAppEntries的符合这种格式的条件是编码器保存的index、term和logTerm跟Message中的index、term和logTerm一致，否则解码器对象里保存的这些值补充到Message的Entry里就是错的了，对于解码器对象里index等变量的维护逻辑与编码器里的一致。 * 3.2.3. 非linkHeartbeatMessage和msgTypeAppEntries格式这种格式类型命名为msgTypeApp，压缩方式与msgApp一样，只不过前面多了个字节，值为uint8的2。 **4. 网关URL映射处理逻辑** * URL前缀映射处理对象请求举例说明/raftpipelineHandlerPOST /raft只接收POST请求，接收数据后反序列化为Message对象，然后传入到raft模块处理/raft/probingprobingHandlerGET /raft/probing收到请求后响应消息，并且带上当前响应时间戳，表示探测成功/raft/stream/streamHandlerGET /raft/stream/message/{localID}（V1的格式）GET /raft/stream/msgapp/{localID}（V2的格式）只接收GET请求，用来建立stream网络连接/raft/snapshotsnapHandlerPOST /raft/snapshot只接收POST请求，接收到数据后反序列化为Message对象，检查消息类型是否为快照类型，如果不是则返回错误信息，如果是则保存快照数据到本地并保存到raft模块进行处理。

正文

https://www.cnblogs.com/luohaixian/p/17509742.html
复制

1. RaftHttp模块介绍

在etcd里raft模块和网络模块是分开的，raft模块主要负责实现共识算法，保证集群节点的一致性，消息的发送和接收则交给raftHttp网络模块来处理，由上层应用模块来进行协调交互和消息传递。

1.1. 整体结构图

（1）当raft模块发生了状态变化时，会把变化的消息封装到ready对象中，上层应用模块通过监听ready的channel能够获取到对应的消息，然后调用网络层的send方法来发送到其它节点上；

（2）send方法这里会根据消息的类型做一个分发，如果是快照的消息则写入到pipeline的msgc channel中，其它消息则都写入到streamWriter的msgc channel中；

（3）streamWriter启动时会创建一个goroutine，它会监听connc管道上是否有网络连接对象conn（这个是在对方发起get请求建立起来的网络连接），如果有则获取并使用它来作为底层传递对象，监听msgc通道上的消息，如果有消息则获取并通过conn进行发送，如果connc管道上没有则等待；

（4）streamReader启动时会进行一个回拨与peer端建立一条网络连接，比如B节点会发起一个GET请求到A节点，建立一条网络连接，A节点会把这条网络连接放入到connc管道中，供A节点的streamWriter进行写入使用，B节点则是从这条网络连接里读数据，有点类似单向管道；同理A节点的streamReader在启动时也会发起GET请求到B节点从而建立网络连接，此时这条网络是A节点进行读取，B节点进行写入；

（5）对于快照的数据，v3版本的是使用snapSender来进行发送，创建post请求通过pipeline的transport来进行发送；之前的版本则是封装为一个快照消息分发到pipeline的msgc的channel中，pipeline在启动时会创建4个goroutine来监听msgc管道里的消息，如果有则取出并创建post请求通过pipeline transport发送出去；

（6）streamReader从stream pipeline中读到数据时将其进行反序列化为消息，然后根据消息的类型分别放到propc或recvc管道中，这样做区分的原因是因为MsgProp的消息处理的耗时可能比较长，所以单独放到一个管道中去，这样不阻塞其它消息的处理，这两个管道分别会有个goroutine进行读取并调用raft对象的Process函数将其传入到raft模块里去处理；

（7）snapshotHandler是一个gateway的方式接收发过来的post请求，接收快照数据保存到本地然后通知raft状态机进行处理；

（8）streamHandler也是一个gateway的方式接收streamReader发送过来的GET请求，并将该网络连接塞入到connc管道中，供streamWriter进行数据写入；

（9）stream的http transport：在创建http transport时传入的read和write的超时时间是5，因为stream通道传输的消息数据一般都比较小；

（10）pipeline的http transport：在创建http transport时传入的read和write的超时时间是0，因为快照数据比较多，读写的时间也比较长；

1.2. 关键数据结构分析

rafthttp.Transport：网络模块数据结构，里面维护了多个进行网络交互的流对象，通过这个对象可以添加peer和发送数据；

http.Transport：go的http库，rafthttp.transport也是通过创建它来进行数据发送和读取，它会去维护tcp连接，并且管理空闲连接；rafthttp里创建了两个http.Transport对象，一个是stream用的，一个是pipeline用的；

rafthttp.remote：里面也封装了pipeline，使用pipeline http transport网络发送数据，主要是帮助新加入的成员进行数据追赶。当peer的网络不可用时，如果此时有remote的则也会使用remote的网络连接来进行发送数据；

rafthttp.peer：peer代表对端，维护的是向peer发送数据和接收peer数据的网络流对象；

rafthttp.pipeline：用以发送快照；

rafthttp.streamWriter：rafthttp.peer对象的输出流，通过它向peer端发送数据；

rafthttp.streamRader：rafthttp.peer对象的输入流，通过它从peer端接收数据；

2. 关键流程分析

2.1. raftExample的网络模块初始化

2.2. 启动peer流程

2.3. streamWriter启动流程

2.4. streamReader启动流程

3. 传输格式

在代码中，其实我们可以看到streamReader和streamWriter都分别有两个对象的。

streamWriter：writer和msgAppV2Writer

streamReader：msgAppReader和msgAppV2Reader

这两个对象的关键不同点就是encode和decode的不同，因为底层传输字节格式不一样，所以需要这样区分开来。

3.1. msgApp格式

Message压缩后发送的格式：

比较简单，直接就是写入消息长度，然后接着是压缩后的数据。解压时先读取消息长度，然后读取指定长度的数据进行反序列化为Message格式。

3.2. msgAppV2格式

根据Message的消息类型分为3种格式存储。

3.2.1. linkHeartbeatMessage类型的消息

只有一个字节，字节值为uint8的0

3.2.2. 数据格式是msgTypeAppEntries的

符合这种格式的条件是编码器保存的index、term和logTerm跟Message中的index、term和logTerm一致，否则解码器对象里保存的这些值补充到Message的Entry里就是错的了，对于解码器对象里index等变量的维护逻辑与编码器里的一致。

解压时按照这种格式读出来，然后填充上解码器对象里的index、term和logTerm值即可。

msgAppV2格式的压缩优化要点：消息中携带的多个entry的index、Term等字段大多数场景都是一样的。当有多个Entry时，它可以节省index、Term和LogTerm这些字段的重复传输，因为在实际使用场景，大概率这些字段都是重复的，所以在encode时只需要保存一份即可，解压时再补上去就行，相比msgApp的直接整个序列化的方式，它传输的字节数要少得多。

3.2.3. 非linkHeartbeatMessage和msgTypeAppEntries格式

这种格式类型命名为msgTypeApp，压缩方式与msgApp一样，只不过前面多了个字节，值为uint8的2。

4. 网关URL映射处理逻辑

URL前缀	映射处理对象	请求举例	说明
/raft	pipelineHandler	POST /raft	只接收POST请求，接收数据后反序列化为Message对象，然后传入到raft模块处理
/raft/probing	probingHandler	GET /raft/probing	收到请求后响应消息，并且带上当前响应时间戳，表示探测成功
/raft/stream/	streamHandler	GET /raft/stream/message/{localID}（V1的格式） GET /raft/stream/msgapp/{localID}（V2的格式）	只接收GET请求，用来建立stream网络连接
/raft/snapshot	snapHandler	POST /raft/snapshot	只接收POST请求，接收到数据后反序列化为Message对象，检查消息类型是否为快照类型，如果不是则返回错误信息，如果是则保存快照数据到本地并传到raft模块进行处理

[转帖]etcd网络模块解析

小编点评

正文

1. RaftHttp模块介绍

1.1. 整体结构图

1.2. 关键数据结构分析

2. 关键流程分析

2.1. raftExample的网络模块初始化

2.2. 启动peer流程

2.3. streamWriter启动流程

2.4. streamReader启动流程

3. 传输格式

3.1. msgApp格式

3.2. msgAppV2格式

3.2.1. linkHeartbeatMessage类型的消息

3.2.2. 数据格式是msgTypeAppEntries的

3.2.3. 非linkHeartbeatMessage和msgTypeAppEntries格式

4. 网关URL映射处理逻辑

与[转帖]etcd网络模块解析相似的内容：

[转帖]etcd网络模块解析

[转帖]etcd的安装教程

[转帖]Etcd+Confd实现Nginx配置文件自动管理

[转帖]etcd的备份与恢复

[转帖]etcd raft模块解析

[转帖]突破 etcd 限制！字节自研 K8s 存储 KubeBrain

[转帖]长篇图解 etcd 核心应用场景及编码实战

[转帖]共识、线性一致性与顺序一致性

[转帖]Quick Start Guide

[转帖]TiKV读写流程浅析

# 热门排行