[转帖]etcd网络模块解析

etcd,网络,模块,解析 · 浏览次数 : 0

小编点评

**1. RaftHttp 模块介绍** **1.1. 整体结构图** ```mermaid graph LR raftModule --> >raftHttpModule raftHttpModule --> >streamWriter raftHttpModule --> >streamReader ``` **1.2. 关键数据结构分析** * **rafthttp.Transport:** 维护网络连接对象等流对象。 * **http.Transport:** 创建和维护网络连接。 * **rafthttp.remote:** 封装pipeline。 * **rafthttp.peer:** 与远程端建立和维护网络连接。 * **rafthttp.pipeline:** 用于发送快照数据。 * **rafthttp.streamWriter:** 输出流,用于发送数据。 * **rafthttp.streamRader:** 输入流,用于接收数据。 ``` **2. 关键流程分析** **2.1. raftExample 的网络模块初始化** **2.2. 启动peer流程** **2.3. streamWriter启动流程** **2.4. streamReader启动流程** **3. 传输格式在代码中,其实我们可以看到streamReader和streamWriter都分别有两个对象的。** * streamWriter:writer和msgAppV2Writer,用于发送消息数据。 * msgAppReader和msgAppV2Reader,用于接收消息数据。 **3.1. msgApp格式Message压缩后发送的格式** * 简单,直接写入消息长度,然后接着是压缩后的数据。 * 解压时先读取消息长度,然后读取指定长度的数据进行反序列化为Message格式。 **3.2. msgAppV2格式根据Message的消息类型分为3种格式存储** * 3.2.1. linkHeartbeatMessage类型的消息只有一个字节,字节值为uint8的0。 * 3.2.2. 数据格式是msgTypeAppEntries的符合这种格式的条件是编码器保存的index、term和logTerm跟Message中的index、term和logTerm一致,否则解码器对象里保存的这些值补充到Message的Entry里就是错的了,对于解码器对象里index等变量的维护逻辑与编码器里的一致。 * 3.2.3. 非linkHeartbeatMessage和msgTypeAppEntries格式这种格式类型命名为msgTypeApp,压缩方式与msgApp一样,只不过前面多了个字节,值为uint8的2。 **4. 网关URL映射处理逻辑** * URL前缀映射处理对象请求举例说明/raftpipelineHandlerPOST /raft只接收POST请求,接收数据后反序列化为Message对象,然后传入到raft模块处理/raft/probingprobingHandlerGET /raft/probing收到请求后响应消息,并且带上当前响应时间戳,表示探测成功/raft/stream/streamHandlerGET /raft/stream/message/{localID}(V1的格式)GET /raft/stream/msgapp/{localID}(V2的格式)只接收GET请求,用来建立stream网络连接/raft/snapshotsnapHandlerPOST /raft/snapshot只接收POST请求,接收到数据后反序列化为Message对象,检查消息类型是否为快照类型,如果不是则返回错误信息,如果是则保存快照数据到本地并保存到raft模块进行处理。

正文

https://www.cnblogs.com/luohaixian/p/17509742.html

 

1. RaftHttp模块介绍

在etcd里raft模块和网络模块是分开的,raft模块主要负责实现共识算法,保证集群节点的一致性,消息的发送和接收则交给raftHttp网络模块来处理,由上层应用模块来进行协调交互和消息传递。
 

1.1. 整体结构图

 
0
 
(1)当raft模块发生了状态变化时,会把变化的消息封装到ready对象中,上层应用模块通过监听ready的channel能够获取到对应的消息,然后调用网络层的send方法来发送到其它节点上;
(2)send方法这里会根据消息的类型做一个分发,如果是快照的消息则写入到pipeline的msgc channel中,其它消息则都写入到streamWriter的msgc channel中;
(3)streamWriter启动时会创建一个goroutine,它会监听connc管道上是否有网络连接对象conn(这个是在对方发起get请求建立起来的网络连接),如果有则获取并使用它来作为底层传递对象,监听msgc通道上的消息,如果有消息则获取并通过conn进行发送,如果connc管道上没有则等待;
(4)streamReader启动时会进行一个回拨与peer端建立一条网络连接,比如B节点会发起一个GET请求到A节点,建立一条网络连接,A节点会把这条网络连接放入到connc管道中,供A节点的streamWriter进行写入使用,B节点则是从这条网络连接里读数据,有点类似单向管道;同理A节点的streamReader在启动时也会发起GET请求到B节点从而建立网络连接,此时这条网络是A节点进行读取,B节点进行写入;
(5)对于快照的数据,v3版本的是使用snapSender来进行发送,创建post请求通过pipeline的transport来进行发送;之前的版本则是封装为一个快照消息分发到pipeline的msgc的channel中,pipeline在启动时会创建4个goroutine来监听msgc管道里的消息,如果有则取出并创建post请求通过pipeline transport发送出去;
(6)streamReader从stream pipeline中读到数据时将其进行反序列化为消息,然后根据消息的类型分别放到propc或recvc管道中,这样做区分的原因是因为MsgProp的消息处理的耗时可能比较长,所以单独放到一个管道中去,这样不阻塞其它消息的处理,这两个管道分别会有个goroutine进行读取并调用raft对象的Process函数将其传入到raft模块里去处理;
(7)snapshotHandler是一个gateway的方式接收发过来的post请求,接收快照数据保存到本地然后通知raft状态机进行处理;
(8)streamHandler也是一个gateway的方式接收streamReader发送过来的GET请求,并将该网络连接塞入到connc管道中,供streamWriter进行数据写入;
(9)stream的http transport:在创建http transport时传入的read和write的超时时间是5,因为stream通道传输的消息数据一般都比较小;
(10)pipeline的http transport:在创建http transport时传入的read和write的超时时间是0,因为快照数据比较多,读写的时间也比较长;
 

1.2. 关键数据结构分析

 
0
 
rafthttp.Transport:网络模块数据结构,里面维护了多个进行网络交互的流对象,通过这个对象可以添加peer和发送数据;
 
http.Transport:go的http库,rafthttp.transport也是通过创建它来进行数据发送和读取,它会去维护tcp连接,并且管理空闲连接;rafthttp里创建了两个http.Transport对象,一个是stream用的,一个是pipeline用的;
 
rafthttp.remote:里面也封装了pipeline,使用pipeline http transport网络发送数据,主要是帮助新加入的成员进行数据追赶。当peer的网络不可用时,如果此时有remote的则也会使用remote的网络连接来进行发送数据;
 
rafthttp.peer:peer代表对端,维护的是向peer发送数据和接收peer数据的网络流对象;
 
rafthttp.pipeline:用以发送快照;
 
rafthttp.streamWriter:rafthttp.peer对象的输出流,通过它向peer端发送数据;
 
rafthttp.streamRader:rafthttp.peer对象的输入流,通过它从peer端接收数据;
 

2. 关键流程分析

2.1. raftExample的网络模块初始化

 
0
 

2.2. 启动peer流程

 
0
 

2.3. streamWriter启动流程

 
0
 

2.4. streamReader启动流程

 
0
 

3. 传输格式

在代码中,其实我们可以看到streamReader和streamWriter都分别有两个对象的。
streamWriter:writer和msgAppV2Writer
streamReader:msgAppReader和msgAppV2Reader
这两个对象的关键不同点就是encode和decode的不同,因为底层传输字节格式不一样,所以需要这样区分开来。
 

3.1. msgApp格式

Message压缩后发送的格式:
0
 
比较简单,直接就是写入消息长度,然后接着是压缩后的数据。解压时先读取消息长度,然后读取指定长度的数据进行反序列化为Message格式。
 

3.2. msgAppV2格式

根据Message的消息类型分为3种格式存储。
 

3.2.1. linkHeartbeatMessage类型的消息

只有一个字节,字节值为uint8的0
 

3.2.2. 数据格式是msgTypeAppEntries的

符合这种格式的条件是编码器保存的index、term和logTerm跟Message中的index、term和logTerm一致,否则解码器对象里保存的这些值补充到Message的Entry里就是错的了,对于解码器对象里index等变量的维护逻辑与编码器里的一致。
 
0
 
解压时按照这种格式读出来,然后填充上解码器对象里的index、term和logTerm值即可。
msgAppV2格式的压缩优化要点:消息中携带的多个entry的index、Term等字段大多数场景都是一样的。当有多个Entry时,它可以节省index、Term和LogTerm这些字段的重复传输,因为在实际使用场景,大概率这些字段都是重复的,所以在encode时只需要保存一份即可,解压时再补上去就行,相比msgApp的直接整个序列化的方式,它传输的字节数要少得多。
 

3.2.3. 非linkHeartbeatMessage和msgTypeAppEntries格式

这种格式类型命名为msgTypeApp,压缩方式与msgApp一样,只不过前面多了个字节,值为uint8的2。
 

4. 网关URL映射处理逻辑

 
URL前缀
映射处理对象
请求举例
说明
/raft
pipelineHandler
POST /raft
只接收POST请求,接收数据后反序列化为Message对象,然后传入到raft模块处理
/raft/probing
probingHandler
GET /raft/probing
收到请求后响应消息,并且带上当前响应时间戳,表示探测成功
/raft/stream/
streamHandler
GET /raft/stream/message/{localID}(V1的格式)
GET /raft/stream/msgapp/{localID}(V2的格式)
只接收GET请求,用来建立stream网络连接
/raft/snapshot
snapHandler
POST /raft/snapshot
只接收POST请求,接收到数据后反序列化为Message对象,检查消息类型是否为快照类型,如果不是则返回错误信息,如果是则保存快照数据到本地并传到raft模块进行处理

与[转帖]etcd网络模块解析相似的内容:

[转帖]etcd网络模块解析

https://www.cnblogs.com/luohaixian/p/17509742.html 1. RaftHttp模块介绍 在etcd里raft模块和网络模块是分开的,raft模块主要负责实现共识算法,保证集群节点的一致性,消息的发送和接收则交给raftHttp网络模块来处理,由上层应用模

[转帖]etcd的安装教程

Linux 系统中,下载最新版本的ETCD Releases · etcd-io/etcd · GitHub 一.下载方式 ETCD_VER=v3.5.3 # choose either URLGOOGLE_URL=https://storage.googleapis.com/etcdGITHUB_

[转帖]Etcd+Confd实现Nginx配置文件自动管理

https://www.cnblogs.com/zhengchunyuan/p/9681954.html 一、需求 我们使用Nginx做七层负载均衡,后端是Tomcat。项目采用灰度发布方式,每次项目升级,都要手动先从Nginx下摘掉一组,然后再升级这组,当项目快速迭代时,手动做这些操作显然会增加部

[转帖]etcd的备份与恢复

https://www.cnblogs.com/wyh-l6/p/16547040.html etcd是coreos团队在2013年6月发起的开源项目,现在在githab上托管 etcd目标构建一个高可用的分布式键值数据库 etcd具有以下属性: 完全复制:集群中的每个节点都可以使用完整的存档 高可

[转帖]etcd raft模块解析

https://www.cnblogs.com/luohaixian/p/16641100.html 1. Raft简介 raft是一个管理复制式日志的共识算法,它是通过复制日志的方式来保持状态机里的数据是最终一致的。 整体的一个运行描述图: 从图中可以看到由几部分组成,共识模块、日志模块和状态机。

[转帖]突破 etcd 限制!字节自研 K8s 存储 KubeBrain

https://my.oschina.net/u/5632822/blog/5596911 KubeBrain 是字节跳动针对 Kubernetes 元信息存储的使用需求,基于分布式 KV 存储引擎设计并实现的、可以取代 etcd 的元信息存储系统,目前支撑着线上超过 20,000 节点的超大规模

[转帖]长篇图解 etcd 核心应用场景及编码实战

https://xie.infoq.cn/article/3329de088beb60f5803855895 一、白话 etcd 与 zookeeper 二、etcd 的 4 个核心机制 三、Leader 选举与客户端交互 四、etcd 的应用场景 4.1. kubernetes 大脑 4.2. 服

[转帖]共识、线性一致性与顺序一致性

https://segmentfault.com/a/1190000022248118 etcd 是线性一致性读,而 zk 却是顺序一致性读,再加上各种共识、强弱一致的名词,看的时候总会混淆,这篇文档就列举下分布式系统中的那些"一致性名词",引用了很多其他的文章,不过会多出一些例子来帮助理解。 什么

[转帖]Quick Start Guide

Before we begin be sure to download and install confd. Select a backend confd supports the following backends: etcd consul vault environment variables

[转帖]TiKV读写流程浅析

https://www.cnblogs.com/luohaixian/p/15227838.html 1.TiKV框架图和模块说明 图1 TiKV整体架构图 1.1.各模块说明 PD Cluster:它是由多个PD节点组成的etcd集群,PD是具有“上帝视角”的管理组件,负责存储元数据和进行负载均衡