[转帖]Kafka 核心技术与实战学习笔记（六）kafka线上集群部署方案

kafka,核心技术,实战,学习,笔记,集群,部署,方案 · 浏览次数 : 0

小编点评

**1. 操作系统-Linux Kafka 是一个大数据框架，使用Linux操作系统的I/O模型，能够获得更高效的 I/O性能。** **2. 磁盘-普通机械磁盘** 是kafka大量使用的一种数据存储方式，但机械磁盘物美价廉，易损坏等可靠性缺陷，由kafka在软件层面提供机制保证。 **3. 磁容量需求：** * 每天一亿条1kB大小的消息，保存两份留存两周 * 消息的平均大小是1kB，那么一天的空间大小：1亿*1KB*2=200GB * 总的存储容量就是220GB保存两周，那就是220GB*14，大约为3TB左右 **4.带宽与带宽资源** * 带宽是1Gbps，即每秒处理1Gb的数据 *假设每台kafka服务器使用70%的带宽资源 *实际使用经验，超过70%的阈值就有网络丢包可能性，故70%的设定是一个比较合理的值，也就是单台kafka服务器可能使用700mMb带宽资源 **5. 服务器数量** * 2336/240=10台，额外复制两份，需要30台

正文

一.操作系统-Linux

Kafka是JVM系的大数据框架
kafka由Scala语言和Java语言编写而成，编译之后的源代码就是普通的".class"文件

使用Linux

kafka客户端底层使用Java的selector，selector在Linux上的实现机制是epoll，由于在windows上实现是select，因此部署在Linux上有优势，可以获得更高效的I/O性能。
在Linux部署kafka能够享受到零拷贝技术所带来的快速数据传输特性。

二.磁盘-普通机械磁盘

kafka大量使用磁盘，但是使用磁盘是顺序读写操作，一定程序规避机械磁盘的随机读写操作慢。
机械磁盘物美价廉，易损坏等可靠性缺陷，由kafka在软件层面提供机制保证。

三.磁盘容量

需求：

kafka需要将消息保存在底层磁盘上，这些消息默认保存一段时间然后自动被删除。

问题：

假设公司业务每天需要发送一亿条消息，每条消息保存两份以上防止数据丢失，
另外消息默认保存两周时间。假设消息的平均大小是1kB，那么你能计算出kafka集群要预留多少磁盘空间吗？

计算：

每天一亿条1kB大小的消息，且保存两份留存两周
计算一天的空间大小：1亿*1KB*2=200GB
一般情况下Kafka集群除了消息数据还有其他类型的数据，比如索引数据，我们需要预留出百分之10的磁盘空间，因此总的存储容量就是220GB
保存两周，那就是220GB*14，大约为3TB左右
kafka支持的压缩比是0.75，那么最后规划需要的空间是0.75*3-2.25TB

规划磁盘容量考虑以下几个元素：

新增消息数
消息留存时间
消息平均大小
备份数
是否启用压缩

四.带宽

与其说是带宽资源规划，其实是规划所需kafka服务器的数量。

需求：

公司的机场环境是千兆网络即1Gbps，现在有业务，业务目标是1小时处理1TB业务数据，那么需要多少台服务器完成业务：

计算：

带宽是1Gbps，即每秒处理1Gb的数据，假设每台kafka服务器都是安装在专属的机器上，通常环境还是有其他服务，通常kafka只能用到百分70的带宽资源。
实际使用经验，超过70%的阈值就有网络丢包可能性，故70%的设定是一个比较合理的值，也就是单台kafka服务器可能使用700mMb带宽资源。
这只是它能使用的最大带宽资源，你不能让kafka服务器常规性使用这么多资源。通常额外预留2/3的资源，即单台服务器使用带宽700Mb/3=240Mbps。
计算1小时处理1TB数据所需服务器数量。2336/240=10台，额外复制两份，需要30台。

因素	考量点	建议
操作系统	操作系统I/O模型	Linux
磁盘	磁盘I/O性能	机械磁盘
磁盘容量	消息数，留存时间预估	建议预留百分之20-30的磁盘资源
带宽	实际带宽资源预估	对于千兆网络按700Mps计算

文章知识点与官方知识档案匹配，可进一步学习相关知识

云原生入门技能树首页概览13441 人正在系统学习中

[转帖]Kafka 核心技术与实战学习笔记（六）kafka线上集群部署方案

小编点评

正文

一.操作系统-Linux

二.磁盘-普通机械磁盘

三.磁盘容量

需求：

问题：

计算：

四.带宽

需求：

计算：

与[转帖]Kafka 核心技术与实战学习笔记（六）kafka线上集群部署方案相似的内容：

[转帖]Kafka 核心技术与实战学习笔记（六）kafka线上集群部署方案

[转帖]Kafka 核心技术与实战学习笔记（七）kafka集群参数配置（上）

[转帖]Kafka 核心技术与实战学习笔记（八）kafka集群参数配置（下）

[转帖]Kafka可靠性之HW与Leader Epoch

[转帖]【Kafka】Kafka配置参数详解

[转帖]Kafka 基本概念大全

[转帖]Kafka 与RocketMQ 落盘机制比较

[转帖]Kafka关键参数设置

[转帖]kafka压测多维度分析实战

[转帖]Kafka—配置SASL/PLAIN认证客户端及常用操作命令

# 热门排行