[转帖]Kafka 核心技术与实战学习笔记(六)kafka线上集群部署方案

kafka,核心技术,实战,学习,笔记,集群,部署,方案 · 浏览次数 : 0

小编点评

**1. 操作系统-Linux Kafka 是一个大数据框架,使用Linux操作系统的I/O模型,能够获得更高效的 I/O性能。** **2. 磁盘-普通机械磁盘** 是kafka大量使用的一种数据存储方式,但机械磁盘物美价廉,易损坏等可靠性缺陷,由kafka在软件层面提供机制保证。 **3. 磁容量需求:** * 每天一亿条1kB大小的消息,保存两份留存两周 * 消息的平均大小是1kB,那么一天的空间大小:1亿*1KB*2=200GB * 总的存储容量就是220GB保存两周,那就是220GB*14,大约为3TB左右 **4.带宽与带宽资源** * 带宽是1Gbps,即每秒处理1Gb的数据 *假设每台kafka服务器使用70%的带宽资源 *实际使用经验,超过70%的阈值就有网络丢包可能性,故70%的设定是一个比较合理的值,也就是单台kafka服务器可能使用700mMb带宽资源 **5. 服务器数量** * 2336/240=10台,额外复制两份,需要30台

正文

一.操作系统-Linux

  • Kafka是JVM系的大数据框架
  • kafka由Scala语言和Java语言编写而成,编译之后的源代码就是普通的".class"文件 

 使用Linux 

  • kafka客户端底层使用Java的selector,selector在Linux上的实现机制是epoll,由于在windows上实现是select,因此部署在Linux上有优势,可以获得更高效的I/O性能。
  • 在Linux部署kafka能够享受到零拷贝技术所带来的 快速数据传输特性。

二.磁盘-普通机械磁盘

  •  kafka大量使用磁盘,但是使用磁盘是顺序读写操作,一定程序规避机械磁盘的随机读写操作慢。
  • 机械磁盘物美价廉,易损坏等可靠性缺陷,由kafka在软件层面提供机制保证。

三.磁盘容量

需求:

kafka需要将消息保存在底层磁盘上,这些消息默认保存一段时间然后自动被删除。

问题:

  • 假设公司业务每天需要发送一亿条消息,每条消息保存两份以上防止数据丢失,
  • 另外消息默认保存两周时间。假设消息的平均大小是1kB,那么你能计算出kafka集群要预留多少磁盘空间吗?

计算:

  • 每天一亿条1kB大小的消息,且保存两份留存两周    
  • 计算一天的空间大小:1亿*1KB*2=200GB
  • 一般情况下Kafka集群除了消息数据还有其他类型的数据,比如索引数据,我们需要预留出百分之10的磁盘空间,因此总的存储容量就是220GB
  • 保存两周,那就是220GB*14,大约为3TB左右
  • kafka支持的压缩比是0.75,那么最后规划需要的空间是0.75*3-2.25TB

规划磁盘容量考虑以下几个元素:

  • 新增消息数
  • 消息 留存时间
  • 消息平均大小
  • 备份数
  • 是否启用压缩    

四.带宽

  • 与其说是带宽资源规划, 其实是规划所需kafka服务器的数量。

需求:

  • 公司的机场环境是千兆网络即1Gbps,现在有业务,业务目标是1小时处理1TB业务数据,那么需要多少台服务器完成业务:

计算:      

  • 带宽是1Gbps,即每秒处理1Gb的数据,假设每台kafka服务器都是安装在专属的机器上,通常环境还是有其他服务,通常kafka只能用到百分70的带宽资源。
  • 实际使用经验,超过70%的阈值就有网络丢包可能性,故70%的设定是一个比较合理的值,也就是单台kafka服务器可能使用700mMb带宽资源。
  • 这只是它能使用的最大带宽资源,你不能让kafka服务器常规性使用这么多资源。通常额外预留2/3的资源,即单台服务器使用带宽700Mb/3=240Mbps。
  • 计算1小时处理1TB数据所需服务器数量。2336/240=10台,额外复制两份,需要30台。
因素考量点建议
操作系统操作系统I/O模型Linux
磁盘磁盘I/O性能机械磁盘
磁盘容量消息数,留存时间预估建议预留百分之20-30的磁盘资源
带宽实际带宽资源预估对于千兆网络按700Mps计算

文章知识点与官方知识档案匹配,可进一步学习相关知识
云原生入门技能树首页概览13441 人正在系统学习中

与[转帖]Kafka 核心技术与实战学习笔记(六)kafka线上集群部署方案相似的内容:

[转帖]Kafka 核心技术与实战学习笔记(六)kafka线上集群部署方案

一.操作系统-Linux Kafka是JVM系的大数据框架kafka由Scala语言和Java语言编写而成,编译之后的源代码就是普通的".class"文件 使用Linux kafka客户端底层使用Java的selector,selector在Linux上的实现机制是epoll,由于在windows上

[转帖]Kafka 核心技术与实战学习笔记(七)kafka集群参数配置(上)

一.Broker 端参数 Broke存储信息配置 log.dirs:非常重要,指定Broker需要使用的若干文件目录路径,没有默认值必须亲自指定。log.dir:他只能表示单个路径,补充上一个参数用。 如何设置: 只要设置log.dirs,不要设置log.dir线上环境一定要为log.dirs配置多

[转帖]Kafka 核心技术与实战学习笔记(八)kafka集群参数配置(下)

一.Topic级别参数 Topic的优先级: 如果同时设置Topic级别参数和全局Broker参数,那么Topic级别优先 消息保存方面: retention.ms:规定Topic消息保存时长。默认是7天。一旦设置将覆盖掉Broker端的全局参数值。 retention.bytes:规定为该Topi

[转帖]Kafka可靠性之HW与Leader Epoch

《深入理解Kafka:核心设计与实现原理》是基于2.0.0版本的书 在这本书中,终于看懂了笔者之前提过的几个问题 准备知识 1、leader里存着4个数据:leader_LEO、leader_HW、remote_LEO集合、remote_HW集合 2、follower里只保存自身的:follower

[转帖]【Kafka】Kafka配置参数详解

Kafka配置参数详解 Kafka得安装与基本命令Kafka配置参数kafka生产者配置参数kafka消费者配置参数 本篇文章只是做一个转载的作用以方便自己的阅读,文章主要转载于: Kafka核心配置参数与机制一文 版权声明:本文为CSDN博主「张行之」的原创文章,遵循CC 4.0 BY-SA版权协

[转帖]Kafka 基本概念大全

https://my.oschina.net/jiagoushi/blog/5600943 下面给出 Kafka 一些重要概念,让大家对 Kafka 有个整体的认识和感知,后面还会详细的解析每一个概念的作用以及更深入的原理 ・Producer:消息生产者,向 Kafka Broker 发消息的客户端

[转帖]Kafka 与RocketMQ 落盘机制比较

https://www.jianshu.com/p/fd50befccfdd 引言 前几期的评测中,我们对比了Kafka和RocketMQ的吞吐量和稳定性,本期我们要引入一个新的评测标准——软件可靠性。 何为“可靠性”? 先看下面这种情况:有A,B两辆越野汽车,在城市的周边地区均能很好应对泥泞的路况

[转帖]Kafka关键参数设置

https://www.cnblogs.com/wwcom123/p/11181680.html 生产环境中使用Kafka,参数调优非常重要,而Kafka参数众多,我们的java的Configuration代码中,经常设置的参数如下: Properties props = new Propertie

[转帖]kafka压测多维度分析实战

设置虚拟机不同的带宽来进行模拟压测 kafka数据压测 1、公司生产kafka集群硬盘:单台500G、共3台、日志保留7天。 1.1 版本:1.1.0 2、压测kafka。 2.1 使用kafka自带压测工具:bin/kafka-producer-perf-test.sh 命令参数解释: --num

[转帖]Kafka—配置SASL/PLAIN认证客户端及常用操作命令

介绍 SASL/PLAIN 是一种简单的 username/password安全认证机制,本文主要总结服务端开启该认证后,命令行客户端进行配置的操作流程。 配置 增加jaas.properties 在kafka的config目录下增加jaas.properties文件指定认证协议为SASL_PLAI