[转帖]C++:perf详解 + Flame Graph火焰图分析程序性能

c++,perf,详解,flame,graph,火焰,分析程序,性能 · 浏览次数 : 0

小编点评

**脚本说明:** 该脚本用于采集并生成火焰图,需要在使用之前安装相关的工具。 **步骤:** 1. **下载并安装工具:** - 下载 FlameGraph 工具:`git clone https://github.com/brendangregg/FlameGraph.git` - 安装 perf 工具:`sudo yum install perf` - 安装 perf-map-agent 工具:`sudo yum install cmake sudo yum install gcc sudo yum install gcc-c++ sudo cmake . sudo make` 2. **设置频率:** - 使用 `-F` 参数指定采样频率(5 秒) - 使用 `-p` 参数指定线程数量(1) - 使用 `-g` 参数记录调用栈信息 - 使用 `-o` 参数指定输出文件名 3. **执行采样:** - 使用 `sleep 60` 等等待 60 秒,以便采集数据完成 - 使用 `&` 符号将脚本后台运行 4. **生成火焰图:** - 使用 `./stackcollapse-perf.pl` 解析 `perf.data` 文件 - 使用 `./flamegraph.pl` 生成火焰图 5. **保存火焰图:** - 使用 `sudo` 命令将火焰图保存为 `perf.svg` - 可根据需要将其复制到本地 **使用说明:** 1. 创建一个名为 `perf.data` 的文件,包含你想要采样的性能数据。 2. 将该文件复制到 FlameGraph 所在目录的 `perf.data` 文件中。 3. 执行脚本:`sudo perf script | ./stackcollapse-perf.pl --all | ./flamegraph.pl --color=java --hash > kaiming-example-perf.svg` 4. 打开 `kaiming-example_perf.svg` 文件以查看火焰图。 **注意:** - 采样频率应根据你的硬件和性能要求进行调整。 - 该脚本需要在使用之前安装相关工具,具体请参考文档。 - 生成的火焰图可能很复杂,需要使用专门的图形工具才能对其进行分析。

正文

因为项目需求,C++和java同时在搞,最近了解到Flame Graph火焰图这个工具,网上查了查资料,这里记录一下。

1 介绍

web site

http://www.brendangregg.com/flamegraphs.html

git:

https://github.com/brendangregg/FlameGraph

     火焰图是一个可视化工具,可以将诸多性能检测相关的命令行工具的结果进行可视化展示,方便侦测性能热点。

不同火焰图类型:

其支持将以下工具的采样结果进行可视化展示:

  • Linux: perf, eBPF, SystemTap, and ktap
  • Solaris, illumos, FreeBSD: DTrace
  • Mac OS X: DTrace and Instruments
  • Windows: Xperf.exe

本文以perf为例介绍(关于perf的用法可以参考perf examples如何在Linux上采集性能数据并且生成火焰图。

2 perf命令简要介绍

perf是Linux下的一款性能分析工具,能够进行函数级与指令级的热点查找。

2.1 Perf List

利用perf剖析程序性能时,需要指定当前测试的性能时间。性能事件是指在处理器或操作系统中发生的,可能影响到程序性能的硬件事件或软件事件


2.2 Perf top

实时显示系统/进程的性能统计信息

常用参数

-e:指定性能事件
-a:显示在所有CPU上的性能统计信息
-C:显示在指定CPU上的性能统计信息
-p:指定进程PID
-t:指定线程TID
-K:隐藏内核统计信息
-U:隐藏用户空间的统计信息
-s:指定待解析的符号信息
‘‐G’ or‘‐‐call‐graph’ <output_type,min_percent,call_order>

graph: 使用调用树,将每条调用路径进一步折叠。这种显示方式更加直观。
    每条调用路径的采样率为绝对值。也就是该条路径占整个采样域的比率。
fractal
    默认选项。类似与 graph,但是每条路径前的采样率为相对值。
flat
    不折叠各条调用
选项 call_order 用以设定调用图谱的显示顺序,该选项有 2个取值,分别是

callee 与caller。
   将该选项设为callee 时,perf按照被调用的顺序显示调用图谱,上层函数被下层函数所调用。
   该选项被设为caller 时,按照调用顺序显示调用图谱,即上层函数调用了下层函数路径,也不显示每条调用路径的采样率

注: Perf top需要root权限


2.3 Perf stat

分析系统/进程的整体性能概况

task‐clock事件表示目标任务真正占用处理器的时间,单位是毫秒。也称任务执行时间
context-switches是系统发生上下文切换的次数
CPU-migrations是任务从一个处理器迁往另外一个处理器的次数
page-faults是内核发生缺页的次数
cycles是程序消耗的处理器周期数
instructions是指命令执行期间产生的处理器指令数
branches是指程序在执行期间遇到的分支指令数。
branch‐misses是预测错误的分支指令数。
XXX seconds time elapsed系程序持续时间
任务执行时间/任务持续时间大于1,那可以肯定是多核引起的

参数设置:
-e:选择性能事件
-i:禁止子任务继承父任务的性能计数器。
-r:重复执行 n 次目标程序,并给出性能指标在n 次执行中的变化范围。
-n:仅输出目标程序的执行时间,而不开启任何性能计数器。
-a:指定全部cpu
-C:指定某个cpu
-A:将给出每个处理器上相应的信息。
-p:指定待分析的进程id
-t:指定待分析的线程id


2.4 Perf record

记录一段时间内系统/进程的性能时间

参数:
 -e:选择性能事件
 -p:待分析进程的id
 -t:待分析线程的id
 -a:分析整个系统的性能
 -C:只采集指定CPU数据
 -c:事件的采样周期
 -o:指定输出文件,默认为perf.data
 -A:以append的方式写输出文件
 -f:以OverWrite的方式写输出文件
 -g:记录函数间的调用关系

 -F:采样评率,采样频率建议在4000以内,避免造成太多开销


2.5 Perf Report

读取perf record生成的数据文件,并显示分析数据

参数

-i:输入的数据文件
-v:显示每个符号的地址
-d <dos>:只显示指定dos的符号
-C:只显示指定comm的信息(Comm. 触发事件的进程名)
-S:只考虑指定符号
-U:只显示已解析的符号
-g[type,min,order]:显示调用关系,具体等同于perf top命令中的-g
-c:只显示指定cpu采样信息
-M:以指定汇编指令风格显示
–source:以汇编和source的形式进行显示
-p<regex>:用指定正则表达式过滤调用函数


性能调优时,我们通常需要分析查找到程序百分比高的热点代码片段,这便需要使用 perf record 记录单个函数级别的统计信息,并使用 perf report 来显示统计结果;

 

举例

perf record -e cpu-clock -g -p 222

-g 选项是告诉perf record额外记录函数的调用关系

-e cpu-clock 指perf record监控的指标为cpu周期

-p 指定需要record的进程pid

 

3 配置采集

https://superuser.com/questions/980632/run-perf-without-root-rights

Files in /proc that are writable are usually changed by echoing a value into them. You should try:

sudo sh -c 'echo 1 >/proc/sys/kernel/perf_event_paranoid'

The files under /proc/sys/ also have the sysctl command for easy access, so you can instead do:

sudo sysctl -w kernel.perf_event_paranoid=1

(though the -w for write seems to be optional). To ensure this is done at boot time create your own /etc/sysctl.d/99-mysettings.conf file with the line

kernel.perf_event_paranoid=1

Choose a filename that will not override existing files in /run/sysctl.d/ and /usr/lib/sysctl.d/. See man sysctl.d

 

4 实例:

4.1 实例1:

4.1.1 安装FlameGraph

wget https://github.com/brendangregg/FlameGraph/archive/master.zip

unzip master.zip

sudo mv FlameGraph-master/ /opt/FlameGraph

添加到环境变量 编辑/etc/profile,增加

#FlameGraph

export PATH=$PATH:/opt/FlameGraph

4.1.2 查找程序的pid

$ ps -aux|grep cjdroute

nobody 31779 0.2 0.0 19208 4000 pts/37 S 15:35 0:10 /home/name/cjdroute/cjdns/cjdroute core /tmp client-core-puux8w0hdr7y5kdq9u12qqz7s7cgw5

pid为31779

4.1.3 生成CPU采样文件

sudo perf record -F 99 -p 31779 -g -o in-fb.data -- sleep 60

sudo perf script -i in-fb.data > in-fb.perf

首先使用99HZ的采样频率,对pid为31779的进程进行采样,采样输出到in-fb.data中,采样时长为60秒

4.1.4 生成CPU火焰图

stackcollapse-perf.pl in-fb.perf >in-fb.folded

flamegraph.pl in-fb.folded >in-fb-cpu.svg

火焰图可以使用浏览器来打开

     X轴是CPU时间,色块越宽,表示对应函数占用的CPU时间越多,可能是性能热点。Y轴是函数调用栈,最顶端的是正在执行的函数。如果出现unknow则说明缺少调试信息。

4.1.5 一个简单的脚本

  1. #!/bin/sh
  2. DIR=/your-path/
  3. sudo perf record -F 99 -p $1 -g -o $DIR/cpu.data -- sleep $2
  4. sudo perf script -i $DIR/cpu.data > $DIR/cpu.perf
  5. stackcollapse-perf.pl $DIR/cpu.perf > $DIR/cpu.folded
  6. flamegraph.pl $DIR/cpu.folded > $DIR/cpu1.svg

使用方法:对进程1234采样60秒

bash perf 1234 60

其他脚本:

  1. if [ $# -ne 1 ];then
  2. echo "Usage: $0 seconds"
  3. exit 1
  4. fi
  5. perf record -a -g-o perf.data &
  6. PID=`ps aux| grep "perf record"| grep -v grep| awk '{print $2}'`
  7. if [ -n "$PID" ]; then
  8. sleep $1
  9. kill -s INT $PID
  10. fi
  11. # wait until perf exite
  12. sleep 1
  13. perf script -i perf.data &> perf.unfold
  14. perl stackcollapse-perf.pl perf.unfold &> perf.folded
  15. perl flamegraph.pl perf.folded >perf.svg

  将上面的脚本保存为perf_flame_graph.sh。根据上面的Usage可以看出在执行的时候,只需要指定采样的时间,单位为秒。
 

4.2 实例2

4.2.1 第1步:下载FlameGraph

[zhongcy@server home/zhongcy]$ git clone https://github.com/brendangregg/FlameGraph

4.2.2 第2步:安装perf工具

[root@server home/root]$ sudo yum install perf

4.2.3 第2步:调用perf进行采样,并设置结果文件权限

[root@server FlameGraph]$ sudo perf record -F 99 -a -g -- sleep 60
[ perf record: Woken up 8 times to write data ]
[ perf record: Captured and wrote 3.975 MB perf.data (47520 samples) ]
[root@server FlameGraph]$ sudo chown zhongcy:zhongcy perf.data
[root@server FlameGraph]$ exit

4.2.4 第3步:生成火焰图

[zhongcy@server FlameGraph]$ perf script | ./stackcollapse-perf.pl > out.perf-folded
[kernel.kallsyms] with build id 6a0789weqfsswerwerad891df16787 not found, continuing without symbols
Failed to open [vsyscall], continuing without symbols
[vdso] with build id 6fc7sdfsfwqq5843ecfgg1e7a not found, continuing without symbols
[zhongcy@server FlameGraph]$  ./flamegraph.pl out.perf-folded > perf-kernel.svg

 

4.3 实例3,调试java程序

      因为我们采集的是JAVA进程,perf采集的内容只会显示一个JAVA线程的内存地址,不会详细展示其堆栈信息,因此我们需要另外个工具perf-map-agent 来帮助我们

      PS: 感觉火焰图来分析JAVA性能热点还是略麻烦,依赖比较多,单纯看JAVA线程的cpu占用top可以考虑使用greys-anatomy。 如果是C++程序或者C程序,用火焰图更加方便些。

4.3.1 安装火焰图

clone下github上项目即可

git clone https://github.com/brendangregg/FlameGraph.git

4.3.2 安装perf-map-agent

  1. git clone https://github.com/jvm-profiling-tools/perf-map-agent
  2. cd perf-map-agent/
  3. sudo yum install cmake
  4. sudo yum install gcc
  5. sudo yum install gcc-c++
  6. sudo cmake .
  7. sudo make

如果cmake提示版本低按照如下方式升级

  1. wget https://cmake.org/files/v3.6/cmake-3.6.2.tar.gz
  2. tar -zxvf cmake-3.6.2.tar.gz
  3. cd cmake-3.6.2
  4. sudo ./bootstrap --prefix=/usr/local
  5. sudo make
  6. sudo make install

4.3.3 性能采用并且生成火焰图

PS:采样频率建议在4000以内,避免造成太多开销

# -F设定频率,-p指定线程,-g表示记录调用栈信息,该命令执行采样5秒后会在当前目录生成perf.data
sudo perf record -F99 -p <PID> -g  sleep 60

# 获取进程堆栈信息
./jmaps 

# 下面是一个工作流,直接通过perf script解析perf.data里面的内容,然后通过perl脚本生成火焰图。将自己的perf.data拷贝到FlameGraph所在目录,再执行以下命令
sudo perf script | ./stackcollapse-perf.pl --all | ./flamegraph.pl --color=java --hash > kaiming-example-perf.svg

将生成的kaiming-example-perf.svg拷贝到本地,并且用浏览器打开就可以看到火焰图了:

 

 

5 参考资料:

http://linux.51yip.com/search/perf

https://ivanzz1001.github.io/records/post/linuxops/2017/11/16/linux-perf-usge

https://ichrisking.github.io/2018/03/08/FlameGraph/

https://www.cnblogs.com/felixzh/p/8932984.html

https://kaimingwan.com/post/gong-ju/xing-neng-diao-you-gong-ju/shi-yong-huo-yan-tu-flamegraph-fen-xi-cheng-xu-xing-neng-re-dian

</article>

与[转帖]C++:perf详解 + Flame Graph火焰图分析程序性能相似的内容:

[转帖]C++:perf详解 + Flame Graph火焰图分析程序性能

因为项目需求,C++和java同时在搞,最近了解到Flame Graph火焰图这个工具,网上查了查资料,这里记录一下。 1 介绍 web site http://www.brendangregg.com/flamegraphs.html git: https://github.com/brendan

[转帖]Linux tracing/profiling 基础:符号表、调用栈、perf/bpftrace 示例等(2022)

http://arthurchiao.art/blog/linux-tracing-basis-zh/ 1 引言 1.1 热点与调用栈分析(perf record/report/script) 1.2 符号(symbols) 1.3 小结 2 极简程序 hello-world:探究符号 2.1 C

[转帖]「理解C++20协程原理」从Linux线程、线程与异步编程、协程与异步

协程不是系统级线程,很多时候协程被称为“轻量级线程”、“微线程”、“纤程(fiber)”等。简单来说可以认为协程是线程里不同的函数,这些函数之间可以相互快速切换。 协程和用户态线程非常接近,用户态线程之间的切换不需要陷入内核,但部分操作系统中用户态线程的切换需要内核态线程的辅助。 协程是编程语言(或

[转帖]-O1,-O2,-O3编译优化知多少

1.从.c文件到可执行文件,其间经历了几步? 高级语言是偏向人,按照人的思维方式设计的,机器对这些可是莫名奇妙,不知所谓。那从高级语言是如何过渡到机器语言的呢?这可是一个漫长的旅途呀! 其中,得经历这样的历程:C源程序->编译预处理->编译->汇编程序->链接程序->可执行文件 1.预处理 读取c源

[转帖]Redis配置项汇总(超级详细)

http://c.biancheng.net/redis/config-summary.html 本节对 Redis 的常用配置项和基本命令做简单的总结,您可以把本篇文章看做简版的速查手册。不过,需要注意的是由于 Redis 不同版本的差异,配置项会多少存在一些不同,但总体的来说,大同小异。 基本配

[转帖]DevOps 知识点 ——3C 知多少

https://my.oschina.net/u/6148787/blog/5720314 CI / CD 是任何 DevOps 操作的两大基石,这是一种开发软件的方式,旨在生产快速而强大的软件,随时以可持续的方式发布更新。 当例行更改代码时,开发周期会更加频繁、更有意义且更快速。通过此过程,我们可

[转帖]文文的复习笔记--底层内存管理

内存分配方式: c++中,内存分成五个区: 堆:new分配执行的内存块,一个new一个delete。 栈:执行函数,局部变量的存储单元在栈上创建,执行结束存储单元自动释放。 自由存储区:由malloc分配的内存块,和堆相似,用free结束自己的生命。 全局/静态存储区:全局变量和静态变量被分配到这一

[转帖]【JVM】Java内存区域与OOM

引入 Java与C++之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”,墙外面的人想进去,墙里面的人却想出来。 Java虚拟机运行时数据区 如图所示 1.程序计数器(线程私有) 作用 记录当前线程所执行到的字节码的行号。字节码解释器工作的时候就是通过改变这个计数器的值来选取下一条需要执行的字节

[转帖]【JVM】Java内存区域与OOM

引入 Java与C++之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”,墙外面的人想进去,墙里面的人却想出来。 Java虚拟机运行时数据区 如图所示 1.程序计数器(线程私有) 作用 记录当前线程所执行到的字节码的行号。字节码解释器工作的时候就是通过改变这个计数器的值来选取下一条需要执行的字节

[转帖]Shell字符串拼接(连接、合并)

http://c.biancheng.net/view/1114.html 在脚本语言中,字符串的拼接(也称字符串连接或者字符串合并)往往都非常简单,例如: 在 PHP 中,使用.即可连接两个字符串; 在 JavaScript 中,使用+即可将两个字符串合并为一个。 然而,在 Shell 中你不需要