Grafana 系列-统一展示-3-Prometheus 仪表板

grafana,系列,统一,展示,prometheus,仪表板 · 浏览次数 : 397

小编点评

**Grafana 系列文章知识储备Prometheus Template Variables** **什么是模板变量?** 模板变量是用于在仪表盘中动态展示数据变量的变量。它们可以替换为特定的值,例如服务器名称、应用程序名称或 pod 名。 **如何使用模板变量?** 1. 选择仪表盘顶部的下拉选择框中列出可用的模板变量。 2. 在 metric 查询中使用模板变量,例如:`rate(http_requests_total{job=~\"$job\"}[$_rate_interval])`。 3. 选择一个 Prometheus 数据源查询类型并输入所需的输入。 4. 使用 =~ 符号将标签值转换为与 regex 兼容的字符串。 **示例:** ``` Rate (HTTP Requests Total) by Job (All) { label_values(app)} } ``` 此示例将显示所有应用程序的 HTTP 请求数量。 **注意:** * 启用模板变量可以增加仪表板的复杂性。 * 使用 =~ 符号可以防止在词的中间使用变量。 * 为了确保变量有效,请确保它们在数据源中定义。

正文

系列文章

知识储备

Prometheus Template Variables

你可以使用变量来代替硬编码的细节,如 server、app 和 pod_name 在 metric 查询中。Grafana 在仪表盘顶部的下拉选择框中列出这些变量,帮助你改变仪表盘中显示的数据。Grafana 将这类变量称为模板变量。

Query Variables

使用 Query 类型的变量来查询 Prometheus 的指标 (metrics)、标签 (labels) 或标签值 (label values) 的列表。

选择一个 Prometheus 数据源查询类型并输入所需的输入:

Variable Syntax

Prometheus 数据源支持在 Query 字段中使用两种变量语法:

  • $<varname>, 如:rate(http_requests_total{job=~"$job"}[$_rate_interval]), 它更容易读和写,但不允许你在词的中间使用变量。一般使用这种变量就够用了。
  • [[varname]], 如:rate(http_requests_total{job=~"[[job]]"}[$_rate_interval])

如果你启用了 Multi-valueInclude all 选项,Grafana 会将标签从纯文本转换为与 regex 兼容的字符串,这需要你使用=~而不是=。所以推荐在 Grafana 中使用 PromQL 组合 Grafana 变量时,首选 =~.

Annotations

注释 (Annotations) 在图表上面叠加丰富的事件信息。你可以在 Dashboard 菜单的 Annotations 视图中添加注释查询。

Prometheus 支持两种方式来查询注释。

  • 一个常规的 metric 查询
  • 一个 Prometheus 的 pending 和 firing 的告警(详见 在运行期间检查警报), 示例为:ALERTS{alertname="<alert name>", alertstate="<pending or firing>", <additional alert labels>}

Step 选项对于限制从你的查询中返回的事件数量很有用。

Ad Hoc Filters Variable

Prometheus 支持特殊的 ad hoc filters 变量类型,你可以用它来临时指定任何数量的 标签/值 过滤器。这些过滤器会自动应用于你所有的 Prometheus 查询。

实战

我们直接从 Grafana Dashboards 中选择一个 Dashboard - JVM(Micrometer) (ID: 4701) 来进行说明演示。

📝Notes:

这就是选择使用 Grafana 的一个巨大好处,它拥有丰富的生态。
我们一般不需要从零开始构建仪表板,可以站在巨人的肩上,再进行部分调整。

最终效果如下:

JVM(Micrometer) (ID: 4701)

细节优化

这里有一些小的仪表板优化细节和大家分享:

  • 对于变量,谨慎启用:Multi-valueInclude all 选项。避免查询数据量过大。
  • 对于展示 Panel 数量特别多的单一 Dashboard, 可以根据 Panel 的类型添加 Row, 并将部分 Row 收起。实现 Lazy Load, 减少查询数据量,优化用户体验。
  • 对于右上角时间范围,建议在合理范围内尽可能小;同时如果查询数据量特别大,建议禁用 auto refresh

配置 JVM Restart Annotation

在这个 Dashboard 里,可以配置关于 JVM Restart 的 Annotation, 具体配置示例如下:

JVM  Restart Annotation Config

  • Name: Restart Detection
  • Data source: Prometheus
  • Enabled: ✔️
  • Color: Red
  • Query
    • Expr: resets(process_uptime_seconds{app="$app", pod_name="$pod_name"}[1m]) > 0, 这里是基于 process_uptime_seconds 来实现。
    • Step: 1m
  • Field formats, 这里 title 和 text 字段,可以使用变量,如:{{instance}}
    • Title: Restart
    • Tags: restart-tag
    • Text: uptime reset

最终效果如下(这里一直没有复现 JVM Restart), 用 Grafana Play 的 Demo 演示:

Annotation Example

变量

Label Value

具体配置如下,如需要根据 app 的值进行选择,则配置如下:

变量 app

Name: app
Type: Query
Query: label_values(app)

如果要新增另一个变量 pod_name, 需要基于 app 的结果进行过滤,则配置如下:

Name: pod_name
Query: label_values(jvm_memory_used_bytes{app="$app"}, pod_name)

如果需要对变量根据自己的实际情况进行调整,如,需要将 pod_name 变量改为 instance 变量。
Instance 变量如下:

Name: instance
Query: label_values(jvm_memory_used_bytes{app="$app"}, instance)

则可以进入该 Dashboard 的 Settings -> JSON Model, 中,对pod_name pod_name=\"$pod_name\" 等批量替换为 instance instance=\"$instance\"

Interval

也可以设置时间间隔 (Interval) 作为变量。具体如下:

  • Name: interval
  • Type: Interval
  • Values: 不同的时间间隔用,, 如:5s,10s,30s,1m,10m,30m,1h,6h,12h,1d,7d,14d,30d

然后 Dashboard 下的 Query 可以通过 $__interval$__interval_ms 来使用。

EOF

三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

与Grafana 系列-统一展示-3-Prometheus 仪表板相似的内容:

Grafana 系列-统一展示-3-Prometheus 仪表板

系列文章 Grafana 系列文章 知识储备 Prometheus Template Variables 你可以使用变量来代替硬编码的细节,如 server、app 和 pod_name 在 metric 查询中。Grafana 在仪表盘顶部的下拉选择框中列出这些变量,帮助你改变仪表盘中显示的数据。

Grafana 系列-统一展示-1-开篇

本文为系列文章-Grafana 统一展示,包括 Metrics、Tracing、Logging,并尽量实现在它们之间相互跳转。通过 Grafana LTM(Loki、Tempo、Mimir)可以实现比较完美的效果,但是即使没有 Grafana LTM, 通过其他 Grafana + 其他工具也能实现相对不错的结果。

Grafana 系列-统一展示-2-Prometheus 数据源

系列文章 Grafana 系列文章 Grafana Prometheus 数据源 Grafana 提供了对 Prometheus 的内置支持。本文会介绍 Grafana Prometheus(也包括 Prometheus 的兼容实现,如 Thanos, Mimir 等) 数据源的部分选项、变量 (V

Grafana 系列-统一展示-4-AWS Cloudwatch 数据源

本文为系列文章-Grafana 统一展示,添加 AWS Cloudwatch 数据源。

Grafana 系列-统一展示-5-AWS Cloudwatch 仪表板

本文为系列文章-Grafana 统一展示,添加 AWS Cloudwatch 仪表板的变量和细节。

Grafana系列-统一展示-6-Zabbix仪表板

系列文章 Grafana 系列文章 📝Notes: 关于 Grafana系列-统一展示-6-Zabbix 数据源, 其实已经在之前的文章: 使用 Grafana 统一监控展示 - 对接 Zabbix 里详细介绍过了, 感兴趣的请移步阅读. 知识储备 一个图表上的多个 Items 我们可以在 met

Grafana系列-统一展示-7-ElasticSearch数据源

系列文章 Grafana 系列文章 ElasticSearch 数据源 Grafana内置了对Elasticsearch的支持。你可以进行多种类型的查询,以可视化存储在Elasticsearch中的日志或指标,并使用存储在Elasticsearch中的日志事件对图表进行注释。 配置 ES 数据源 关

Grafana系列-统一展示-8-ElasticSearch日志快速搜索仪表板

系列文章 Grafana 系列文章 概述 我们是基于这篇文章: Grafana 系列文章(十二):如何使用 Loki 创建一个用于搜索日志的 Grafana 仪表板, 创建一个类似的, 但是基于 ElasticSearch 的日志快速搜索仪表板. 最终完整效果如下: 📝Notes: 其实我基于 E

Grafana系列-统一展示-9-Jaeger数据源

系列文章 Grafana 系列文章 配置 Jaeger data source Grafana内置了对Jaeger的支持,它提供了开源的端到端分布式跟踪。本文解释了针对Jaeger数据源的配置和查询。 关键的配置如下: URL: Jaeger 实例的 URL, 如: http://localhost

Grafana系列-统一展示-10-Explore Jaeger

本文为系列文章-Grafana 统一展示,通过 Grafana Explore 功能探索 Jaeger 数据源中的 trace 信息。