Prometheus搭配Grafana 监控入门学习

发布于:2025-06-27 ⋅ 阅读:(15) ⋅ 点赞:(0)

1 Prometheus介绍

Prometheus 是一个开源的完整监控解决方案和警报工具包,其对传统监控系统的测试和告警模型进行了彻底的颠覆,形成了基于中央化的规则计算、统一分析和告警的新模型。Prometheus 受启发于 Google 的 Brogmon 监控系统,从 2012 年开始由前 Google 工程师在 Soundcloud 以开源软件的形式进行研发,并且于 2015 年早期对外发布早期版本。

2016 年 5 月Prometheus 继 Kubernetes 之后成为第二个正式加入 CNCF 基金会的项目,同年 6 月正式发布 1.0 版本。2017 年底发布了基于全新存储层的 2.0 版本,能更好地与容器平台、云平台配合。

2 Prometheus的特点

Prometheus 作为新一代的云原生监控系统,目前已经有超过 650+位贡献者参与到Prometheus 的研发工作上,并且超过 120+项的第三方集成。相比于传统监控系统,Prometheus 具有以下优点:

2.1 易于管理

  • Prometheus 核心部分只有一个单独的二进制文件,不存在任何的第三方依赖(数据库,缓存等等)。唯一需要的就是本地磁盘,因此不会有潜在级联故障的风险。
  • Prometheus 基于 Pull 模型的架构方式,可以在任何地方(本地电脑,开发环境,测试环境)搭建我们的监控系统。
  • 对于一些复杂的情况,还可以使用 Prometheus 服务发现(Service Discovery)的能力动态管理监控目标

2.2 监控服务的内部运行状态

Pometheus 鼓励用户监控服务的内部状态,基于 Prometheus 丰富的 Client 库,用户可以轻松的在应用程序中添加对 Prometheus 的支持,从而让用户可以获取服务和应用内部真正的运行状态。

在这里插入图片描述

2.3 强大的数据模型

所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库(TSDB)当中。所有的样本除了基本的指标名称以外,还包含一组用于描述该样本特征的标签。如下所示:

http_request_status{code='200',content_path='/api/path',environment='produment'} => 
[value1@timestamp1,value2@timestamp2...]
http_request_status{code='200',content_path='/api/path2',environment='produment'} => 
[value1@timestamp1,value2@timestamp2...]

每一条时间序列由指标名称(Metrics Name)以及一组标签(Labels)唯一标识。每条时间序列按照时间的先后顺序存储一系列的样本值。

  • http_request_status:指标名称(Metrics Name)
  • {code=‘200’,content_path=‘/api/path’,environment=‘produment’}:表示维度的标签,基于这些 Labels 我们可以方便地对监控数据进行聚合,过滤,裁剪。
  • [value1@timestamp1,value2@timestamp2…]:按照时间的先后顺序 存储的样本值

2.4 高效

对于监控系统而言,大量的监控任务必然导致有大量的数据产生。而 Prometheus 可以高效地处理这些数据,对于单一 Prometheus Server 实例而言它可以处理数以百万的监控指标和每秒处理数十万的数据点。

2.5 可拓展

可以在每个数据中心、每个团队运行独立的 Prometheus Sevrer。Prometheus 对于联邦集群的支持,可以让多个 Prometheus 实例产生一个逻辑集群,当单实例 Prometheus Server 处理的任务量过大时,通过使用功能分区(sharding)+联邦集群(federation)可以对其进行扩展。

2.6 强大的查询语言 PromQL

Prometheus 内置了一个强大的数据查询语言 PromQL。 通过 PromQL 可以实现对监控数据的查询、聚合。同时 PromQL 也被应用于数据可视化(如 Grafana)以及告警当中。通过 PromQL 可以轻松回答类似于以下问题:

  • 在过去一段时间中 95%应用延迟时间的分布范围?
  • 预测在 4 小时后,磁盘空间占用大致会是什么情况?
  • CPU 占用率前 5 位的服务有哪些?(过滤)

2.7 易于集成

使用 Prometheus 可以快速搭建监控服务,并且可以非常方便地在应用程序中进行集成。目前支持:Java,JMX,Python,Go,Ruby,.Net,Node.js 等等语言的客户端 SDK,基于这些 SDK 可以快速让应用程序纳入到 Prometheus 的监控当中,或者开发自己的监控数据收集程序。

同时这些客户端收集的监控数据,不仅仅支持 Prometheus,还能支持 Graphite 这些其他的监控工具。同时 Prometheus 还支持与其他的监控系统进行集成:Graphite,Statsd,Collected,Scollector, muini, Nagios 等。 Prometheus 社区还提供了大量第三方实现的监控数据采集支持:JMX,CloudWatch,EC2,MySQL,PostgresSQL,Haskell,Bash,SNMP,Consul,Haproxy,Mesos,Bind,CouchDB,Django,Memcached,RabbitMQ,Redis,RethinkDB,Rsyslog 等等。

2.8 可视化

Prometheus Server 中自带的 Prometheus UI,可以方便地直接对数据进行查询,并且支持直接以图形化的形式展示数据。同时 Prometheus 还提供了一个独立的基于Ruby On Rails 的 Dashboard 解决方案 Promdash。 基于 Prometheus 提供的 API 还可以实现自己的监控可视化 UI。

目前更常用的 Grafana 可视化工具也提供了完整的 Prometheus 支持,基于 Grafana 可以创建更加精美的监控图表。

2.9 开放性

通常来说当我们需要监控一个应用程序时,一般需要该应用程序提供对相应监控系统协议的支持,因此应用程序会与所选择的监控系统进行绑定。为了减少这种绑定所带来的限制,对于决策者而言要么你就直接在应用中集成该监控系统的支持,要么就在外部创建单独的服务来适配不同的监控系统。

而对于 Prometheus 来说,使用 Prometheus 的 client library 的输出格式不止支持Prometheus 的格式化数据,也可以输出支持其它监控系统的格式化数据,比如 Graphite。因此你甚至可以在不使用 Prometheus 的情况下,采用 Prometheus 的 client library 来让你的应用程序支持监控数据采集

3 Prometheus架构

在这里插入图片描述

Prometheus 被设计为一个维度存储模型,可以把它理解为一个 OLAP 联机分析处理系统。将Prometheus可以分成三层:存储计算层,采集层,应用层。

3.1 存储计算层

  • Prometheus Server,主服务器里面包含了存储引擎和计算引擎。负责收集和存储时间序列数据
  • Retrieval 组件为取数组件,它会主动从 Pushgateway 或者 Exporter 拉取指标数据。
  • Service discovery,可以动态发现要监控的目标。
  • TSDB,数据核心存储与查询。
  • HTTP server,对外提供 HTTP 服务。

3.2 采集层

采集层分为两类,一类是生命周期较短的作业,还有一类是生命周期较长的作业。

  • 短作业:直接通过 API,在退出时间指标推送给 Pushgateway。 Retrieval组件从Pushgateway 获取数据。Pushgateway的作用就是推送网关,为支持 short-lived 作业提供一个推送网关
  • 长作业:Retrieval 组件直接从 Job 或者 Exporter 拉取数据。

3.3 应用层

应用层主要分为两种,一种是 AlertManager,另一种是数据可视化。

  • AlertManager
    对接 Pagerduty,是一套付费的监控报警系统。可实现短信报警、5 分钟无人 ack 打电话通知、仍然无人 ack,通知值班人员 Manager…
    Emial,发送邮件

  • 数据可视化
    Prometheus build-in WebUI
    Grafana
    其他基于 API 开发的客户端

4 安装Prometheus

Prometheus官网:https://prometheus.io/ , 下载地址:https://prometheus.io/download/

4.1 安装Prometheus Server

Prometheus 基于 Golang 编写,编译后的软件包,不依赖于任何的第三方依赖。只需要下载对应平台的二进制包,解压并且添加基本的配置即可正常启动 Prometheus Server。

上传 prometheus-2.29.1.linux-amd64.tar.gz 到虚拟机的/opt/software 目录
在这里插入图片描述
解压到/opt/module 目录下

tar -zxvf prometheus-2.29.1.linux-amd64.tar.gz -C /opt/module

在这里插入图片描述

修改目录名

cd /opt/module
mv prometheus-2.29.1.linux-amd64 prometheus-2.29.1

在这里插入图片描述

打开配置文件 prometheus.yml

# my global config
global:
  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ["localhost:9090"]

配置说明:

  1. global 配置块:控制 Prometheus 服务器的全局配置
  • scrape_interval:配置拉取数据的时间间隔,默认为 1 分钟。
  • evaluation_interval:规则验证(生成 alert)的时间间隔,默认为 1 分钟。
  1. rule_files 配置块:规则配置文件
  2. scrape_configs 配置块:配置采集目标相关, prometheus 监视的目标。Prometheus自身的运行信息可以通过 HTTP 访问,所以 Prometheus 可以监控自己的运行数据。
  • job_name:监控作业的名称
  • static_configs:表示静态目标配置,就是固定从某个 target 拉取数据
  • targets : 指 定 监 控 的 目 标 , 其 实 就 是 从 哪 儿 拉 取 数 据 。 Prometheus 会 从http://localhost:9090/metrics 上拉取数据。

4.2 安装Pushgateway

Prometheus 在正常情况下是采用拉模式从产生 metric 的作业或者 exporter(比如专门监控主机的NodeExporter)拉取监控数据。但是我们要监控的是 Flink on YARN 作业,想要让 Prometheus 自动发现作业的提交、结束以及自动拉取数据显然是比较困难的。

PushGateway 就是一个中转组件,通过配置 Flink on YARN 作业将 metric 推到PushGateway,Prometheus 再从 PushGateway 拉取就可以了

上传 pushgateway-1.4.1.linux-amd64.tar.gz 到虚拟机的/opt/software 目录。
在这里插入图片描述

解压到/opt/module 目录下

tar -zxvf pushgateway-1.4.1.linux-amd64.tar.gz -C /opt/module

在这里插入图片描述

修改目录名

cd /opt/module
mv pushgateway-1.4.1.linux-amd64 pushgateway-1.4.1

在这里插入图片描述

4.3 安装 Alertmanager(选择性安装)

上传 alertmanager-0.23.0.linux-amd64.tar.gz 到虚拟机的/opt/software 目录,并解压到/opt/module 目录下

 tar -zxvf alertmanager-0.23.0.linux-amd64.tar.gz -C /opt/module

在这里插入图片描述

修改目录名

cd /opt/module
mv alertmanager-0.23.0.linux-amd64 alertmanager-0.23.0

在这里插入图片描述

4.4 安装 Node Exporter(选择性安装)

在 Prometheus 的架构设计中,Prometheus Server 主要负责数据的收集,存储并且对外提供数据查询支持,而实际的监控样本数据的收集则是由 Exporter 完成。因此为了能够监控到某些东西,如主机的 CPU 使用率,我们需要使用到 Exporter。Prometheus 周期性的从 Exporter 暴露的 HTTP 服务地址(通常是/metrics)拉取监控样本数据。

Exporter 可以是一个相对开放的概念,其可以是一个独立运行的程序独立于监控目标以外,也可以是直接内置在监控目标中。只要能够向 Prometheus 提供标准格式的监控样本数据即可。

为了能够采集到主机的运行指标如 CPU, 内存,磁盘等信息。我们可以使用 Node Exporter。Node Exporter 同样采用 Golang 编写,并且不存在任何的第三方依赖,只需要下载,解压即可运行。可以从 https://prometheus.io/download/ 获取最新的 node exporter 版本的二进制包。

上传 node_exporter-1.2.2.linux-amd64.tar.gz 到虚拟机的/opt/software 目录,解压到/opt/module 目录下

tar -zxvf node_exporter-1.2.2.linux-amd64.tar.gz -C /opt/module

修改目录名

cd /opt/module
mv node_exporter-1.2.2.linux-amd64 node_exporter-1.2.2

在这里插入图片描述

启动并通过页面查看是否成功,执行命令:

./node_exporter

在这里插入图片描述

浏览器输入:http://locahost:9100/metrics,可以看到当前 node exporter 获取到的当前主机的所有监控数据。

在这里插入图片描述

4.5 启动程序

修改配置文件 prometheus.yml,在 scrape_configs 配置项下添加配置:

# my global config
global:
  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ["localhost:9090"]
  # 添加 PushGateway 监控配置
  - job_name: 'pushgateway'
    static_configs:
      - targets: ['localhost:9091']
        labels:
          instance: pushgateway
  # 添加 Node Exporter 监控配置
  - job_name: 'node exporter'
    static_configs:
      - targets: ['localhost:9100']

如果需要配置多个Node Exporter 示例:

# 添加 Node Exporter 监控配置
 - job_name: 'node exporter'
 static_configs:
 - targets: ['hadoop202:9100', 'hadoop203:9100', 'hadoop204:9100']

启动Prometheus Server,Prometheus 是可以在运行时自动加载配置的。启动时需要添加:–web.enable-lifecycle

nohup ./prometheus --config.file=prometheus.yml > ./prometheus.log 2>&1 &

在这里插入图片描述

浏览器打开看是否正常:
在这里插入图片描述
点击status -> target,查看组件情况
在这里插入图片描述

在这里插入图片描述

启动Pushgateway

nohup ./pushgateway --web.listen-address :9091 > ./pushgateway.log 2>&1 &

在prometheus 查看Pushgateway的状态可以看到已经正常启动
在这里插入图片描述

启动Alertmanager

nohup ./alertmanager --config.file=alertmanager.yml > ./alertmanager.log 2>&1 &

4.6 配置开机自启动

配置开机自启动,以 node exporter 为例。

  • 首先创建service文件
sudo vim /usr/lib/systemd/system/node_exporter.service

node_exporter.service文件的内容如下:

[Unit]
Description=node_export
Documentation=https://github.com/prometheus/node_exporter
After=network.target
[Service]
Type=simple
User=[当前系统的用户名]
ExecStart= /opt/module/node_exporter-1.2.2/node_exporter
Restart=on-failure
[Install]
WantedBy=multi-user.target
  • 设为开机自启动
sudo systemctl enable node_exporter.service
  • 启动服务
sudo systemctl start node_exporter.service
  • 查看服务的状态
sudo systemctl status node_exporter.service

在这里插入图片描述

此时打开Prometheus,浏览器输入:http://[ip]:9090/,点击Status,选中Targets,查看node exporter 的状态。如果prometheus、pushgateway 和 node exporter 都是 up 状态,表示所有组件都安装启动成功:
在这里插入图片描述

4.7 创建组件的启停脚本

使用启停脚本方便一次性启动三个组件,创建脚本monitor-demo.sh。具体脚本内容:

#!/bin/bash
case $1 in
"start"){
 echo '----- 启动 prometheus -----'
 nohup /opt/module/prometheus-2.29.1/prometheus --web.enable-admin-api
--config.file=/opt/module/prometheus-2.29.1/prometheus.yml > 
/opt/module/prometheus-2.29.1/prometheus.log 2>&1 &
 echo '----- 启动 pushgateway -----'
 nohup /opt/module/pushgateway-1.4.1/pushgateway --web.listen-address :9091 > 
/opt/module/pushgateway-1.4.1/pushgateway.log 2>&1 &
 echo '----- 启动 grafana -----'
 nohup /opt/module/grafana-8.1.2/bin/grafana-server --homepath 
/opt/module/grafana-8.1.2 web > /opt/module/grafana-8.1.2/grafana.log 2>&1 &
};;
"stop"){
 echo '----- 停止 grafana -----'
 pgrep -f grafana | xargs kill
 echo '----- 停止 pushgateway -----'
 pgrep -f pushgateway | xargs kill
 echo '----- 停止 prometheus -----'
 pgrep -f prometheus | xargs kill
};;
esac 

脚本添加执行权限

chmod +x monitor-demo.sh

启动脚本:

monitor-demo.sh start

停止脚本:

 monitor-demo.sh stop

5 PromQL介绍

Prometheus 通过指标名称(metrics name)以及对应的一组标签(labelset)唯一定义一条时间序列。指标名称反映了监控样本的基本标识,而 label 则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度过滤,聚合,统计从而产生新的计算后的一条时间序列。

PromQL 是 Prometheus 内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在 Prometheus的日常应用当中,包括对数据查询、可视化、告警处理当中。可以这么说,PromQL 是Prometheus 所有应用场景的基础。

5.1 基本用法

5.1.1 查询时间序列

当 Prometheus 通过 Exporter 采集到相应的监控指标样本数据后,我们就可以通过PromQL 对监控样本数据进行查询。

当我们直接使用监控指标名称查询时,可以查询该指标下的所有时间序列。如:

prometheus_http_requests_total

等同于

prometheus_http_requests_total{}

该表达式会返回指标名称为 prometheus_http_requests_total 的所有时间序列:

PromQL 还支持用户根据时间序列的标签匹配模式来对时间序列进行过滤,目前主要
支持两种匹配模式:完全匹配和正则匹配。

PromQL 支持使用 = 和 != 两种完全匹配模式:

通过使用 label=value 可以选择那些标签满足表达式定义的时间序列;
反之使用 label!=value 则可以根据标签匹配排除时间序列

例如,如果我们只需要查询所有 prometheus_http_requests_total 时间序列中满足标签 instance 为 localhost:9090 的时间 序列,则可以使用如下表达式:

prometheus_http_requests_total{instance="localhost:9090"}

反之使用 instance!=“localhost:9090” 则可以排除这些时间序列:

prometheus_http_requests_total{instance!="localhost:9090"}

PromQL还可以支持使用正则表达式作为匹配条件,多个表达式之间使用 | 进行分离:
⚫ 使用 label=~regx 表示选择那些标签符合正则表达式定义的时间序列;
⚫ 反之使用 label!~regx 进行排除;
例如,如果想查询多个环节下的时间序列序列可以使用如下表达式:

prometheus_http_requests_total{environment=~"staging|testing|development",method!="GET
"}

排除用法

prometheus_http_requests_total{environment!~"staging|testing|development",method!="GET
"}
5.1.2 范围查询

直接通过类似于 PromQL 表达式 httprequeststotal 查询时间序列时,返回值中只会包含该时间序列中的最新的一个样本值,这样的返回结果我们称之为瞬时向量。而相应的这样的表达式称之为瞬时向量表达式

而如果我们想过去一段时间范围内的样本数据时,我们则需要使用区间向量表达式。区间向量表达式和瞬时向量表达式之间的差异在于在区间向量表达式中我们需要定义时间选择的范围,时间范围通过时间范围选择器 [] 进行定义。 例如,通过以下表达式可以选择最近 5 分钟内的所有样本数据:

prometheus_http_requests_total{}[5m]

通过区间向量表达式查询到的结果我们称为区间向量。 除了使用 m 表示分钟以外,
PromQL 的时间范围选择器支持其它时间单位:

  • s - 秒
  • m - 分钟
  • h - 小时
  • d - 天
  • w - 周
  • y - 年
5.1.3 时间位移操作

在瞬时向量表达式或者区间向量表达式中,都是以当前时间为基准:

  • prometheus_http_requests_total{} # 瞬时向量表达式,选择当前最新的数据
  • prometheus_http_requests_total{}[5m] # 区间向量表达式,选择以当前时间为基准,5 分钟内的数据

如果我们想查询,5 分钟前的瞬时样本数据,或昨天一天的区间内的样本数据呢? 这个时候我们就可以使用位移操作,位移操作的关键字为 offset。 可以使用 offset 时间位移操作

prometheus_http_requests_total{} offset 5m
prometheus_http_requests_total{}[1d] offset 1d
5.1.4 使用聚合操作

一般来说,如果描述样本特征的标签(label)在并非唯一的情况下,通过 PromQL 查询数据,会返回多条满足这些特征维度的时间序列。而 PromQL 提供的聚合操作可以用来对这些时间序列进行处理,形成一条新的时间序列:

# 查询系统所有 http 请求的总量
sum(prometheus_http_requests_total)
# 按照 mode 计算主机 CPU 的平均使用时间
avg(node_cpu_seconds_total) by (mode)
# 按照主机查询各个主机的 CPU 使用率
sum(sum(irate(node_cpu_seconds_total{mode!='idle'}[5m])) / sum(irate(node_cpu_seconds_total [5m]))) by (instance)
5.1.5 标量和字符串

除了使用瞬时向量表达式和区间向量表达式以外,PromQL 还直接支持用户使用标量(Scalar)和字符串(String)。

标量(Scalar):一个浮点型的数字值,标量只有一个数字,没有时序。 例如:

需要注意的是,当使用表达式 count(prometheus_http_requests_total),返回的数据类型,依然是瞬时向量。用户可以通过内置函数 scalar()将单个瞬时向量转换为标量。

字符串(String):一个简单的字符串值

直接使用字符串,作为 PromQL 表达式,则会直接返回字符串。

"this is a string" 
'these are unescaped: \n \\ \t' 
`these are not unescaped: \n ' " \t`
5.1.6 PromQL表达式规则

所有的 PromQL 表达式都必须至少包含一个指标名称(例如 http_request_total),或者一个不会匹配到空字符串的标签过滤器(例如{code=”200”})。因此以下两种方式,均为合法的表达式:

prometheus_http_requests_total # 合法
prometheus_http_requests_total{} # 合法
{method="get"} # 合法

而如下表达式,则不合法:

{job=~“.*”} # 不合法
同时,除了使用 {label=value} 的形式以外,我们还可以使用内置的 name 标签来指定监控指标名称:

{__name__=~"prometheus_http_requests_total"} # 合法
{__name__=~"node_disk_bytes_read|node_disk_bytes_written"} # 合法

5.2 PromQL操作符

使用 PromQL 除了能够方便的按照查询和过滤时间序列以外,PromQL 还支持丰富的操作符,用户可以使用这些操作符对进一步的对事件序列进行二次加工。这些操作符包括:数学运算符,逻辑运算符,布尔运算符等等。

5.2.1 数学运算

PromQL 支持的所有数学运算符如下所示:+ (加法)、- (减法)、* (乘法)、/ (除法)、% (求余)、^ (幂运算)

5.2.2 布尔运算

Prometheus 支持以下布尔运算符如下:== (相等)、!= (不相等)、>(大于)、< (小于)、>= (大于等于)、 <= (小于等于)

使用 bool 修饰符改变布尔运算符的行为。布尔运算符的默认行为是对时序数据进行过滤。而在其它的情况下我们可能需要的是真正的布尔结果。例如,只需要 知道当前模块的 HTTP 请求量是否>=1000,如果大于等于1000 则返回 1(true)否则返回 0(false)。这时可以使 用 bool 修饰符改变布尔运算的默认行为。 例如

prometheus_http_requests_total > bool 1000

使用 bool 修改符后,布尔运算不会对时间序列进行过滤,而是直接依次瞬时向量中的各个样本数据与标量的比较结果 0 或者 1。从而形成一条新的时间序列

同时需要注意的是,如果是在两个标量之间使用布尔运算,则必须使用 bool 修饰符

2 == bool 2 # 结果为 1
5.2.3 使用集合运算符

使用瞬时向量表达式能够获取到一个包含多个时间序列的集合,我们称为瞬时向量。通过集合运算,可以在两个瞬时向量与瞬时向量之间进行相应的集合操作。

目前,Prometheus 支持以下集合运算符:and (并且)、or (或者)、unless (排除)

vector1 and vector2 会产生一个由 vector1 的元素组成的新的向量。该向量包含
vector1 中完全匹配 vector2 中的元素组成。

vector1 or vector2 会产生一个新的向量,该向量包含 vector1 中所有的样本数据,
以及 vector2 中没有与 vector1 匹配到的样本数据。

vector1 unless vector2 会产生一个新的向量,新向量中的元素由 vector1 中没有与
vector2 匹配的元素组成。

5.2.4 操作符优先级

对于复杂类型的表达式,需要了解运算操作的运行优先级。例如,查询主机的 CPU 使用率,可以使用表达式:

100 * (1 - avg (irate(node_cpu_seconds_total{mode='idle'}[5m])) by(job) )

其中irate是PromQL中的内置函数,用于计算区间向量中时间序列每秒的即时增长率。
在 PromQL 操作符中优先级由高到低依次为:
⚫ ^
⚫ *, /, %
⚫ +, -
⚫ ==, !=, <=, =, >
⚫ and, unless
⚫ or

5.2.5 PromQL聚合操作

Prometheus 还提供了下列内置的聚合操作符,这些操作符作用域瞬时向量。可以将瞬时表达式返回的样本数据进行 聚合,形成一个新的时间序列:
⚫ sum (求和)
⚫ min (最小值)
⚫ max (最大值)
⚫ avg (平均值)
⚫ stddev (标准差)
⚫ stdvar (标准差异)
⚫ count (计数)
⚫ count_values (对 value 进行计数)
⚫ bottomk (后 n 条时序)
⚫ topk (前 n 条时序)
⚫ quantile (分布统计)
使用聚合操作的语法如下:

<aggr-op>([parameter,] <vector expression>) [without|by (<label list>)]

其中只有 count_values , quantile , topk , bottomk 支持参数(parameter)。

without 用于从计算结果中移除列举的标签,而保留其它标签。by 则正好相反,结果向量中只保留列出的标签,其余标签则移除。通过 without 和 by 可以按照样本的问题对数据进行聚合。
例如:

sum(prometheus_http_requests_total) without (instance)

等价于

sum(prometheus_http_requests_total) by (code,handler,job,method)

如果只需要计算整个应用的 HTTP 请求总量,可以直接使用表达式:

sum(prometheus_http_requests_total)

count_values 用于时间序列中每一个样本值出现的次数。count_values 会为每一个唯一的
样本值输出一个时间序列,并且每一个时间序列包含一个额外的标签。 例如

count_values("count", prometheus_http_requests_total)

topk 和 bottomk 则用于对样本值进行排序,返回当前样本值前 n 位,或者后 n 位的
时间序列。
获取 HTTP 请求数前 5 位的时序样本数据,可以使用表达式:

topk(5, prometheus_http_requests_total)

quantile 用于计算当前样本数据值的分布情况 quantile(φ, express)其中 0 ≤ φ ≤ 1。
例如,当 φ 为 0.5 时,即表示找到当前样本数据中的中位数:

quantile(0.5, prometheus_http_requests_total)

6 集成Grafana

grafana 是一款采用 Go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。下载地址:https://grafana.com/grafana/download

6.1 安装

将 grafana-8.1.2.linux-amd64.tar.gz 上传至/opt/software/目录下,解压

tar -zxvf grafana-enterprise-8.1.2.linux-amd64.tar.gz -C /opt/module/
 nohup ./bin/grafana-server web > ./grafana.log 2>&1 &

在这里插入图片描述

打开 浏览器:http://[ip]:3000,默认用户名和密码:admin。第一次登录会要求重置密码。

6.2 添加数据源Prometheus

点击配置,点击 Data Sources:

在这里插入图片描述
点击添加按钮:

在这里插入图片描述
找到 Prometheus,点击 Select
在这里插入图片描述

配置 Prometheus Server 地址:
在这里插入图片描述
点击下方的 Save&Test:
在这里插入图片描述
出现绿色的提示框,表示与 Prometheus 正常联通:
在这里插入图片描述
点击 Back 返回即可,可以看到 Data Sources 页面,出现了添加的 Prometheus:
在这里插入图片描述

6.3 手动配置仪表盘

点击左边栏的 “+”号,选择 Dashboard:
在这里插入图片描述

添加新的仪表板,点击 Add an empty panel:
在这里插入图片描述
配置仪表板监控项:
在这里插入图片描述
一个仪表板可以配置多个监控项,添加其他监控项:

在这里插入图片描述
配置新的监控项:
在这里插入图片描述
最终结果展示:

在这里插入图片描述

6.4 添加仪表盘模版

手动一个个添加 Dashboard 比较繁琐,Grafana 社区鼓励用户分享 Dashboard,在这个网站上可以找到大量可直接使用的 Dashboard 模板:https://grafana.com/dashboards

Grafana 中所有的 Dashboard 通过 JSON 进行共享,下载并且导入这些 JSON 文件,就可以直接使用这些已经定义好的 Dashboard。

以添加Node Exporter模版为例,进入 https://grafana.com/dashboards 页面,搜索 Node Exporter,选择下载量最高的中文版本:
在这里插入图片描述

下载模板 json 文件:
在这里插入图片描述

在 Grafana 中导入模板:
在这里插入图片描述

在这里插入图片描述
效果展示:
在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到