【prometheus+Grafana篇】基于Prometheus+Grafana实现Oracle数据库的监控与可视化

发布于:2025-05-20 ⋅ 阅读:(14) ⋅ 点赞:(0)

💫《博主主页》:

           🔎 CSDN主页

           🔎 IF Club社区主页

🔥《擅长领域》:擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(MongoDB)有了解

💖如果觉得文章对你有所帮助,欢迎点赞收藏加关注💖

    又是元气满满的一周,博主目前的状态是周更文章,也就是一周撰写一篇,那么今天这篇文章还是继续分享一下关于 Prometheus+Grafana 的文章,通过 Prometheus 来抓取 Oracle数据库 的监控数据,并利用 Grafana 可视化平台进行展示。同时,博主还将配置一些常见的 Oracle数据库告警项 ,进行实时监控和及时预警,帮助大家第一时间发现Oracle数据库潜在问题。

                

特别说明💥:

📌 开源仪表盘引用

  • 本文采用的Oracle数据库监控仪表盘直接使用了Grafana官网开源项目(Dashboard ID: 17136),非常感谢原作者的无私分享。关于Grafana的所有配置步骤均基于该开源仪表盘并验证通过,各位可一键导入快速搭建专业级的可视化监控。

                      

⚡ 原创告警规则实现

  • 关于告警部分为博主独立开发完成,针对Oracle数据库实现了如下告警:

    • ✅ Oracle 数据库实例宕机

    • ✅ Oracle 会话使用率过高

    • ✅ Oracle 表空间使用率过高

    • ✅ Oracle Data Guard 进程存在异常

                               

                             

prometheus+Grafana全系列文章(实时更新 🔥 ):

序号 文章
1 【prometheus+Grafana篇】Prometheus与Grafana:深入了解监控架构与数据可视化分析平台-CSDN博客
2 【prometheus+Grafana篇】从零开始:Linux 7.6 上二进制安装 Prometheus、Grafana 和 Node Exporter_grafana二进制部署-CSDN博客
3 【prometheus+Grafana篇】Prometheus告警规则参数全解析 + Alertmanager实现多平台告警(含电子邮件/企业微信群/飞书群/钉钉群接受方式)_grafana做飞书机器人报警-CSDN博客
4 【prometheus+Grafana篇】基于Prometheus+Grafana实现Linux操作系统的监控与可视化-CSDN博客
5 【prometheus+Grafana篇】基于Prometheus+Grafana实现windows操作系统的监控与可视化_grafana 监控 windows-CSDN博客
6 【prometheus+Grafana篇】基于Prometheus+Grafana实现Oracle数据库的监控与可视化-CSDN博客

             

目录

一、在Oracle orcl实例上的操作

二、安装oracledb_exporter(oracledb_exporter:是prometheus的一个插件,抓取和收集Oracle数据库的各种运行指标用于分析。oracledb_exporter插件是GitHub开源组织提供的,通过GitHub官网下载oracledb_exporter)

1)下载oracledb_exporter安装包,选择download,然后点击“Exporters and integrations”,选择Oracle DB Exporter

2)跳转到了gitHub,点击oracledb_exporter的版本集,选择最新的oracledb_exporter下载

3)目前oracledb_exporter最新版本为0.6.0。但是最新的0.6.0版本和linux7.6版本不兼容,导致在使用oracledb_exporter命令时报错,所以使用上一个版本0.5.2进行部署

4)解压二进制oracledb_exporter包

5)移动并重命名oracledb_exporter解压出来的目录

6)创建prometheus用户

7)赋权

8)写入linux启动服务项

9)登录oracledb_exporter界面管理,默认端口为9161

三、将当前Oracle orcl实例加入到prometheus监控,并通过Grafana展示

1)将oracledb_exporter的信息加入到prometheus监控的配置文件prometheus.yml中

2)配置告警规则文件

3)检查配置文件

4)prometheus.yml文件添加了信息,所以重启prometheus进程或者重新加载配置文件(二选一) 

5)在prometheus查看是否可以看到监控信息

6)登录Grafana界面管理,将当前主机的监控信息做展示

一、下载一个仪表盘:Grafana官网“http://www.grafana.com”—Dashboard templates,然后选择一个下载量高的自己喜欢的oracledb_exporter(Oracle监控)

二、将仪表盘添加到Grafana上:Dashboards—New—Import—点击“Upload dashboard JSON file”

三、仪表盘展示:Dashboards—查看到已经定义好的仪表盘,并且数据源是prometheus监控,点击进去


                

监控Oracle信息如下:

主机名

IP地址

配置

系统

描述

Oracle11g

110.120.100.17

4C 8G

Red Hat Linux 7.6

安装oracledb_exporter对这台服务器进行监控

oracledb_exporter:默认端口9161。抓取和收集Oracle数据库的各种运行指标用于分析

           

一、在Oracle orcl实例上的操作

1)创建专属监控用户(不建议使用sys用户,sys用户权限太高)

SQL> 
create user oracle_exporter identified by 123456;
grant connect,resource,OEM_MONITOR to oracle_exporter;        ###OEM_MONITOR角色是用于 Oracle Enterprise Manager (OEM) 的一个特定角色。这个角色的权限通常包括可以监控数据库性能和状态所需的权限。

      

二、安装oracledb_exporter(oracledb_exporter:是prometheus的一个插件,抓取和收集Oracle数据库的各种运行指标用于分析。oracledb_exporter插件是GitHub开源组织提供的,通过GitHub官网下载oracledb_exporter

1)下载oracledb_exporter安装包,选择download,然后点击“Exporters and integrations”,选择Oracle DB Exporter

               

2)跳转到了gitHub,点击oracledb_exporter的版本集,选择最新的oracledb_exporter下载

PS:也可以直接在gitHub官网下载

一、通过gitHub(官网地址:GitHub · Build and ship software on a single, collaborative platform · GitHub)下载oracledb_exporter安装包,在gitHub搜索“oracledb_exporter”。因为是开源,所以大家都是有时间才会开发,所以选择一个最近更新的

二、点击oracledb_exporter的版本集,选择最新的oracledb_exporter下载

        

3)目前oracledb_exporter最新版本为0.6.0。但是最新的0.6.0版本和linux7.6版本不兼容,导致在使用oracledb_exporter命令时报错,所以使用上一个版本0.5.2进行部署

​        

4)解压二进制oracledb_exporter

[root@Oracle11g ~]# tar -zxvf oracledb_exporter.tar.gz 

    

5)移动并重命名oracledb_exporter解压出来的目录

[root@Oracle11g ~]# mkdir -p /opt/prometheus
[root@Oracle11g ~]# mv oracledb_exporter-0.5.2.linux-amd64 /opt/prometheus/
[root@Oracle11g ~]# mv /opt/prometheus/oracledb_exporter-0.5.2.linux-amd64 /opt/prometheus/oracledb_exporter

    

6)创建prometheus用户

[root@Oracle11g ~]# groupadd prometheus
[root@Oracle11g ~]# useradd -g prometheus -M -s /usr/sbin/nologin prometheus     ---创建一个名为prometheus的系统账号,该账号没有家目录并且不能登录Shell。这种设置适用于需要运行服务或任务而不需要用户交互的情况。
-M:不为用户创建家目录。对于系统服务账号来说,通常不需要家目录,因此使用 -M 可以跳过家目录的创建步骤。
-s /usr/sbin/nologin:指定用户登录时使用的Shell。将用户prometheus的登录Shell设置为/usr/sbin/nologin。nologin Shell的作用是阻止用户登录系统,但允许该用户拥有有效的系统账号。这通常用于服务账号,因为它们不需要交互式Shell访问,仅用于执行特定服务或任务。

[root@Oracle11g ~]# passwd prometheus

[root@Oracle11g ~]# id prometheus

    

7)赋权

[root@Oracle11g ~]# chown -R prometheus:prometheus /opt/prometheus/oracledb_exporter

8)写入linux启动服务项

Linux7之后通过systemctl方式:

[root@Oracle11g ~]# cd /usr/lib/systemd/system
[root@Oracle11g ~]# vi oracledb_orcl_exporter.service
   
[Unit]
Description=oracledb_exporter
After=network.target
    
[Service]
Type=simple
User=prometheus
Group=prometheus
Restart=on-failure
ExecStart=/opt/prometheus/oracledb_exporter/oracledb_exporter --database.dsn "oracle://oracle_exporter:123456@192.168.56.17:1521/orcl" --default.metrics "/opt/prometheus/oracledb_exporter/default-metrics.toml" --web.listen-address=0.0.0.0:9161
     
[Install]
WantedBy=multi-user.target
     
[root@Oracle11g ~]# systemctl daemon-reload
[root@Oracle11g ~]# systemctl start oracledb_orcl_exporter.service
[root@Oracle11g ~]# systemctl enable oracledb_orcl_exporter.service
[root@Oracle11g ~]# systemctl status oracledb_orcl_exporter.service

###--database.dsn="":Oracle数据源的连接字符串,默认识别DATA_SOURCE_NAME变量的值。需要注意此参数不能使用 = ,使用的话会报错:ts=2024-09-16T12:41:33.326Z caller=collector.go:262 level=error errorpingingoracle:="parse \"\\\"oracle://oracle_exporter:123456@192.168.56.17:1521/orcl\\\"\": first path segment in URL cannot contain colon"。并且此参数在0.5以上版本改变了书写格式:

###--default.metrics=指定toml文件,toml文件中包含指定的指标。oracledb_exporter的0.5.2版本是没有包含toml文件的,一般都是开发者自己编辑,然后指定该toml文件。需要注意此参数不能使用 = ,使用的话会报错:ts=2024-09-16T12:42:45.684Z caller=default_metrics.go:81 level=error therewasanissuewhileloadingspecifieddefaultmetricsfileat:/opt/prometheus/oracledb_exporter/default-metrics.toml,proceedingtorunwithdefaultmetrics.="open \"/opt/prometheus/oracledb_exporter/default-metrics.toml\": no such file or directory"。

###--web.listen-address=<address>:<port>:指定服务端口。Oracle的抓取默认通过9161端口访问oracledb_exporter管理界面,可以修改成其他端口用于访问oracledb_exporter管理界面(如果没有修改端口的需求可以不设置这个参数)。此参数只能在oracledb_exporter命令启动时指定,不可以在配置文件prometheus.yml中指定。如果服务器上有多个实例,比如还有orcl2实例,那么需要再写一个linux启动项,并且通过--database.dsn=""参数指定Oracle数据源

         

Linux7之前通过service方式:

[root@Oracle11g ~]# cd /etc/init.d/
[root@Oracle11g ~]# vi oracledb_orcl_exporter

 
#!/bin/bash
# chkconfig: 2345 99 10
# description: Oracle Exporter for Oracle instance orcl

DAEMON="/opt/prometheus/oracledb_exporter/oracledb_exporter"
DAEMON_OPTS="--database.dsn oracle://oracle_exporter:123456@192.168.56.17:1521/orcl --default.metrics /opt/prometheus/oracledb_exporter/default-metrics.toml --web.listen-address=0.0.0.0:9161"

case "$1" in
  start)
    echo "Starting oracledb_orcl_exporter"
    $DAEMON $DAEMON_OPTS &
    ;;
  
  stop)
    echo "Stopping oracledb_orcl_exporter"
    pkill -f "$DAEMON $DAEMON_OPTS"
    ;;
  
  restart)
    $0 stop
    $0 start
;;

  status)
    PID=$(pgrep -f "$DAEMON $DAEMON_OPTS")
    if [ -n "$PID" ]; then
      echo "oracledb_orcl_exporter is running with PID: $PID"
    else
      echo "oracledb_orcl_exporter is not running"
    fi
;;

  *)
    echo "Usage: $0 {start|stop|restart|status}"
    exit 1
    ;;
esac

exit 0
 
[root@Oracle11g ~]# chmod 755  /etc/init.d/oracledb_orcl_exporter
[root@Oracle11g ~]# chkconfig --add oracledb_orcl_exporter 

[root@Oracle11g ~]# service  oracledb_orcl_exporter  start
[root@Oracle11g ~]# chkconfig  oracledb_orcl_exporter  on  

[root@Oracle11g ~]# service oracledb_orcl_exporter status

     

9)登录oracledb_exporter界面管理,默认端口为9161

http://192.168.56.17:9161/metrics

          

三、将当前Oracle orcl实例加入到prometheus监控,并通过Grafana展示

注意:如下操作是在安装了prometheus和Grafana的主机上进行操作安装直通车👉【prometheus+Grafana篇】从零开始:Linux 7.6 上二进制安装 Prometheus、Grafana 和 Node Exporter_grafana二进制部署-CSDN博客👈

       

1)将oracledb_exporter的信息加入到prometheus监控的配置文件prometheus.yml中

[root@prometheus ~]# vi /opt/prometheus/prometheus.yml    
在scrape_configs下面新增如下内容:

# oracledb_exporter配置           
  - job_name: "oracledb_exporter"      ###job_name 用来唯一标识一个监控任务。在同一个 prometheus.yml 文件中,不同的 scrape_config可以有不同的job_name,以便 Prometheus 能够区分和管理不同的监控目标和配置,用来将不同的监控目标分组。单位为监控Oracle数据库设置一个独立的job_name
    scrape_interval: 15s              ###指定这个job_name每隔多久从每个目标(如 Exporter、应用端点)拉取一次指标数据。优先级:会覆盖全局的 global:scrape_interval(如果存在)。
    file_sd_configs:
      - files:
        - /opt/prometheus/conf.d/oracle_targets.json           #### Oracle需要监控的实例都单独写在了oracle_targets.json文件中,是为了避免prometheus.yml内容过多,看起来更简洁
   
[root@prometheus ~]# vi /opt/prometheus/conf.d/oracle_targets.json        
###因为使用的是17136 json模版,17136模版中在页头定义了group(group)、数据库ip(oracle_ip)、数据库实例(oracle_instance)信息,所以在配置文件中就必须定义这些内容。如果添加了多个targets,但每个targets都没有定义group(group)、数据库ip(oracle_ip)、数据库实例(oracle_instance)信息,就会导致在grafana界面上无法选择对应目标targets的监控信息。所以用17136 json模版,就必须添加
[
  {
    "targets": [ "192.168.56.17:9161" ],
    "labels": {
      "type": "db",
      "group": "192.168.56.17 orcl实例",
      "oracle_ip": "192.168.56.17",
      "oracle_instance": "orcl"
    }
  }
]

      

2)配置告警规则文件

    除了如下告警规则之外,还需要单独配置一个Targets目标不可达(up)的相关规则,因为up 是一个布尔值指标,表示 Prometheus 是否能够成功地 scrape(抓取)到指定的目标(targets)数据,用于判断目标node-exporter相关进程是否在目标主机存活。关于up的规则文件参考:【prometheus+Grafana篇】从零开始:Linux 7.6 上二进制安装 Prometheus、Grafana 和 Node Exporter_grafana二进制部署-CSDN博客

[root@prometheus ~]# cd /opt/prometheus/rules/    ###在prometheus.yml文件中定义了告警规则文件rule_files参数
[root@prometheus rules]# vi oracledb_alerts.yml 
   
groups:
  - name: oracledb_alerts
    rules:
      - alert: OracleDBDown
        expr: oracledb_up == 0
        for: 3s
        labels:
          severity: critical
        annotations:
          summary: "Oracle 数据库实例宕机"
          description: "Oracle 实例 {{ $labels.instance }} 当前不可用,请立即检查!"

      - alert: OracleSessionUsage
        expr: sum(oracledb_sessions_value) by (instance, oracle_ip, oracle_instance) / sum(oracledb_parameter_sessions_value) by (instance, oracle_ip, oracle_instance) * 100 > 90
        for: 3s
        labels:
          severity: critical
        annotations:
          summary: "Oracle 会话使用率过高"
          description: "当前 Oracle 实例 {{ $labels.instance }} 的会话与限额百分比已达到 {{ $value | printf \"%.2f\" }}%,超过 90%。请及时检查会话使用情况!"

      - alert: OracleTablespaceUsage
        expr: (1 - oracledb_tablespace_free / oracledb_tablespace_bytes) * 100 > 90
        for: 3s
        labels:
          severity: critical
        annotations:
          summary: "Oracle 表空间使用率过高"
          description: "当前 Oracle 实例 {{ $labels.instance }} 的 {{ $labels.tablespace }} 表空间使用率已达到 {{ $value | printf \"%.2f\" }}%,超过 90%。请及时检查表空间使用情况!"
         
      - alert: OracleDataGuardStatusIssue
        expr: oracledb_dataguard_status_value == 1
        for: 3s
        labels:
          severity: critical
        annotations:
          summary: "Oracle Data Guard 进程存在异常"
          description: "当前 Oracle 实例 {{ $labels.instance }} 不能将归档日志传输到备库,请检查备库alert日志排查问题或排除MRP进程是否启动!"

          

3)检查配置文件

[root@prometheus ~]# cd /opt/prometheus/
[root@prometheus ~]# ./promtool check config prometheus.yml      ###用于检查 Prometheus 配置文件(prometheus.yml)的语法和格式是否正确。

执行这条命令会执行以下操作:

  1. 验证配置文件的语法:检查 prometheus.yml 文件是否符合 Prometheus 配置格式规范。
  2. 检测潜在的错误或警告:如果配置文件中存在拼写错误、格式问题、无效的配置项等问题,它会提供相关的错误信息或警告。比如告警规则写的不对,就会有提示
  3. 输出有用的诊断信息:如果配置文件存在问题,promtool 会输出详细的错误信息。

​                  

4)prometheus.yml文件添加了信息,所以重启prometheus进程或者重新加载配置文件(二选一) 

#重载:前提是在prometheus.service启动服务项中加了--web.enable-lifecycle参数:--web.enable-lifecycle:###启用Prometheus的生命周期接口,允许通过HTTP请求来动态重新加载配置等操作。这对于在运行时更新配置或执行其他管理操作非常有用,当修改了prometheus的配置后,可以通过curl命令来重新加载配置文件,而不需要重启prometheus(推荐方式)

[root@prometheus ~]# curl -X POST http://localhost:9090/-/reload

      

#重启

[root@prometheus ~]# systemctl restart prometheus.service

        

5)在prometheus查看是否可以看到监控信息

网址:http://110.120.100.21:9090

菜单栏:Status—Targets

​             

6)登录Grafana界面管理,将当前主机的监控信息做展示

地址:http://110.120.100.21:3000

默认用户:admin

默认密码:admin

        

一、下载一个仪表盘:Grafana官网“http://www.grafana.com”—Dashboard templates,然后选择一个下载量高的自己喜欢的oracledb_exporter(Oracle监控)

注意:不需要再增加数据源了。因为在第一次搭建prometheus+Grafana的时候就已经加好了,在添加数据源时,有个配置项是Connection,这里添加的是prometheus的地址,指的是prometheus监控服务器的地址,而不是node-exporter的地址

​                  

以17136为例,新增了多个指标,比较全面,包括,所以需要单独去下载一下toml文件,然后在启动oracledb_exporter时指定对应的toml文件,然后通过它提供的17136模版将指标展示出来

替换default-metrics.toml用的文件:GitHub - saitiger008/oracledb_exporter_metrics: default-metrics.toml for oracledb_exporter

需要注意17136模版中在页头定义了group(group)、数据库ip(oracle_ip)、数据库实例(oracle_instance)信息,所以在配置文件中就必须定义这些内容。如果添加了多个targets,但每个targets都没有定义group(group)、数据库ip(oracle_ip)、数据库实例(oracle_instance)信息,就会导致在grafana界面上无法选择对应目标targets的监控信息。所以用17136 json模版,就必须添加。下图是17136模版作者的说明

​              

二、将仪表盘添加到Grafana上:Dashboards—New—Import—点击“Upload dashboard JSON file”

Name:定义名称,最好定义为主机ip加用途

Prometheus:选择prometheus源,Prometheus监控源(ip:110.120.100.21:9090)

....

然后import

​            

三、仪表盘展示:Dashboards—查看到已经定义好的仪表盘,并且数据源是prometheus监控,点击进去

仪表盘Name:Oracle数据库监控
数据源Name:prometheus监控,Prometheus监控源(ip:110.120.100.21:9090)

JOB:这里其实就是当时已经在配置prometheus.yml时,定义的job_name,也就是说Grafana会自动识别到。

group:这里其实就是当时已经在配置prometheus.yml时,定义的group,也就是说Grafana会自动识别到

数据库IP:这里其实就是当时已经在配置prometheus.yml时,定义的oracle_ip,也就是说Grafana会自动识别到

数据库实例:这里其实就是当时已经在配置prometheus.yml时,定义的oracle_instance,也就是说Grafana会自动识别到

    好了!现在你的Oracle数据库已经在Prometheus和Grafana的守护下了,监控数据一目了然,运维效率直接起飞~ �✨

    下次遇到性能波动,再也不用“盲猜”啦,Grafana面板分分钟给你答案!📊👀

    祝你的数据库永远健康,查询秒级响应,告警栏空空如也~ �🪀


网站公告

今日签到

点亮在社区的每一天
去签到