GPU状态监控

发布于:2025-05-20 ⋅ 阅读:(22) ⋅ 点赞:(0)

GPU 状态监控
对比:

GPU 项目名称 项目名称
单机多 GPU GPU状态监控 以时间为横轴展示GPU被占用的动态过程,但不显示具体时间
单机多 GPU GPU 实时监控服务 多卡GPU统一展示,数据简洁清晰
多机多 GPU 服务器集群监控面板 可以同时监控多个服务器上的GPU

一、GPU状态监控 gpu-monitor

1、代码地址:https://github.com/haowang02/gpu-monitor?tab=readme-ov-file
2、快速搭建:

步骤 操作
克隆仓库 git clone https://github.com/haowang02/gpu-monitor.git
创建虚拟环境并安装依赖 cd gpu-monitor
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
启动服务 gunicorn gm:app
浏览器访问 http://localhost:8888/index.html

3、浏览器监控页面

  • 状态监控可看见:显存占用、显卡占用、显卡温度、显卡功耗
    ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/2c51c31cb4fd426a9459d3f4bda66299.png
    在这里插入图片描述
  • 进程监控,可以看见进程详细信息
    在这里插入图片描述

二、GPU 实时监控服务

1、代码地址:https://github.com/hczs/gpu-monitor?tab=readme-ov-file
2、快速搭建:

步骤 操作
克隆仓库或下载代码 git clone https://github.com/hczs/gpu-monitor?tab=readme-ov-file
创建并激活虚拟环境 python -m venv venv
source venv/bin/activate
cd gpu-monitor/api
安装依赖 pip install -r requirements.txt
运行服务器 sh start.sh
浏览器监控页面 http://localhost:9999

3、浏览器页面展示
在这里插入图片描述

三、服务器集群监控面板server-monitor-panel

1、代码地址:https://github.com/zibingo/server-monitor-panel/tree/main
2、快速搭建:

步骤 操作
克隆仓库或下载代码 git clone https://github.com/zibingo/server-monitor-panel.git
创建并激活虚拟环境 python -m venv venv
source venv/bin/activate
安装依赖 pip install -r requirements.txt
运行服务器 python app.py
浏览器监控页面 http://localhost:60000

4、部署多服务器监控
修改app.py中的node_list添加服务器信息,并运行:

node_list =  [
        {'id': 1, 'name': '服务器A', 'ip': '192.168.1.100', 'port': 60000},
        # 添加更多服务器...
    ]

5、浏览器页面展示
在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到