文章目录
实验室的电脑配备了 CPU 和 GPU 资源,供多个子用户共享使用。为了避免资源冲突、提高效率并保护数据安全,大家需要规范使用工作站。以下是详细指导,帮助大家高效、协作地使用资源。
0. 检查资源使用情况,避免冲突
在运行代码前,务必检查 CPU 和 GPU 的使用情况,确保不与他人任务冲突。一起运行代码会降低性能,甚至导致程序崩溃。建议协商排队使用。
检查在线用户
- 命令:
who
- 作用:查看当前登录工作站的用户。
- 操作:在终端输入以下命令:
who
- 输出示例:
user1 pts/0 2025-06-03 14:30 (192.168.1.10) user2 pts/1 2025-06-03 14:32 (10.0.0.5)
- 说明:显示在线用户、登录时间和来源 IP。联系在线用户,确认他们的任务状态。
检查 CPU 使用情况
- 命令:
htop
- 作用:实时查看 CPU 和内存使用情况,识别占用资源的进程。
- 操作:
- 在终端输入:
htop
- 查看“CPU”栏,检查使用率(例如 50% 表示一半负载)。
- 按
F5
查看进程树,找到占用 CPU 的用户和程序(PID、用户、命令等)。
- 在终端输入:
- 建议:如果 CPU 占用高(如 >80%),联系相关用户,协商错开运行时间。
检查 GPU 使用情况
- 命令:
nvidia-smi
- 作用:查看 GPU 内存、利用率和运行进程。
- 操作:
- 在终端输入:
nvidia-smi
- 检查“GPU-Util”列(GPU 利用率)和“Processes”部分(显示 PID、用户、程序名)。
- 在终端输入:
- 输出示例:
+---------------------------------------------------------------------------------+ | NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 | |-------------------------------+----------------------+-------------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+=========================| | 0 NVIDIA GeForce RTX 4090 Off | 00000000:01:00.0 Off | Off | | 30% 38C P2 55W / 450W | 14704MiB / 24564MiB | 0% Default | +-------------------------------+----------------------+-------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory Usage | |===============================+======================+=========================| | 0 N/A N/A 12345 C python 14700MiB | +-------------------------------+----------------------+-------------------------+
- 建议:若 GPU 内存或利用率高,联系占用者(通过 PID 对应用户),商量排队使用。
协作建议
- 沟通:运行大任务前,与在线用户
沟通
,确认资源可用性。 - 排队:协商使用时间,避免同时运行多个重负载任务。
1. 备份重要文件和数据
- 重要性:工作站数据可能因硬件故障、误操作或系统问题丢失。
- 建议:
- 定期备份重要代码、数据和配置文件。
- 存储位置:
- 个人电脑硬盘
- U 盘或移动硬盘
- 云存储(如百度网盘)
- 使用
SCP 命令
或FileZilla 软件
(如下截图所示)可以快捷与个人主机文件传输
- 注意:不要完全依赖工作站存储,意外情况随时可能发生!并且注意传入工作站的文件是否安全,切勿将疑似
带有病毒
的文件包传入!
2. 定期清理硬盘空间
- 背景:工作站硬盘是公用的,空间有限,需共同维护。
- 操作:
- 检查磁盘使用情况:
df -h
- 查看挂载点(如
/home
)的剩余空间。
- 查看挂载点(如
- 查找大文件或无用数据:
du -sh /home/* | sort -hr
- 列出目录和文件大小,找出占用空间大的内容。
- 清理垃圾文件:
- 删除临时文件、日志、旧数据包等。
- 示例:删除
*.tmp
文件:rm -rf /home/your_username/*.tmp
- 检查磁盘使用情况:
- 建议:
- 将不必要的文件转移到个人电脑或网盘。
- 能不留的垃圾文件和数据包都删除,保持硬盘整洁。
- 定期(例如每周)检查和清理。
3. 退出 ThinLinc 时注销,释放内存
背景:ThinLinc 是实验室常用的远程桌面工具,退出时若不注销,会话可能继续占用内存,导致工作站性能下降或死机。
操作:
- 确认无程序需要后台运行。
- 点击桌面右上角的“注销”按钮(通常在系统菜单中)。
- 选择“注销”或“Log Out”,结束会话。
好处:
- 释放主机内存,减少资源占用。
- 降低工作站死机风险,提高稳定性。
注意:
- 但是若有长期任务(如训练模型),要确保任务在后台运行
- 若再次登陆时,发现无法通过 ThinLinc 建立连接的问题,如下图所示把
End existing session
勾选上再次尝试
4. 校外使用时配置 VPN
- 需求:在校外访问实验室工作站需通过学校网络。
- 操作:
- 访问学校官网,找到 IT 或网络服务页面。
- 下载 VPN 连接软件:EasyConnect。
- 安装并配置:
- 输入学校提供的 VPN 服务器地址。
- 使用您的学号/工号和密码登录。
- 连接成功后,通过 ThinLinc 或 SSH 访问工作站。
- 建议:
- 确保 EasyConnect 版本与学校要求一致。
- 校外使用时,保持 VPN 连接稳定,避免中断。
注意事项
- 谨慎操作:管理员修改系统设置或删除文件前,确认权限和影响。
- 备份:所有建议中,备份和沟通始终是关键,保护代码和数据。
- 尊重他人:资源共享,优先沟通,协商使用。
总结
规范使用实验室电脑资源是大家的责任!运行代码前检查 CPU(htop
)和 GPU(nvidia-smi
),用 who
确认在线用户,协商排队;备份重要数据,定期清理硬盘;退出 ThinLinc 时注销释放内存;校外使用时配置 EasyConnect VPN。让我们共同维护工作站的高效和稳定!
如有疑问,联系实验室管理员或群内讨论。谢谢配合!