服务器安装指南
一、安装系统
制作ubuntu18.04的启动盘
二、磁盘挂载
磁盘挂载主要是把硬盘分区后挂载在某个目录下,之后存储在这个目录下的东西则会保存在分区的磁盘中,重要的是在挂载之前需要将原目录下的东西备份一下,然后挂载之后再复制到目录中(挂载的磁盘中)。
2.1磁盘分区
在进行分区时,首先我们需要查看当前磁盘的一个分区状况,使用命令:sudo fdisk -l
然后使用命令:fdisk /dev/sda
让硬盘进入分区模式
此时命令栏提示输入m来寻求帮助,那么我们输入m,来看一下都有哪些选项。
开始创建分区,因此我们输入n,然后回车如下图。
我们看到黄颜色线条上显示的是3个主要分区,0个扩展分区,还有1个闲置分区。绿色光标前的default e表示的是默认为扩展分区。我们除了直接回车进入下一步,也可以输入e进入下一步。
此时光标所在的位置表示选择输入起始位置,也就是起始扇区。当然,我们不用输入,直接回车就好进入下一步。它就是为了能够将后面的所有可用扇区充分的利用上,而默认选择可用扇区的起始最小扇区。
默认回车后下一步,此时光标所在的位置表示选择输入终了位置,也就是结束扇区(可以手都设置,例如+1G)。当然,我们不用输入,直接回车就可以把上面剩余的全部空间充分的利用上。
到这里我们创建的扩展分区已经创建好了,在命令行界面输入p查看一下分区情况
2.2磁盘格式化
格式化:指将分区格式化成不同的文件系统。文件系统:指操作系统用于明确存储设备或分区上的文件的方法和数据结构:即在存储设备上组织文件的方法。就好比一个教室,同学们的坐的位置总是与桌子凳子排列的方式有关系。桌子,凳子怎么摆放,就导致了同学坐的位置在哪里。文件系统存放数据也是这么个道理。
Linux下的文件类型有ext2、ext3、ext4、xfs等等,我们可以使用命令:mkfs.然后用按TAB、TAB来查看都有哪些文件类型。
在命令行输入mkfs.ext4 /dev/sda5
意思就是格式化根下的sda5分区,格式化类型为.ext4
格式化完毕后我们使用命令:ll /dev/sda5
来查看我们格式化完毕后的分区的文件类型信息。
2.3磁盘挂载
临时挂载:将指定的一个目录作为挂载点目录时,如果挂载点的目录有文件,那么文件会被隐藏。因此当我们需要挂载目录时,最好新建一个空文件夹来作为挂在点目录。(重启后失效)
然后我们挂载sda5,使用命令:mount /dev/sda5 /test
(mount /dev/sdb /home
)意思就是说将/dev/sda5挂载到test目录中然后我们刷新一下切出去,重新进到这个目录。(当然你们也可以不刷新直接使用ll命令看看会出现什么)
由于永久挂载有点bug,可以每次开机后重新进行挂载。
三、显卡驱动安装(容易bug)
3.1参考目录
https://blog.csdn.net/ksws0292756/article/details/79160742
https://blog.csdn.net/qq_34205932/article/details/106310755
3.2常见错误
错误1:这个问题源自nvidia驱动安装包自身的问题,这里我们可以直接点击yes或者continue继续安装
错误2:遇到此问题,可以安装后面正文的方法,重新尝试安装
错误3:检测到系统已经安装了其他版本的nvidia驱动
驱动没卸载干净,可以使用sudo apt-get --purge remove nvidia-*命令,卸载所有的nvidia驱动,也可以点继续,这样在安装过程中会自动卸载旧驱动
错误4:在安装的最后一步,没有提示安装成功,而是显示
出现这个问题最有可能的原因是你安装的Ubuntu是UEFI模式启动的,但是在BIOS中却打开了Security BOOT选项。正确做法是禁用该选项
错误5:安装过程中有可能会弹出X.org异常警告,以我的经验来说你可以无视该警告继续安装,这样并不会有什么问题
错误6:安装完仍不能nvidia-smi
解决办法是去boot里将secureboot 设置成disable,这步操作完nvidia-smi就有结果了
3.3正确安装步骤
步骤1:禁用nouveau驱动和相关的驱动包
sudo vim /etc/modprobe.d/blacklist.conf
在文件的最后一行加入下面的命令,屏蔽有影响的驱动包(这里有的博客添加了blacklist amd76x_edac,但是经测试后不加也是可以安装成功的)
blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv
步骤2:卸载所有安装的nvidia驱动
sudo apt-get --purge remove nvidia-*
sudo reboot
注:reboot之后可能无法进入图形界面,可以通过预先安装的ssh进行远程文件传输,在服务器上可以通过Ctrl+Alt+F1进入命令提示符界面
步骤3:查看cuda版本所需要的显卡驱动版本,例如cuda11.1则需要最低版本的驱动为455
步骤4:在http://www.geforce.cn/drivers上下载对应的显卡(服务器为1080ti和3090的包)驱动包
步骤5:安装需要的依赖
sudo apt update
sudo apt install dkms build-essential linux-headers-generic
步骤6:安装驱动包
sudo chmod 755 NVIDIA-Linux-x86_64-xxx.ooo.run #修改权限(否则没有访问权限,无法进行指令安装)
sudo ./NVIDIA-Linux-x86_64- xxx.ooo.run
步骤7:安装完成后
sudo update-initramfs -u
sudo reboot
步骤8:验证
nvidia-smi
四、Cuda安装
步骤1:查看cuda的版本https://developer.nvidia.com/cuda-toolkit-archive
步骤2:根据cuda提示信息进行安装(Wget可以通过-P指定下载路径)
步骤3:添加cuda的路径
打开主目录下的 .bashrc文件添加如下路径,.bashrc文件在/home下(可以直接cd ~),如果没有找到,则按Ctrl+H键显示隐藏文件(可以直接sudo vim .bashrc
)。将以下命令添加至文件末尾,保存退出,如果没有可以试试source ./bashrc
或者创建一个文件。
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
再运行
source ~/.bashrc
步骤4:验证是否安装成功
nvcc -V
五、显卡压力测试
步骤1:下载压力测试软件
wget https://codeload.github.com/wilicc/gpu-burn/zip/master
步骤2:解压缩
unzip gpu-burn-master.zip
步骤3:进入目录进行编译(一定通过nvcc -V验证cuda可用)
cd gpu-burn-master
make
步骤4:编译成功后则会在目录中生成gpu_burn的文件
步骤5:默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置100,稳定性测试为500
./gpu_burn 100
六、Cudnn安装
七、Conda安装
八、用户添加与删除
需要创建用户,并允许其增删改,却又要求其只能在自己的访问目录内,不能去别的地方。
步骤1:想创建的用户目录
mkdir /var/www/html/aaa
步骤2:新建用户到指定的目录
useradd aaa -d /var/www/html/aaa
步骤3:设置新用户密码
passwd aaa
步骤4:将访问目录权限全部赋予用户
chown -R aaa /var/www/html/aaa
步骤5:将上层目录设置为root所有
chown root /var/www/html/
步骤6:赋予权限给上层目录
chmod 771 /var/www/html
步骤7:用户登录时出现bug:/usr/bin/xauth: file /home/user/.Xauthority does not exist
chown username -R /home/user_dir
cat /etc/passwd
查看所有的用户信息
userdel -r haha
删除用户haha
2022级研究生创建方法:
sudo groupadd 2022graduate
sudo useradd -g 2022graduate -d /home/2022zhoujc -m 2022zhoujc
sudo passwd 2022zhoujc
sudo chown 2022zhoujc -R /home/2022zhoujc
sudo usermod -s /bin/bash 2022zhoujc
sudo chmod 0700 /home/2022zhoujc (0750同一个group可以查看,0700同一个group也不可以看)
九、关闭图形界面
十、其他问题
10.1如何解决ubuntu系统下source:notfound错误?
直接用bash执行就行
10.2ubuntu开机卡在/dev/nvme0n1p2: clean 进入不了图形界面 - 20.1117
Ctrl+Alt+F2进入命令行,输入用户名、密码。
sudo vi etc/default/grub
, 照着那篇博客里讲的改好
找到quiet splash并在后面添加nomodeset;
修改前:GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
修改后:GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset"
sudo update-grub
reboot
10.3对于显卡nvidia-smi找不到的情况,nvidia的驱动包在/usr/src的文件里。通过执行
sudo apt-get install dkms
sudo dkms install -m nvidia -v 410.79(看/usr/src里的版本号码)