免费GPU Google Colab保姆级使用攻略,实现数据集快速下载

发布于:2024-04-20 ⋅ 阅读:(31) ⋅ 点赞:(0)

在这里插入图片描述


Colab(Colaboratory)是一个基于云的交互式开发环境,专为数据科学、机器学习和人工智能任务设计。Colab 由 Google 提供,允许用户在浏览器中直接编写、运行、共享和协作处理 Python代码,特别是那些涉及大数据处理、计算密集型算法或使用 GPU/TPU 加速的代码。

Python环境 + 免费GPU


一、Colab基本使用

1.1 准备工作

谷歌账户申请,主要是需要能接受短信的手机号码,具体的就不在这里展开了,当然申请谷歌账号之前,你还得先有能力访问谷歌(科学上网),这个我想网上教程很多…

1.2 Jupyter创建

按下图所示,即可新建笔记本。
在这里插入图片描述

1.3 代码执行程序连接

点击连接按钮即可连接到代码执行程序并分配实例空间,这时我们可以查看相应RAM和磁盘资源,或者更改运行时类型(选择GPU
在这里插入图片描述

1.4 代码运行

Colab的默认文件路径是 /content。Colab一般来说会搭配Google Drive使用,但其创建条件比较苛刻,很多小伙伴并不拥有,就比如我。如果有,那么就可以考虑挂载谷歌云盘。

from google.colab import drive
drive.mount('/content/gdrive')

并更换运行目录

import os
os.chdir("/content/gdrive/")

✅ 查看GPU信息

!nvidia-smi

Python依赖包安装

!pip install <package>

📣 注意事项

虽然Google Colab为用户提供免费的GPU,但资源的使用会受到限制。
以下几种情况会导致断开连接或者报错,那么实例空间(/content目录下)内的所有资源都会被释放:

  1. 模型训练的过程中超过了内存或磁盘的限制
  2. 空闲状态过长(无互动操作或正在执行的代码块)
  3. 连接时长到达上限(免费用户最长连接12小时)
  4. 关闭浏览器

二、数据上传

如果想要使用 Colab 训练自己的数据集(非 Colab 自带数据集),那么先上传数据集到 Colab 平台。

Kaggle API 进行下载(推荐)

借助 Kaggle API 就可以实现数据集的高速下载

  • 获取 API Token

    成功Kaggle 后,点击头像->Settings->Account->API->Create New Token,会生成一个 kaggle.json 文件,包含 username 和 key 信息。

在这里插入图片描述

  • 点击 Copy API command
    在这里插入图片描述

  • 下载数据集

    import json
    token = {"username":"XXX","key":"XXXXXXXXXXXX"}
    with open('/content/kaggle.json', 'w') as file:
      json.dump(token, file)
    
    !mkdir -p ~/.kaggle
    !cp /content/kaggle.json ~/.kaggle/
    !chmod 600 ~/.kaggle/kaggle.json
    !kaggle config set -n path -v /content
    
    !kaggle datasets download -d jiayuexu001/transportation0721
    

在这里插入图片描述