AWS 公开数据集下载与操作说明

发布于:2025-06-09 ⋅ 阅读:(33) ⋅ 点赞:(0)

🌐 AWS 公开数据集下载与操作说明(以 SpaceNet 为例)

一、前置条件

在开始前,请确保已安装并配置好 AWS CLI 工具。

1. 安装 AWS CLI

可从官网下载安装:

👉 https://awscli.amazonaws.com/AWSCLIV2.msi

安装后通过以下命令验证:

aws --version

2. 本项目使用 无需认证 的公开数据,因此可以使用匿名访问:

--no-sign-request

二、SpaceNet 数据集介绍

SpaceNet 是 AWS 上托管的高分辨率遥感数据集,包含卫星影像(RGB、多光谱)、建筑物矢量标签、掩膜标签等,适用于目标识别、图像分割、场景分类等任务。

例如:AOI_2_Vegas 表示拉斯维加斯地区的影像与标注。


三、浏览远程数据目录结构

1. 查看数据列表

aws s3 --no-sign-request ls s3://spacenet-dataset/ --request-payer requester

image-20250608212611101

# 根目录说明(s3://spacenet-dataset/)

AOIs/                        # SpaceNet 核心数据集的各个 AOI(Area of Interest)区域数据,如 Vegas、Paris 等;
                            # 包含多光谱、全色锐化影像(PS-RGB, PS-MS)、建筑物标签(GeoJSON)、掩膜标签等

Hosted-Datasets/            # SpaceNet 之外托管的其他遥感公开数据集,如 xView、DeepGlobe 等第三方数据(AWS 作为托管方)

SpaceNet_Off-Nadir_Dataset/ # SpaceNet 提供的“偏视角”数据集(Off-Nadir),包括不同倾角(7.5° 到 54°)拍摄的影像及标签;
                            # 适合研究视角变化对识别精度的影响等问题

spacenet-model-weights/     # 官方训练好的模型权重(如 UNet、Mask R-CNN 等),用于快速实验和模型加载验证

spacenet-stac/              # SpaceNet 数据的 STAC(SpatioTemporal Asset Catalog)索引目录;
                            # 提供标准化的 JSON 描述,便于程序化检索与集成,适用于自动化系统或云平台分析

spacenet/                   # SpaceNet 比较早期版本的原始数据,结构略不同;
                            # 可视为 Legacy 数据集,不推荐作为首选,除非用于比对或历史研究

LICENSE.md                  # 数据集使用许可说明,通常是 CC-BY(署名共享),下载和使用前建议查看许可内容

2. 列出 AOI 目录下的所有文件夹

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/ --request-payer requester

image-20250608212951319

# SpaceNet AOI 列表说明(每个目录代表一个城市或区域的遥感数据)

AOI_1_Rio/                # 巴西里约热内卢区域的高分辨率卫星影像与建筑物标注数据
AOI_2_Vegas/              # 美国拉斯维加斯区域,包含多光谱影像和建筑物标签,常用作基准数据集
AOI_3_Paris/              # 法国巴黎区域的遥感影像和建筑物标注,适合城市建筑识别任务
AOI_4_Shanghai/           # 中国上海区域的高分辨率卫星影像,适合大城市建筑物提取与变化检测
AOI_5_Khartoum/           # 苏丹喀土穆区域数据,涵盖不同气候与地理环境的遥感影像
AOI_6_Atlanta/            # 美国亚特兰大区域,适合城市道路和建筑识别研究
AOI_7_Moscow/             # 俄罗斯莫斯科区域的卫星影像,适合复杂城市场景分析
AOI_8_Mumbai/             # 印度孟买区域,具有高人口密度城市的遥感数据
AOI_9_San_Juan/           # 波多黎各圣胡安区域,适合岛屿和城市混合场景研究
AOI_10_Dar_Es_Salaam/     # 坦桑尼亚达累斯萨拉姆区域,城市与自然环境混合
AOI_11_Rotterdam/         # 荷兰鹿特丹区域,包含复杂水陆混合的城市影像数据

3. 查看某一 AOI 的内容(例如 AOI_2_Vegas):

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/AOI_2_Vegas/ --request-payer requester

image-20250608213117895
常见子目录包括:

  • PS-RGB/:全色锐化 RGB 影像(.tif)
  • geojson_buildings/:建筑物标签(.geojson)
  • raster_labels/:掩膜标签(.tif)
  • metadata/:数据说明与参数信息(.json、.csv)

四、下载数据

使用 sync 命令可以将 S3 上的指定目录与本地文件夹同步:

示例:下载 RGB 影像

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/PS-RGB/ ./spacenet2_vegas/PS-RGB/ --request-payer requester

示例:下载建筑物矢量标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/geojson_buildings/ ./spacenet2_vegas/geojson_buildings/ --request-payer requester

示例:下载掩膜标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/raster_labels/ ./spacenet2_vegas/raster_labels/ --request-payer requester

五、参数说明

参数 说明
--no-sign-request 使用匿名访问,适用于无需授权的公开数据集
--request-payer requester 指定下载方承担 S3 流量费用(公开数据集通常需要)
sync 增量同步文件夹,仅下载本地不存在或已更新的文件
ls 查看远程 S3 桶目录结构

六、常见问题与解决方法

问题 1:执行 sync 后没有下载任何文件?

可能原因:

  • 路径错误(如遗漏 AOIs/ 前缀)
  • 本地已有文件,sync 判断无需更新
  • 网络或代理限制访问 AWS S3

解决办法:

  • 确认远程路径拼写正确

  • 添加 --dryrun 参数测试将会下载哪些文件:

    aws s3 --no-sign-request sync s3://... ./local_path/ --request-payer requester --dryrun
    
  • 使用 --debug 参数排查详细过程

  • 切换网络或使用 VPN 测试是否为网络限制


七、附录:示例本地目录结构

spacenet2_vegas/
├── PS-RGB/                 # 卫星影像(.tif)
├── geojson_buildings/     # 建筑物标签(.geojson)
├── raster_labels/         # 掩膜标签(.tif)

网站公告

今日签到

点亮在社区的每一天
去签到