机器学习的数据集

发布于:2025-09-10 ⋅ 阅读:(32) ⋅ 点赞:(0)

最近学了下TinyML的课程,才发现数据集的重要性。所谓兵马未动,粮草先行。这样提前看看数据集怎么弄吧。想了下,应该有三种方式。

1 用成熟数据集

1.1 综合性数据集网站/平台

Kaggle Datasets
各种领域(图像、NLP、时间序列、医学等),附带很多 baseline 代码,可以直接下载。

UCI Machine Learning Repository
老牌数据集仓库,涵盖分类、回归、时间序列等小规模数据集。

Google Dataset Search
类似 Google 搜索,但只搜数据集。

Papers With Code Datasets
按研究任务分类,直接关联最新论文和数据集。

AI Commons / OpenML
一个社区型的数据集与实验共享平台。

1.2 主流框架带的数据集

TensorFlow / Keras

  • tf.keras.datasets:MNIST、CIFAR-10/100、Fashion-MNIST、IMDB、Reuters 等。

  • TensorFlow Datasets (TFDS):更大范围,包括 CelebA、COCO、SVHN、Speech Commands 等。

PyTorch

  • torchvision.datasets:MNIST、CIFAR、ImageNet(需额外下载)、COCO、VOC、CelebA 等。

  • torchtext.datasets:IMDB、WikiText、AG News 等。

  • torchaudio.datasets:LibriSpeech、YesNo、SpeechCommands 等。

JAX / Flax

  • 通常直接复用 TensorFlow Datasets (TFDS),因为 JAX 和 TFDS 兼容。

1.3 各领域常见数据集来源

  • 图像 / CV

    • ImageNet

    • COCO

    • Open Images Dataset

  • 自然语言处理 / NLP

    • HuggingFace Datasets (几乎是 NLP 的首选仓库)

    • WikiText、SQuAD、GLUE、SuperGLUE

  • 音频 / 语音

    • Librispeech

    • Mozilla Common Voice

    • OpenSLR

  • 医学 / 生物

    • PhysioNet(包含 ECG、EEG、心音、血压等)

    • Cancer Imaging Archive(医学影像)

  • 时序 / IoT / 金融

    • UCR Time Series Classification Archive

    • Yahoo Finance Dataset

2 自建数据

在很多流量大的网站,物联网系统,或者是一些终端企业,比如医院,电力公司,道路公司等。这类型企业最大的优势就是天然就有大量真实业务数据。

在这种公司,需要的应该就是类似优秀DBA这样的类型。将数据做更好的管理。

第一步目标:数据完整、可查询。通过终端或者传感器收到数据。之后是清洗数据,去掉异常值。最后是数据存储,时序InfluxDB、TimescaleDB,大数据Hadoop、HDFS,消息队列Kafka、MQTT。
第二步目标:数据能被信任、能被安全使用。建设数据湖/数据仓库。数据的隐私保护。
第三步目标:数据能驱动决策和自动化。使用深度学习,实时分析等处理。包括流处理框架(Flink、Spark Streaming、Kafka Streams)等。

业务最后实现闭环

  1. 收集数据
  2. 分析 & 训练模型
  3. 部署到生产环境(医院的诊断系统、电网调度系统、道路监控中心)
  4. 自动产生价值(报警、预测、优化资源)
  5. 不断反馈(新数据再训练)

一些关键技术:

数据仓库 & 大数据平台(Hive, Spark, Presto)
IoT 平台(ThingsBoard、AWS IoT、Azure IoT Hub)
ML 平台(TensorFlow, PyTorch, Scikit-Learn)
MLOps 工具(Kubeflow, MLflow,用于模型训练 + 部署 + 更新)

3 仿真构建

大体就是下面几个:

  1. 确定目标任务(分类/预测/异常检测)。
  2. 选取仿真方法(物理建模 / 虚拟环境 / 生成模型 / 增强)。
  3. 配置参数(例如:心率 40–180 bpm,交通流量 500–5000 辆/小时)。
  4. 生成数据集(含标签:正常/异常、健康/病变、畅通/拥堵)。
  5. 与真实数据融合(仿真 + 真实混合,提高模型泛化能力)。

最后一个小疑问,特斯拉在之前碰撞测试中取得了不错的成绩,但是能想到的是特斯拉的数据是不能传回美国做训练,那是不是就用的仿真呢?

根据中国相关规定,重要数据应当依法在境内存储,因业务需要确需向境外提供的,应当通过国家网信部门会同国务院有关部门组织的安全评估。特斯拉通过了国家车辆数据安全的权威标准和要求,其在中国收集的数据存储在上海特斯拉数据中心,且每年都要接受上海通信管理局的审查和监管。

 

为了在合规的前提下进行自动驾驶训练,特斯拉采取了一些替代方案。例如,有说法称特斯拉会在临港先训练出一个中国道路的世界模型,然后再把这个模型送去美国,通过仿真再继续训练中国的 FSD 版本,这样可以做到数据不出境,只有模型出入境。另外,特斯拉也会使用合成训练数据来补充训练,以减少对真实数据出境的依赖。

 

至于数据流量方面,虽然特斯拉车辆摄像头每秒产生的数据量较大,但并不会全部上传云端,而是会在车端进行结构化预处理,以缩小数据量。同时,特斯拉的 OTA 升级等数据传输流量通常在可接受范围内,其还提供每月 9.9 元的无限流量套餐供车机使用。


网站公告

今日签到

点亮在社区的每一天
去签到