本节内容含有各典型数据集的推荐,以及其网址,大家根据需要自取
一、检索
最简单、最灵活的数据获取方式就是依靠检索:
Google:更适合搜索英文信息
Google Dataset Search(Google 数据集搜索)
网址:https://toolbox.google.com/datasetsearch
二、公开数据
国内常见公开数据渠道
·国家相关部门统计信息
·中国银行业监督管理委员会
·中国国家统计局
国际公开数据集
1400万的图像数据
Amazon从2008年开始就为开发者提供几十TB的开发数据
YouTube视频的统计与社交网络数据
代表性公开数据集
用户评分MovieLens:MovieLens | GroupLens
文本数据-头条:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset
金融数据-股票:https://github.com/asxinyu/Stock
网络数据-Large scale network:Stanford Large Network Dataset Collection
教育数据:
ASSISTmentsData-学业: https://sites.google.com/site/assistmentsdata/home/
BASEGroup: https://github.com/bigdata-ustc/EduData
阿里天池数据-数据平台:天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池
公开大数据竞赛的数据:KDDCup,NeurIPS Challenge
三、大数据的未来:合成数据
合成数据:基于计算机模拟活算法生成模仿现实世界观察的人造数据
优势:大大降低数据获取成本;可控;没有隐私安全问题;数据丰富多样,减少真实世界中存在的偏见…
代表工作:
麻省理工学院搭建的合成数据工具库:The Synthetic Data Vault. Put synthetic data to work!
利用大模型做数据增强
解决目标领域数据少且质量差的问题
合成数据是让模型“无中生有”,直接生成某个领域的数据(有一定质量问题)
数据增强是让模型“有中生更多”,根据已标注好的数据,举一反三(更安全可靠)
四、数据众包
一种利用大众力量来收集、分析和处理数据的模式
需求方将一批数据标注任务分成多个子任务,分发在数据众包平台
标注者通过互联网在众包平台接受任务
平台收集标注结果,质量评估合格后返回给需求方
平台很多,大家自行搜索
附:比赛平台
供各位了解
CCF BDCI:
天池:
Kaggle
Biendata
阿里云万网虚机IP访问报错提示https://biendata.com/
下一节,讲述爬虫,【数据分析二:Data Collection】:网络爬虫