NLP-数据集介绍(并不全,文本类介绍)

发布于:2025-06-13 ⋅ 阅读:(24) ⋅ 点赞:(0)

目录

  • 第一章 STS(语义文本相似度) (重点)
    • 一、SemEval STS 年度任务(2012-2017)
      • 1. SemEval-2012 STS
      • 2. SemEval-2013 STS
      • 3. SemEval-2014 STS
      • 4. SemEval-2015 STS
      • 5. SemEval-2016 STS
      • 6. SemEval-2017 STS
    • 二、STS Benchmark(2017)
    • 三、跨语言 STS(XSTS)
      • 1. XSTS-2016
      • 2. XLM-TSV
    • 四、领域专用 STS 数据集
      • 1. 医疗 STS(MedSTS)
      • 2. 法律 STS(Legal-STS)
    • 五、其他衍生数据集
      • 1. SICK 数据集
      • 2. MRPC(Microsoft Research Paraphrase Corpus)
  • 第二章 文本聚类任务:
    • 一、通用文本聚类数据集
      • 1. 20 Newsgroups
      • 2. Reuters-21578
      • 3. Amazon Product Reviews
    • 二、领域特定聚类数据集
      • 1. BBC News
      • 2. ArXiv论文摘要(CS子集)
      • 3. COVID-19开放研究数据集
    • 三、多语言聚类数据集
      • 1. Multi-Domain Sentiment Dataset (MDSD)
      • 2. THUCNews(中文)
    • 四、聚类评估数据集(带真实标签)
  • 第三章 无监督训练数据集:
      • 1. Wikipedia 语料库(训练)
      • 2. Common Crawl
      • 3. BookCorpus
      • 4. Project Gutenberg
      • 5. OpenWebText(补充推荐)
  • 第四章 情感分析任务:
      • 1.MR (Movie Reviews)(重要)
      • 2.CR (Customer Reviews)(重要)
      • 3.SST (Stanford Sentiment Treebank)(重要)
      • 4.Tweet (Twitter Sentiment Analysis)
  • 第五章 文本立场/主观性分类(Subjectivity/Stance)
      • 1.SUBJ (Subjectivity Dataset)(重要)
      • 2.MPQA (MPQA Opinion Corpus)(重要)
  • 第六章 问答与语义相似度(QA & Semantic Similarity)
      • 1.TREC (TREC Question Classification)(重要)
      • 2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
      • 3.SS (Semantic Similarity)
  • 第七章 新闻与长文本分类(News & Long-Text)
      • 1.AG (AG News)
      • 2.G-T (Gutenberg-Times Corpus)
      • 3.G-TS (Gutenberg-Times with Timestamps)
  • 第八章 领域特定分类(Domain-Specific)
      • 1.Bio (BioText)
      • 2.Go-S (Gene Ontology Sentences)
      • 3.SO (Stack Overflow)
      • 4.TC (Text Classification, 如新闻分类)
      • 5.BS (可能为Bias Summarization或Book Summaries)
  • 第九章 句法与语法分析
      • 1.TreeD (Treebank Data, 如Penn Treebank)
      • 2.Tense
      • 3.CoordI (Coordination Identification)
  • 第十章 词汇与语义任务
      • 1.WC (可能为Word Classification或Word Context)
      • 2.SubjN/ObjN (Subjective/Object Nouns)
      • 3.SOMO (可能为Semantic Orientation)
  • 第十一章、自然语言推理(NLI)
      • 1. SNLI (Stanford NLI)(重点)
      • 2. MultiNLI
      • 3. XNLI

第一章 STS(语义文本相似度) (重点)

是自然语言处理中的核心任务,目标是衡量两个文本片段(句子或短语)在语义上的相似程度,输出范围为 0(完全不相关)到 5(完全等价)。

一、SemEval STS 年度任务(2012-2017)

每年任务通常包含 训练集(Train) 和 测试集(Test),部分年份提供 开发集(Dev)。以下是具体划分:

1. SemEval-2012 STS

  • 训练集:无官方训练集(依赖外部数据或迁移学习)。
  • 测试集:约 3,000 对句子(英语 + 西班牙语)。
  • 领域:新闻标题、机器翻译输出。
  • 语言:英语、西班牙语
  • 特点:首次引入跨语言相似度任务。

2. SemEval-2013 STS

  • 训练集:约 1,500 对句子(英语 + 西班牙语)。
  • 测试集:约 2,000 对句子(新增阿拉伯语)。
  • 领域:新闻、论坛讨论。
  • 语言:英语、西班牙语、阿拉伯语
  • 创新:增加阿拉伯语支持。

3. SemEval-2014 STS

  • 训练集:约 4,500 对句子(英语 + 西班牙语)。
  • 测试集:约 3,750 对句子(含图像描述对)。
  • 领域:新闻标题、Flickr30K 图像描述。
  • 语言:英语、西班牙语
  • 亮点:引入图像描述对(文本-图像跨模态关联)。

4. SemEval-2015 STS

  • 训练集:约 8,000 对句子(英语 + 西班牙语)。
  • 测试集:约 1,000 对句子。
  • 领域:新闻、论坛、问答对。
  • 语言:英语、西班牙语
  • 数据量:约 9,000 对句子(含训练集和测试集)。

5. SemEval-2016 STS

  • 训练集:约 6,000 对句子(英语 + 阿拉伯语)。
  • 测试集:约 1,200 对句子。
  • 领域:新闻标题、学术文本。
  • 语言:英语、阿拉伯语
  • 挑战:处理复杂句式(如否定、比喻)。

6. SemEval-2017 STS

  • 训练集:约 5,000 对句子(英语 + 西班牙语 + 阿拉伯语)。
  • 测试集:约 1,500 对句子。
  • 语言:英语、西班牙语、阿拉伯语
  • 领域:新闻、社交媒体、问答对
  • 遗产:成为后续研究的基准参考。

二、STS Benchmark(2017)

  • 训练集:5,499 对句子(来自 SemEval 2012-2016 的混合数据)。
  • 开发集:500 对句子(用于调参)。
  • 测试集:1,379 对句子(来自 SemEval 2017)。
  • 评分范围:0-5 分(连续值)。
  • 用途:BERT、RoBERTa 等模型的通用评估基准。
  • 定位:标准化评估集(非年度任务)
  • 数据量:5,749 对句子(训练集 5,499 / 开发集 500 / 测试集 1,379)
  • 领域:新闻标题、论坛讨论、图像描述、问答对

三、跨语言 STS(XSTS)

1. XSTS-2016

  • 训练集:3,000 对句子(英语-西班牙语对齐)。
  • 测试集:1,000 对句子。
  • 评分:人工标注 0-5 分。
  • 任务目标:跨语言语义相似度(如英语-西班牙语)
  • 语言:英语-西班牙语对齐句子对。
  • 应用:评估跨语言嵌入模型(如 LASER、mBERT)。

2. XLM-TSV

  • 训练集:50,000 对句子(多语言混合)。
  • 测试集:10,000 对句子(覆盖 15 种语言)。
  • 特点:自动生成 + 人工修正。
  • 语言:多语言扩展(英语、德语、法语等)

四、领域专用 STS 数据集

1. 医疗 STS(MedSTS)

  • 训练集:800 对临床文本。
  • 测试集:200 对句子。
  • 评分:医生标注 0-5 分。
  • 领域:临床文本
  • 数据量:约 1,000 对句子

2. 法律 STS(Legal-STS)

  • 训练集:600 对法律条款。
  • 测试集:200 对句子。
  • 挑战:长文本(平均 50 词/句)。
  • 领域:法律条款、合同
  • 数据量:约 800 对句子
  • 挑战:专业术语和长文本匹配。

五、其他衍生数据集

1. SICK 数据集

  • 训练集:4,500 对句子。
  • 开发集:500 对句子。
  • 测试集:4,927 对句子。
  • 标签:语义关联度(1-5 分) + 关系标签(蕴含/矛盾/中立)。
  • 领域:常识推理
  • 数据量:10,000 对句子
  • 特点:包含语义关联、矛盾、中立标签。

2. MRPC(Microsoft Research Paraphrase Corpus)

  • 训练集:4,076 对句子。
  • 测试集:1,725 对句子。
  • 标签:二分类(1=复述,0=非复述)。
  • 任务:二分类(是否为复述)
  • 数据量:5,800 对句子
  • 用途:复述检测基准(STS 的简化版)。

第二章 文本聚类任务:

一、通用文本聚类数据集

1. 20 Newsgroups

  • 内容:约20,000篇新闻组文档,分为20个主题(如计算机、宗教、体育等)。

  • 特点:主题明确,适合验证聚类算法对粗粒度类别的区分能力。

  • 官方划分

    • 训练集:11,314篇(按日期早于测试集的文档划分)。
    • 测试集:7,532篇。
  • 类别分布:每个类别在训练集和测试集中均匀分布(约600-700篇/类)。

  • 注意事项:实际聚类任务中通常合并全部数据(无监督学习),但可用测试集标签评估聚类效果。

  • 获取

    通过:

    scikit-learn
    

    直接加载:

    from sklearn.datasets import fetch_20newsgroups
    data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
    

2. Reuters-21578

  • 内容:路透社新闻文档,包含90个类别(如金融、贸易、农业)。

  • 特点:部分文档有多个标签,适合多类别聚类或层次聚类。

  • 获取:通过 Kagglenltk.corpus.reuters 下载。

  • 常用划分(ModApte Split)

    • 训练集:7,769篇(仅包含至少被标注1个类别的文档)。
    • 测试集:3,019篇。
  • 类别分布:高度不均衡(如 earn 类占40%+),需注意长尾问题。

  • 获取代码

    from nltk.corpus import reuters
    train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769]  # 示例筛选
    

3. Amazon Product Reviews

  • 内容:亚马逊商品评论,包含评分(1-5星)和产品类别(如电子产品、图书)。
  • 特点:适合情感聚类(如正向/负向评论)或跨品类聚类。
  • 获取Amazon Review Data (2018)(需遵守使用协议)。
  • 无官方划分:需自定义(如按时间划分或随机采样)。
  • 建议比例
    • 训练集:80%(用于生成嵌入或特征)。
    • 测试集:20%(评估聚类泛化性,需保留真实标签)。
  • 领域适应:可跨品类划分(如训练集用电子产品,测试集用图书评论)。

二、领域特定聚类数据集

1. BBC News

  • 内容:2,225篇BBC新闻文章,分为5类(商业、娱乐、政治、体育、科技)。
  • 特点:短文本,类别平衡,适合小规模聚类实验。
  • 获取Kaggle链接
  • 官方划分:无固定划分,需随机分割。
  • 典型用法
    • 训练集:1,600篇(80%)。
    • 测试集:400篇(20%)。
  • 类别平衡:每类约320-400篇(训练集),80-100篇(测试集)。

2. ArXiv论文摘要(CS子集)

  • 内容:计算机科学领域的论文摘要,可自定义类别(如AI、数据库、算法)。
  • 特点:学术长文本,适合主题建模与细粒度聚类。
  • 获取:通过 arXiv API 爬取或使用预处理的 Hugging Face Datasets
  • 时间划分:按论文发表年份划分(如2010-2018为训练集,2019-2020为测试集)。
  • 动态主题挑战:测试集可能包含新术语(如“GPT-4”),考验聚类模型泛化能力。

3. COVID-19开放研究数据集

  • 内容:医学论文摘要,涉及病毒传播、疫苗研发等主题。
  • 特点:专业术语多,适合领域自适应聚类。
  • 获取CORD-19 Dataset
  • 划分建议:按研究主题(如训练集含“病毒传播”,测试集含“疫苗副作用”)。
  • 数据量:约400,000篇(持续更新),需过滤低质量文本。

三、多语言聚类数据集

1. Multi-Domain Sentiment Dataset (MDSD)

  • 内容:商品评论(英文、德文、法文),包含4个领域(图书、DVD、电子产品、厨房用品)。
  • 特点:跨语言与跨领域聚类任务。
  • 获取MDSD官网
  • 官方划分:按语言和领域独立划分(如英文电子产品评论为训练集,法文图书评论为测试集)。
  • 跨语言聚类:需对齐不同语言的嵌入空间(如用LASER或mBERT)。

2. THUCNews(中文)

  • 内容:新浪新闻分类数据,14个类别(财经、房产、教育等),共74万篇。
  • 特点:大规模中文长文本,需自行划分训练/测试集。
  • 获取THUCTC工具包Hugging Face
  • 官方划分
    • 训练集:65万篇。
    • 测试集:9万篇。
  • 类别分布:均匀分布(每类约4.6万篇训练,6,000篇测试)。

四、聚类评估数据集(带真实标签)

数据集名称 文本类型 类别数 用途
Iris 结构化特征 3 基础聚类算法验证
MNIST 手写数字图像 10 跨模态聚类(需文本化)
AG News 新闻标题 4 短文本聚类效果对比
StackOverflow 技术问答 20 长文本与标签稀疏性测试

第三章 无监督训练数据集:

1. Wikipedia 语料库(训练)

  • 内容:多语言维基百科全文(含元数据如页面标题、链接等)。
  • 规模:英文版约 40 亿词,中文版约 10 亿词(2023 年数据)。
  • 用途:BERT、GPT 等模型的预训练基础语料。
  • 训练/测试分布
    • 无官方划分,通常按时间切分(如用 2020 年前数据训练,2021 年后数据测试)。
    • 部分研究采用随机抽取 1-5% 作为验证集(如 BERT 训练时)。
  • 获取方式:通过 Wikimedia Dumps 按需下载特定语言版本。

2. Common Crawl

  • 内容:互联网网页抓取的原始文本(含 HTML 标签,需清洗)。

  • 规模:每月新增约 200TB 原始数据,覆盖 100+ 种语言。

  • 用途:训练超大规模模型(如 GPT-3、T5)。

  • 训练/测试分布

    • 无官方划分,通常按时间或域名划分(如 90% 训练 + 10% 测试)。
    • 需注意数据去重(重复网页可能影响模型性能)。
  • 语言分布示例

    语言 占比
    英语 46%
    俄语 6%
    中文 4%
    其他 44%
  • 获取方式:通过 Common Crawl 官网 下载 WARC 文件。


3. BookCorpus

  • 内容:未出版的英文小说书籍(涵盖多种体裁)。
  • 规模:约 11,000 本书,总词数 9.8 亿。
  • 用途:长文本生成、语言模型微调。
  • 训练/测试分布
    • 公开版本(如 Hugging Face 的 bookcorpus:默认无划分,建议按 9:1 随机分割。
    • 原始版本因版权限制需申请访问权限。
  • 示例使用:BERT 的预训练数据中,BookCorpus 占 25%(与 Wikipedia 组合使用)。
  • 替代版本
    • Books3(包含 19 万本书,需通过 The Eye 下载)。
    • Project Gutenberg 子集(公开版权书籍,可自由使用)。

4. Project Gutenberg

  • 内容:版权过期的经典文学作品(含小说、诗歌、非虚构等)。
  • 规模:60,000+ 本电子书(以英文为主,含部分其他语言)。
  • 用途:文学风格分析、低资源语言模型训练。
  • 训练/测试分布
    • 无官方划分,建议按作者或年代划分(如 19 世纪作品训练,20 世纪作品测试)。
    • 可过滤特定领域(如科幻 vs 现实主义小说)。
  • 获取方式:直接通过 Project Gutenberg 批量下载。

5. OpenWebText(补充推荐)

  • 内容:Reddit 高赞帖子的外链网页文本(清洗后)。
  • 规模:约 800 万文档,总词数 400 亿。
  • 用途:GPT-2 等模型的训练数据。
  • 训练/测试分布
  • 特点:包含网络用语、非正式文本,贴近实际应用场景。

第四章 情感分析任务:

1.MR (Movie Reviews)(重要)

  • 任务:二分类(正/负面电影评论)
  • 数据量:10,662条句子
  • 分布:无固定划分,通常使用交叉验证或80%/20%随机分割。

2.CR (Customer Reviews)(重要)

  • 任务:二分类(商品评论情感)
  • 数据量:约4,000条评论
  • 分布:无官方划分,常用交叉验证或随机分割。

3.SST (Stanford Sentiment Treebank)(重要)

  • 任务:二分类(SST-2)或五分类(SST-5)
  • 数据量
    • SST-2:67,349条(训练集 6,920,验证集 872,测试集 1,821)
    • SST-5:11,855条(训练集 8,544,验证集 1,101,测试集 2,210)
  • 分布:官方固定划分。

4.Tweet (Twitter Sentiment Analysis)

  • 任务:三分类(正/负/中性)
  • 数据量:约20,000条推文(如SemEval-2017)
  • 分布:官方划分(训练集 10k,测试集 10k)。

第五章 文本立场/主观性分类(Subjectivity/Stance)

1.SUBJ (Subjectivity Dataset)(重要)

  • 任务:二分类(主观/客观句子)
  • 数据量:10,000条句子
  • 分布:通常按5k训练 + 5k测试划分。

2.MPQA (MPQA Opinion Corpus)(重要)

  • 任务:二分类(观点极性)
  • 数据量:10,606条句子
  • 分布:无固定划分,常用交叉验证。

第六章 问答与语义相似度(QA & Semantic Similarity)

1.TREC (TREC Question Classification)(重要)

  • 任务:6分类或50分类(问题类型)
  • 数据量:5,952条训练 + 500条测试
  • 分布:官方固定划分。

2.MRPC (Microsoft Research Paraphrase Corpus)(重要)

  • 任务:二分类(句子对是否语义等价)
  • 数据量:5,801对(训练集) + 1,500对(测试集)
  • 分布:官方划分,标签不均衡(约67%负样本)。

3.SS (Semantic Similarity)

  • 任务:二分类(句子对是否语义相似)
  • 数据量:依赖子集(如STS-B约8,628对)
  • 分布:通常按训练/验证/测试划分。

第七章 新闻与长文本分类(News & Long-Text)

1.AG (AG News)

  • 任务:四分类(新闻类别)
  • 数据量:127,600条(训练集 120k,测试集 7.6k)
  • 分布:官方均衡划分(每类训练集30k,测试集1.9k)。

2.G-T (Gutenberg-Times Corpus)

  • 任务:历史新闻分类
  • 数据量:约10,000篇文档
  • 分布:需按时间或主题自定义划分。

3.G-TS (Gutenberg-Times with Timestamps)

  • 任务:时间敏感分类
  • 数据量:同G-T,附带时间戳
  • 分布:按时间划分(如1900年前后)。

第八章 领域特定分类(Domain-Specific)

1.Bio (BioText)

  • 任务:二分类(生物医学文献关联性)
  • 数据量:约20,000条
  • 分布:通常按80%/20%分割。

2.Go-S (Gene Ontology Sentences)

  • 任务:多标签分类(基因功能)
  • 数据量:约50,000条
  • 分布:按文献时间自定义划分。

3.SO (Stack Overflow)

  • 任务:多标签分类(代码问题标签)
  • 数据量:约10,000,000条(常用子集50k)
  • 分布:按时间或随机划分。

4.TC (Text Classification, 如新闻分类)

  • 任务:多分类(如新闻类别)
  • 分布:若为AG News,官方均衡划分(训练集 120k,测试集 7.6k)。

5.BS (可能为Bias Summarization或Book Summaries)

  • 任务:需进一步明确(假设为摘要偏见检测)
  • 分布:依赖具体数据集,通常按70%/30%划分。

第九章 句法与语法分析

1.TreeD (Treebank Data, 如Penn Treebank)

  • 任务:句法分析(依存/成分树解析)
  • 分布:通常按章节划分(如PTB:训练集 2-21,验证集 22,测试集 23)。

2.Tense

  • 任务:动词时态分类(过去/现在/未来等)
  • 分布:需自定义划分(常见按80%/20%分割)。

3.CoordI (Coordination Identification)

  • 任务:并列结构识别
  • 分布:依赖具体语料库(如英文树库需自定义划分)。

第十章 词汇与语义任务

1.WC (可能为Word Classification或Word Context)

  • 任务:词汇分类(如词性标注)
  • 分布:若为词性标注,常用树库划分(如PTB)。

2.SubjN/ObjN (Subjective/Object Nouns)

  • 任务:主观性名词 vs. 客观性名词分类
  • 分布:需自定义划分(类似SUBJ数据集)。

3.SOMO (可能为Semantic Orientation)

  • 任务:词汇语义极性(正/负)
  • 分布:通常按词典或语料库自定义划分。

第十一章、自然语言推理(NLI)

1. SNLI (Stanford NLI)(重点)

  • 任务: 三分类(蕴含/矛盾/中立)
  • 数据分布:
    • 训练集: 549,367对
    • 验证集: 9,842对
    • 测试集: 9,824对
  • 特点:
    • 所有句子对基于图像描述生成,训练集与测试集领域一致。
    • 测试集包含部分对抗样本(如词汇重叠但逻辑矛盾)。

2. MultiNLI

  • 任务: 多领域三分类
  • 数据分布:
    • 训练集: 392,702对(覆盖10种文本类型,如小说、政府报告)
    • 验证集: 9,815对(匹配领域) + 9,832对(不匹配领域)
    • 测试集: 分两部分:
      • 匹配领域(20,000对,与训练集同领域)
      • 不匹配领域(20,000对,新领域如旅游指南)
  • 特点:
    • 测试集的“不匹配领域”用于评估模型跨领域泛化能力。

3. XNLI

  • 任务: 跨语言三分类(15种语言)
  • 数据分布:
    • 训练集: 392,702对(仅英语,翻译为其他语言)
    • 验证集: 2,490对/语言
    • 测试集: 5,010对/语言
  • 特点:
    • 测试集包含低资源语言(如斯瓦希里语、乌尔都语),评估跨语言迁移能力。