NLP-数据集介绍（并不全，文本类介绍）-EW帮帮网

第一章 STS（语义文本相似度）（重点）
- 一、SemEval STS 年度任务（2012-2017）
- - 1. SemEval-2012 STS
  - 2. SemEval-2013 STS
  - 3. SemEval-2014 STS
  - 4. SemEval-2015 STS
  - 5. SemEval-2016 STS
  - 6. SemEval-2017 STS
- 二、STS Benchmark（2017）
- 三、跨语言 STS（XSTS）
- - 1. XSTS-2016
  - 2. XLM-TSV
- 四、领域专用 STS 数据集
- - 1. 医疗 STS（MedSTS）
  - 2. 法律 STS（Legal-STS）
- 五、其他衍生数据集
- - 1. SICK 数据集
  - 2. MRPC（Microsoft Research Paraphrase Corpus）
第二章文本聚类任务：
- 一、通用文本聚类数据集
- - 1. 20 Newsgroups
  - 2. Reuters-21578
  - 3. Amazon Product Reviews
- 二、领域特定聚类数据集
- - 1. BBC News
  - 2. ArXiv论文摘要（CS子集）
  - 3. COVID-19开放研究数据集
- 三、多语言聚类数据集
- - 1. Multi-Domain Sentiment Dataset (MDSD)
  - 2. THUCNews（中文）
- 四、聚类评估数据集（带真实标签）
第三章无监督训练数据集：
- - 1. Wikipedia 语料库（训练）
  - 2. Common Crawl
  - 3. BookCorpus
  - 4. Project Gutenberg
  - 5. OpenWebText（补充推荐）
第四章情感分析任务：
- - 1.MR (Movie Reviews)（重要）
  - 2.CR (Customer Reviews)（重要）
  - 3.SST (Stanford Sentiment Treebank)（重要）
  - 4.Tweet (Twitter Sentiment Analysis)
第五章文本立场/主观性分类（Subjectivity/Stance）
- - 1.SUBJ (Subjectivity Dataset)（重要）
  - 2.MPQA (MPQA Opinion Corpus)（重要）
第六章问答与语义相似度（QA & Semantic Similarity）
- - 1.TREC (TREC Question Classification)（重要）
  - 2.MRPC (Microsoft Research Paraphrase Corpus)（重要）
  - 3.SS (Semantic Similarity)
第七章新闻与长文本分类（News & Long-Text）
- - 1.AG (AG News)
  - 2.G-T (Gutenberg-Times Corpus)
  - 3.G-TS (Gutenberg-Times with Timestamps)
第八章领域特定分类（Domain-Specific）
- - 1.Bio (BioText)
  - 2.Go-S (Gene Ontology Sentences)
  - 3.SO (Stack Overflow)
  - 4.TC (Text Classification, 如新闻分类)
  - 5.BS (可能为Bias Summarization或Book Summaries)
第九章句法与语法分析
- - 1.TreeD (Treebank Data, 如Penn Treebank)
  - 2.Tense
  - 3.CoordI (Coordination Identification)
第十章词汇与语义任务
- - 1.WC (可能为Word Classification或Word Context)
  - 2.SubjN/ObjN (Subjective/Object Nouns)
  - 3.SOMO (可能为Semantic Orientation)
第十一章、自然语言推理（NLI）
- - 1. SNLI (Stanford NLI)（重点）
  - 2. MultiNLI
  - 3. XNLI

第一章 STS（语义文本相似度）（重点）

是自然语言处理中的核心任务，目标是衡量两个文本片段（句子或短语）在语义上的相似程度，输出范围为 0（完全不相关）到 5（完全等价）。

一、SemEval STS 年度任务（2012-2017）

每年任务通常包含训练集（Train）和测试集（Test），部分年份提供开发集（Dev）。以下是具体划分：

1. SemEval-2012 STS

训练集：无官方训练集（依赖外部数据或迁移学习）。
测试集：约 3,000 对句子（英语 + 西班牙语）。
领域：新闻标题、机器翻译输出。
语言：英语、西班牙语
特点：首次引入跨语言相似度任务。

2. SemEval-2013 STS

训练集：约 1,500 对句子（英语 + 西班牙语）。
测试集：约 2,000 对句子（新增阿拉伯语）。
领域：新闻、论坛讨论。
语言：英语、西班牙语、阿拉伯语
创新：增加阿拉伯语支持。

3. SemEval-2014 STS

训练集：约 4,500 对句子（英语 + 西班牙语）。
测试集：约 3,750 对句子（含图像描述对）。
领域：新闻标题、Flickr30K 图像描述。
语言：英语、西班牙语
亮点：引入图像描述对（文本-图像跨模态关联）。

4. SemEval-2015 STS

训练集：约 8,000 对句子（英语 + 西班牙语）。
测试集：约 1,000 对句子。
领域：新闻、论坛、问答对。
语言：英语、西班牙语
数据量：约 9,000 对句子（含训练集和测试集）。

5. SemEval-2016 STS

训练集：约 6,000 对句子（英语 + 阿拉伯语）。
测试集：约 1,200 对句子。
领域：新闻标题、学术文本。
语言：英语、阿拉伯语
挑战：处理复杂句式（如否定、比喻）。

6. SemEval-2017 STS

训练集：约 5,000 对句子（英语 + 西班牙语 + 阿拉伯语）。
测试集：约 1,500 对句子。
语言：英语、西班牙语、阿拉伯语
领域：新闻、社交媒体、问答对
遗产：成为后续研究的基准参考。

二、STS Benchmark（2017）

训练集：5,499 对句子（来自 SemEval 2012-2016 的混合数据）。
开发集：500 对句子（用于调参）。
测试集：1,379 对句子（来自 SemEval 2017）。
评分范围：0-5 分（连续值）。
用途：BERT、RoBERTa 等模型的通用评估基准。
定位：标准化评估集（非年度任务）
数据量：5,749 对句子（训练集 5,499 / 开发集 500 / 测试集 1,379）
领域：新闻标题、论坛讨论、图像描述、问答对

三、跨语言 STS（XSTS）

1. XSTS-2016

训练集：3,000 对句子（英语-西班牙语对齐）。
测试集：1,000 对句子。
评分：人工标注 0-5 分。
任务目标：跨语言语义相似度（如英语-西班牙语）
语言：英语-西班牙语对齐句子对。
应用：评估跨语言嵌入模型（如 LASER、mBERT）。

2. XLM-TSV

训练集：50,000 对句子（多语言混合）。
测试集：10,000 对句子（覆盖 15 种语言）。
特点：自动生成 + 人工修正。
语言：多语言扩展（英语、德语、法语等）

四、领域专用 STS 数据集

1. 医疗 STS（MedSTS）

训练集：800 对临床文本。
测试集：200 对句子。
评分：医生标注 0-5 分。
领域：临床文本
数据量：约 1,000 对句子

2. 法律 STS（Legal-STS）

训练集：600 对法律条款。
测试集：200 对句子。
挑战：长文本（平均 50 词/句）。
领域：法律条款、合同
数据量：约 800 对句子
挑战：专业术语和长文本匹配。

五、其他衍生数据集

1. SICK 数据集

训练集：4,500 对句子。
开发集：500 对句子。
测试集：4,927 对句子。
标签：语义关联度（1-5 分） + 关系标签（蕴含/矛盾/中立）。
领域：常识推理
数据量：10,000 对句子
特点：包含语义关联、矛盾、中立标签。

2. MRPC（Microsoft Research Paraphrase Corpus）

训练集：4,076 对句子。
测试集：1,725 对句子。
标签：二分类（1=复述，0=非复述）。
任务：二分类（是否为复述）
数据量：5,800 对句子
用途：复述检测基准（STS 的简化版）。

第二章文本聚类任务：

一、通用文本聚类数据集

1. 20 Newsgroups

内容：约20,000篇新闻组文档，分为20个主题（如计算机、宗教、体育等）。
特点：主题明确，适合验证聚类算法对粗粒度类别的区分能力。
官方划分：
- 训练集：11,314篇（按日期早于测试集的文档划分）。
- 测试集：7,532篇。
类别分布：每个类别在训练集和测试集中均匀分布（约600-700篇/类）。
注意事项：实际聚类任务中通常合并全部数据（无监督学习），但可用测试集标签评估聚类效果。

获取：

通过：

scikit-learn

直接加载：

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

2. Reuters-21578

内容：路透社新闻文档，包含90个类别（如金融、贸易、农业）。
特点：部分文档有多个标签，适合多类别聚类或层次聚类。
获取：通过 Kaggle 或 nltk.corpus.reuters 下载。
常用划分（ModApte Split）：
- 训练集：7,769篇（仅包含至少被标注1个类别的文档）。
- 测试集：3,019篇。
类别分布：高度不均衡（如 earn 类占40%+），需注意长尾问题。

获取代码

from nltk.corpus import reuters
train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769]  # 示例筛选

3. Amazon Product Reviews

内容：亚马逊商品评论，包含评分（1-5星）和产品类别（如电子产品、图书）。
特点：适合情感聚类（如正向/负向评论）或跨品类聚类。
获取：Amazon Review Data (2018)（需遵守使用协议）。
无官方划分：需自定义（如按时间划分或随机采样）。
建议比例：
- 训练集：80%（用于生成嵌入或特征）。
- 测试集：20%（评估聚类泛化性，需保留真实标签）。
领域适应：可跨品类划分（如训练集用电子产品，测试集用图书评论）。

二、领域特定聚类数据集

1. BBC News

内容：2,225篇BBC新闻文章，分为5类（商业、娱乐、政治、体育、科技）。
特点：短文本，类别平衡，适合小规模聚类实验。
获取：Kaggle链接。
官方划分：无固定划分，需随机分割。
典型用法：
- 训练集：1,600篇（80%）。
- 测试集：400篇（20%）。
类别平衡：每类约320-400篇（训练集），80-100篇（测试集）。

2. ArXiv论文摘要（CS子集）

内容：计算机科学领域的论文摘要，可自定义类别（如AI、数据库、算法）。
特点：学术长文本，适合主题建模与细粒度聚类。
获取：通过 arXiv API 爬取或使用预处理的 Hugging Face Datasets。
时间划分：按论文发表年份划分（如2010-2018为训练集，2019-2020为测试集）。
动态主题挑战：测试集可能包含新术语（如“GPT-4”），考验聚类模型泛化能力。

3. COVID-19开放研究数据集

内容：医学论文摘要，涉及病毒传播、疫苗研发等主题。
特点：专业术语多，适合领域自适应聚类。
获取：CORD-19 Dataset。
划分建议：按研究主题（如训练集含“病毒传播”，测试集含“疫苗副作用”）。
数据量：约400,000篇（持续更新），需过滤低质量文本。

三、多语言聚类数据集

1. Multi-Domain Sentiment Dataset (MDSD)

内容：商品评论（英文、德文、法文），包含4个领域（图书、DVD、电子产品、厨房用品）。
特点：跨语言与跨领域聚类任务。
获取：MDSD官网。
官方划分：按语言和领域独立划分（如英文电子产品评论为训练集，法文图书评论为测试集）。
跨语言聚类：需对齐不同语言的嵌入空间（如用LASER或mBERT）。

2. THUCNews（中文）

内容：新浪新闻分类数据，14个类别（财经、房产、教育等），共74万篇。
特点：大规模中文长文本，需自行划分训练/测试集。
获取：THUCTC工具包或 Hugging Face。
官方划分：
- 训练集：65万篇。
- 测试集：9万篇。
类别分布：均匀分布（每类约4.6万篇训练，6,000篇测试）。

四、聚类评估数据集（带真实标签）

数据集名称	文本类型	类别数	用途
Iris	结构化特征	3	基础聚类算法验证
MNIST	手写数字图像	10	跨模态聚类（需文本化）
AG News	新闻标题	4	短文本聚类效果对比
StackOverflow	技术问答	20	长文本与标签稀疏性测试

第三章无监督训练数据集：

1. Wikipedia 语料库（训练）

内容：多语言维基百科全文（含元数据如页面标题、链接等）。
规模：英文版约 40 亿词，中文版约 10 亿词（2023 年数据）。
用途：BERT、GPT 等模型的预训练基础语料。
训练/测试分布：
- 无官方划分，通常按时间切分（如用 2020 年前数据训练，2021 年后数据测试）。
- 部分研究采用随机抽取 1-5% 作为验证集（如 BERT 训练时）。
获取方式：通过 Wikimedia Dumps 按需下载特定语言版本。

2. Common Crawl

内容：互联网网页抓取的原始文本（含 HTML 标签，需清洗）。
规模：每月新增约 200TB 原始数据，覆盖 100+ 种语言。
用途：训练超大规模模型（如 GPT-3、T5）。
训练/测试分布：
- 无官方划分，通常按时间或域名划分（如 90% 训练 + 10% 测试）。
- 需注意数据去重（重复网页可能影响模型性能）。
语言分布示例：

语言占比

英语 46%

俄语 6%

中文 4%

其他 44%
获取方式：通过 Common Crawl 官网下载 WARC 文件。

语言	占比
英语	46%
俄语	6%
中文	4%
其他	44%

3. BookCorpus

内容：未出版的英文小说书籍（涵盖多种体裁）。
规模：约 11,000 本书，总词数 9.8 亿。
用途：长文本生成、语言模型微调。
训练/测试分布：
- 公开版本（如 Hugging Face 的 bookcorpus）：默认无划分，建议按 9:1 随机分割。
- 原始版本因版权限制需申请访问权限。
示例使用：BERT 的预训练数据中，BookCorpus 占 25%（与 Wikipedia 组合使用）。
替代版本：
- Books3（包含 19 万本书，需通过 The Eye 下载）。
- Project Gutenberg 子集（公开版权书籍，可自由使用）。

4. Project Gutenberg

内容：版权过期的经典文学作品（含小说、诗歌、非虚构等）。
规模：60,000+ 本电子书（以英文为主，含部分其他语言）。
用途：文学风格分析、低资源语言模型训练。
训练/测试分布：
- 无官方划分，建议按作者或年代划分（如 19 世纪作品训练，20 世纪作品测试）。
- 可过滤特定领域（如科幻 vs 现实主义小说）。
获取方式：直接通过 Project Gutenberg 批量下载。

5. OpenWebText（补充推荐）

内容：Reddit 高赞帖子的外链网页文本（清洗后）。
规模：约 800 万文档，总词数 400 亿。
用途：GPT-2 等模型的训练数据。
训练/测试分布：
- 官方提供预分割版本，默认按 95% 训练 + 5% 测试。
特点：包含网络用语、非正式文本，贴近实际应用场景。

第四章情感分析任务：

1.MR (Movie Reviews)（重要）

任务：二分类（正/负面电影评论）
数据量：10,662条句子
分布：无固定划分，通常使用交叉验证或80%/20%随机分割。

2.CR (Customer Reviews)（重要）

任务：二分类（商品评论情感）
数据量：约4,000条评论
分布：无官方划分，常用交叉验证或随机分割。

3.SST (Stanford Sentiment Treebank)（重要）

任务：二分类（SST-2）或五分类（SST-5）
数据量：
- SST-2：67,349条（训练集 6,920，验证集 872，测试集 1,821）
- SST-5：11,855条（训练集 8,544，验证集 1,101，测试集 2,210）
分布：官方固定划分。

4.Tweet (Twitter Sentiment Analysis)

任务：三分类（正/负/中性）
数据量：约20,000条推文（如SemEval-2017）
分布：官方划分（训练集 10k，测试集 10k）。

第五章文本立场/主观性分类（Subjectivity/Stance）

1.SUBJ (Subjectivity Dataset)（重要）

任务：二分类（主观/客观句子）
数据量：10,000条句子
分布：通常按5k训练 + 5k测试划分。

2.MPQA (MPQA Opinion Corpus)（重要）

任务：二分类（观点极性）
数据量：10,606条句子
分布：无固定划分，常用交叉验证。

第六章问答与语义相似度（QA & Semantic Similarity）

1.TREC (TREC Question Classification)（重要）

任务：6分类或50分类（问题类型）
数据量：5,952条训练 + 500条测试
分布：官方固定划分。

2.MRPC (Microsoft Research Paraphrase Corpus)（重要）

任务：二分类（句子对是否语义等价）
数据量：5,801对（训练集） + 1,500对（测试集）
分布：官方划分，标签不均衡（约67%负样本）。

3.SS (Semantic Similarity)

任务：二分类（句子对是否语义相似）
数据量：依赖子集（如STS-B约8,628对）
分布：通常按训练/验证/测试划分。

第七章新闻与长文本分类（News & Long-Text）

1.AG (AG News)

任务：四分类（新闻类别）
数据量：127,600条（训练集 120k，测试集 7.6k）
分布：官方均衡划分（每类训练集30k，测试集1.9k）。

2.G-T (Gutenberg-Times Corpus)

任务：历史新闻分类
数据量：约10,000篇文档
分布：需按时间或主题自定义划分。

3.G-TS (Gutenberg-Times with Timestamps)

任务：时间敏感分类
数据量：同G-T，附带时间戳
分布：按时间划分（如1900年前后）。

第八章领域特定分类（Domain-Specific）

1.Bio (BioText)

任务：二分类（生物医学文献关联性）
数据量：约20,000条
分布：通常按80%/20%分割。

2.Go-S (Gene Ontology Sentences)

任务：多标签分类（基因功能）
数据量：约50,000条
分布：按文献时间自定义划分。

3.SO (Stack Overflow)

任务：多标签分类（代码问题标签）
数据量：约10,000,000条（常用子集50k）
分布：按时间或随机划分。

4.TC (Text Classification, 如新闻分类)

任务：多分类（如新闻类别）
分布：若为AG News，官方均衡划分（训练集 120k，测试集 7.6k）。

5.BS (可能为Bias Summarization或Book Summaries)

任务：需进一步明确（假设为摘要偏见检测）
分布：依赖具体数据集，通常按70%/30%划分。

第九章句法与语法分析

1.TreeD (Treebank Data, 如Penn Treebank)

任务：句法分析（依存/成分树解析）
分布：通常按章节划分（如PTB：训练集 2-21，验证集 22，测试集 23）。

2.Tense

任务：动词时态分类（过去/现在/未来等）
分布：需自定义划分（常见按80%/20%分割）。

3.CoordI (Coordination Identification)

任务：并列结构识别
分布：依赖具体语料库（如英文树库需自定义划分）。

第十章词汇与语义任务

1.WC (可能为Word Classification或Word Context)

任务：词汇分类（如词性标注）
分布：若为词性标注，常用树库划分（如PTB）。

2.SubjN/ObjN (Subjective/Object Nouns)

任务：主观性名词 vs. 客观性名词分类
分布：需自定义划分（类似SUBJ数据集）。

3.SOMO (可能为Semantic Orientation)

任务：词汇语义极性（正/负）
分布：通常按词典或语料库自定义划分。

第十一章、自然语言推理（NLI）

1. SNLI (Stanford NLI)（重点）

任务: 三分类（蕴含/矛盾/中立）
数据分布:
- 训练集: 549,367对
- 验证集: 9,842对
- 测试集: 9,824对
特点:
- 所有句子对基于图像描述生成，训练集与测试集领域一致。
- 测试集包含部分对抗样本（如词汇重叠但逻辑矛盾）。

2. MultiNLI

任务: 多领域三分类
数据分布:
- 训练集: 392,702对（覆盖10种文本类型，如小说、政府报告）
- 验证集: 9,815对（匹配领域） + 9,832对（不匹配领域）
- 测试集: 分两部分：
  - 匹配领域（20,000对，与训练集同领域）
  - 不匹配领域（20,000对，新领域如旅游指南）
特点:
- 测试集的“不匹配领域”用于评估模型跨领域泛化能力。

3. XNLI

任务: 跨语言三分类（15种语言）
数据分布:
- 训练集: 392,702对（仅英语，翻译为其他语言）
- 验证集: 2,490对/语言
- 测试集: 5,010对/语言
特点:
- 测试集包含低资源语言（如斯瓦希里语、乌尔都语），评估跨语言迁移能力。

NLP-数据集介绍（并不全，文本类介绍）

目录

第一章 STS（语义文本相似度） （重点）

一、SemEval STS 年度任务（2012-2017）

1. SemEval-2012 STS

2. SemEval-2013 STS

3. SemEval-2014 STS

4. SemEval-2015 STS

5. SemEval-2016 STS

6. SemEval-2017 STS

二、STS Benchmark（2017）

三、跨语言 STS（XSTS）

1. XSTS-2016

2. XLM-TSV

四、领域专用 STS 数据集

1. 医疗 STS（MedSTS）

2. 法律 STS（Legal-STS）

五、其他衍生数据集

1. SICK 数据集

2. MRPC（Microsoft Research Paraphrase Corpus）

第二章 文本聚类任务：

一、通用文本聚类数据集

1. 20 Newsgroups

2. Reuters-21578

3. Amazon Product Reviews

二、领域特定聚类数据集

1. BBC News

2. ArXiv论文摘要（CS子集）

3. COVID-19开放研究数据集

三、多语言聚类数据集

1. Multi-Domain Sentiment Dataset (MDSD)

2. THUCNews（中文）

四、聚类评估数据集（带真实标签）

第三章 无监督训练数据集：

1. Wikipedia 语料库（训练）

2. Common Crawl

3. BookCorpus

4. Project Gutenberg

5. OpenWebText（补充推荐）

第四章 情感分析任务：

1.MR (Movie Reviews)（重要）

2.CR (Customer Reviews)（重要）

3.SST (Stanford Sentiment Treebank)（重要）

4.Tweet (Twitter Sentiment Analysis)

第五章 文本立场/主观性分类（Subjectivity/Stance）

1.SUBJ (Subjectivity Dataset)（重要）

2.MPQA (MPQA Opinion Corpus)（重要）

第六章 问答与语义相似度（QA & Semantic Similarity）

1.TREC (TREC Question Classification)（重要）

2.MRPC (Microsoft Research Paraphrase Corpus)（重要）

3.SS (Semantic Similarity)

第七章 新闻与长文本分类（News & Long-Text）

1.AG (AG News)

2.G-T (Gutenberg-Times Corpus)

3.G-TS (Gutenberg-Times with Timestamps)

第八章 领域特定分类（Domain-Specific）

1.Bio (BioText)

2.Go-S (Gene Ontology Sentences)

3.SO (Stack Overflow)

4.TC (Text Classification, 如新闻分类)

5.BS (可能为Bias Summarization或Book Summaries)

第九章 句法与语法分析

1.TreeD (Treebank Data, 如Penn Treebank)

2.Tense

3.CoordI (Coordination Identification)

第十章 词汇与语义任务

1.WC (可能为Word Classification或Word Context)

2.SubjN/ObjN (Subjective/Object Nouns)

3.SOMO (可能为Semantic Orientation)

第十一章、自然语言推理（NLI）

1. SNLI (Stanford NLI)（重点）

2. MultiNLI

3. XNLI

网站公告

今日签到

热门文章

最新发布

第一章 STS（语义文本相似度）（重点）

第二章文本聚类任务：

第三章无监督训练数据集：

第四章情感分析任务：

第五章文本立场/主观性分类（Subjectivity/Stance）

第六章问答与语义相似度（QA & Semantic Similarity）

第七章新闻与长文本分类（News & Long-Text）

第八章领域特定分类（Domain-Specific）

第九章句法与语法分析

第十章词汇与语义任务