目录
- 第一章 STS(语义文本相似度) (重点)
-
- 一、SemEval STS 年度任务(2012-2017)
-
- 1. SemEval-2012 STS
- 2. SemEval-2013 STS
- 3. SemEval-2014 STS
- 4. SemEval-2015 STS
- 5. SemEval-2016 STS
- 6. SemEval-2017 STS
- 二、STS Benchmark(2017)
- 三、跨语言 STS(XSTS)
-
- 1. XSTS-2016
- 2. XLM-TSV
- 四、领域专用 STS 数据集
-
- 1. 医疗 STS(MedSTS)
- 2. 法律 STS(Legal-STS)
- 五、其他衍生数据集
-
- 1. SICK 数据集
- 2. MRPC(Microsoft Research Paraphrase Corpus)
- 第二章 文本聚类任务:
-
- 一、通用文本聚类数据集
-
- 1. 20 Newsgroups
- 2. Reuters-21578
- 3. Amazon Product Reviews
- 二、领域特定聚类数据集
-
- 1. BBC News
- 2. ArXiv论文摘要(CS子集)
- 3. COVID-19开放研究数据集
- 三、多语言聚类数据集
-
- 1. Multi-Domain Sentiment Dataset (MDSD)
- 2. THUCNews(中文)
- 四、聚类评估数据集(带真实标签)
- 第三章 无监督训练数据集:
-
-
- 1. Wikipedia 语料库(训练)
- 2. Common Crawl
- 3. BookCorpus
- 4. Project Gutenberg
- 5. OpenWebText(补充推荐)
-
- 第四章 情感分析任务:
-
-
- 1.MR (Movie Reviews)(重要)
- 2.CR (Customer Reviews)(重要)
- 3.SST (Stanford Sentiment Treebank)(重要)
- 4.Tweet (Twitter Sentiment Analysis)
-
- 第五章 文本立场/主观性分类(Subjectivity/Stance)
-
-
- 1.SUBJ (Subjectivity Dataset)(重要)
- 2.MPQA (MPQA Opinion Corpus)(重要)
-
- 第六章 问答与语义相似度(QA & Semantic Similarity)
-
-
- 1.TREC (TREC Question Classification)(重要)
- 2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
- 3.SS (Semantic Similarity)
-
- 第七章 新闻与长文本分类(News & Long-Text)
-
-
- 1.AG (AG News)
- 2.G-T (Gutenberg-Times Corpus)
- 3.G-TS (Gutenberg-Times with Timestamps)
-
- 第八章 领域特定分类(Domain-Specific)
-
-
- 1.Bio (BioText)
- 2.Go-S (Gene Ontology Sentences)
- 3.SO (Stack Overflow)
- 4.TC (Text Classification, 如新闻分类)
- 5.BS (可能为Bias Summarization或Book Summaries)
-
- 第九章 句法与语法分析
-
-
- 1.TreeD (Treebank Data, 如Penn Treebank)
- 2.Tense
- 3.CoordI (Coordination Identification)
-
- 第十章 词汇与语义任务
-
-
- 1.WC (可能为Word Classification或Word Context)
- 2.SubjN/ObjN (Subjective/Object Nouns)
- 3.SOMO (可能为Semantic Orientation)
-
- 第十一章、自然语言推理(NLI)
-
-
- 1. SNLI (Stanford NLI)(重点)
- 2. MultiNLI
- 3. XNLI
-
第一章 STS(语义文本相似度) (重点)
是自然语言处理中的核心任务,目标是衡量两个文本片段(句子或短语)在语义上的相似程度,输出范围为 0
(完全不相关)到 5
(完全等价)。
一、SemEval STS 年度任务(2012-2017)
每年任务通常包含 训练集(Train) 和 测试集(Test),部分年份提供 开发集(Dev)。以下是具体划分:
1. SemEval-2012 STS
- 训练集:无官方训练集(依赖外部数据或迁移学习)。
- 测试集:约 3,000 对句子(英语 + 西班牙语)。
- 领域:新闻标题、机器翻译输出。
- 语言:英语、西班牙语
- 特点:首次引入跨语言相似度任务。
2. SemEval-2013 STS
- 训练集:约 1,500 对句子(英语 + 西班牙语)。
- 测试集:约 2,000 对句子(新增阿拉伯语)。
- 领域:新闻、论坛讨论。
- 语言:英语、西班牙语、阿拉伯语
- 创新:增加阿拉伯语支持。
3. SemEval-2014 STS
- 训练集:约 4,500 对句子(英语 + 西班牙语)。
- 测试集:约 3,750 对句子(含图像描述对)。
- 领域:新闻标题、Flickr30K 图像描述。
- 语言:英语、西班牙语
- 亮点:引入图像描述对(文本-图像跨模态关联)。
4. SemEval-2015 STS
- 训练集:约 8,000 对句子(英语 + 西班牙语)。
- 测试集:约 1,000 对句子。
- 领域:新闻、论坛、问答对。
- 语言:英语、西班牙语
- 数据量:约 9,000 对句子(含训练集和测试集)。
5. SemEval-2016 STS
- 训练集:约 6,000 对句子(英语 + 阿拉伯语)。
- 测试集:约 1,200 对句子。
- 领域:新闻标题、学术文本。
- 语言:英语、阿拉伯语
- 挑战:处理复杂句式(如否定、比喻)。
6. SemEval-2017 STS
- 训练集:约 5,000 对句子(英语 + 西班牙语 + 阿拉伯语)。
- 测试集:约 1,500 对句子。
- 语言:英语、西班牙语、阿拉伯语
- 领域:新闻、社交媒体、问答对
- 遗产:成为后续研究的基准参考。
二、STS Benchmark(2017)
- 训练集:5,499 对句子(来自 SemEval 2012-2016 的混合数据)。
- 开发集:500 对句子(用于调参)。
- 测试集:1,379 对句子(来自 SemEval 2017)。
- 评分范围:0-5 分(连续值)。
- 用途:BERT、RoBERTa 等模型的通用评估基准。
- 定位:标准化评估集(非年度任务)
- 数据量:5,749 对句子(训练集 5,499 / 开发集 500 / 测试集 1,379)
- 领域:新闻标题、论坛讨论、图像描述、问答对
三、跨语言 STS(XSTS)
1. XSTS-2016
- 训练集:3,000 对句子(英语-西班牙语对齐)。
- 测试集:1,000 对句子。
- 评分:人工标注 0-5 分。
- 任务目标:跨语言语义相似度(如英语-西班牙语)
- 语言:英语-西班牙语对齐句子对。
- 应用:评估跨语言嵌入模型(如 LASER、mBERT)。
2. XLM-TSV
- 训练集:50,000 对句子(多语言混合)。
- 测试集:10,000 对句子(覆盖 15 种语言)。
- 特点:自动生成 + 人工修正。
- 语言:多语言扩展(英语、德语、法语等)
四、领域专用 STS 数据集
1. 医疗 STS(MedSTS)
- 训练集:800 对临床文本。
- 测试集:200 对句子。
- 评分:医生标注 0-5 分。
- 领域:临床文本
- 数据量:约 1,000 对句子
2. 法律 STS(Legal-STS)
- 训练集:600 对法律条款。
- 测试集:200 对句子。
- 挑战:长文本(平均 50 词/句)。
- 领域:法律条款、合同
- 数据量:约 800 对句子
- 挑战:专业术语和长文本匹配。
五、其他衍生数据集
1. SICK 数据集
- 训练集:4,500 对句子。
- 开发集:500 对句子。
- 测试集:4,927 对句子。
- 标签:语义关联度(1-5 分) + 关系标签(蕴含/矛盾/中立)。
- 领域:常识推理
- 数据量:10,000 对句子
- 特点:包含语义关联、矛盾、中立标签。
2. MRPC(Microsoft Research Paraphrase Corpus)
- 训练集:4,076 对句子。
- 测试集:1,725 对句子。
- 标签:二分类(1=复述,0=非复述)。
- 任务:二分类(是否为复述)
- 数据量:5,800 对句子
- 用途:复述检测基准(STS 的简化版)。
第二章 文本聚类任务:
一、通用文本聚类数据集
1. 20 Newsgroups
内容:约20,000篇新闻组文档,分为20个主题(如计算机、宗教、体育等)。
特点:主题明确,适合验证聚类算法对粗粒度类别的区分能力。
官方划分:
- 训练集:11,314篇(按日期早于测试集的文档划分)。
- 测试集:7,532篇。
类别分布:每个类别在训练集和测试集中均匀分布(约600-700篇/类)。
注意事项:实际聚类任务中通常合并全部数据(无监督学习),但可用测试集标签评估聚类效果。
获取:
通过:
scikit-learn
直接加载:
from sklearn.datasets import fetch_20newsgroups data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
2. Reuters-21578
内容:路透社新闻文档,包含90个类别(如金融、贸易、农业)。
特点:部分文档有多个标签,适合多类别聚类或层次聚类。
获取:通过 Kaggle 或
nltk.corpus.reuters
下载。常用划分(ModApte Split):
- 训练集:7,769篇(仅包含至少被标注1个类别的文档)。
- 测试集:3,019篇。
类别分布:高度不均衡(如
earn
类占40%+),需注意长尾问题。获取代码
from nltk.corpus import reuters train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769] # 示例筛选
3. Amazon Product Reviews
- 内容:亚马逊商品评论,包含评分(1-5星)和产品类别(如电子产品、图书)。
- 特点:适合情感聚类(如正向/负向评论)或跨品类聚类。
- 获取:Amazon Review Data (2018)(需遵守使用协议)。
- 无官方划分:需自定义(如按时间划分或随机采样)。
- 建议比例:
- 训练集:80%(用于生成嵌入或特征)。
- 测试集:20%(评估聚类泛化性,需保留真实标签)。
- 领域适应:可跨品类划分(如训练集用电子产品,测试集用图书评论)。
二、领域特定聚类数据集
1. BBC News
- 内容:2,225篇BBC新闻文章,分为5类(商业、娱乐、政治、体育、科技)。
- 特点:短文本,类别平衡,适合小规模聚类实验。
- 获取:Kaggle链接。
- 官方划分:无固定划分,需随机分割。
- 典型用法:
- 训练集:1,600篇(80%)。
- 测试集:400篇(20%)。
- 类别平衡:每类约320-400篇(训练集),80-100篇(测试集)。
2. ArXiv论文摘要(CS子集)
- 内容:计算机科学领域的论文摘要,可自定义类别(如AI、数据库、算法)。
- 特点:学术长文本,适合主题建模与细粒度聚类。
- 获取:通过 arXiv API 爬取或使用预处理的 Hugging Face Datasets。
- 时间划分:按论文发表年份划分(如2010-2018为训练集,2019-2020为测试集)。
- 动态主题挑战:测试集可能包含新术语(如“GPT-4”),考验聚类模型泛化能力。
3. COVID-19开放研究数据集
- 内容:医学论文摘要,涉及病毒传播、疫苗研发等主题。
- 特点:专业术语多,适合领域自适应聚类。
- 获取:CORD-19 Dataset。
- 划分建议:按研究主题(如训练集含“病毒传播”,测试集含“疫苗副作用”)。
- 数据量:约400,000篇(持续更新),需过滤低质量文本。
三、多语言聚类数据集
1. Multi-Domain Sentiment Dataset (MDSD)
- 内容:商品评论(英文、德文、法文),包含4个领域(图书、DVD、电子产品、厨房用品)。
- 特点:跨语言与跨领域聚类任务。
- 获取:MDSD官网。
- 官方划分:按语言和领域独立划分(如英文电子产品评论为训练集,法文图书评论为测试集)。
- 跨语言聚类:需对齐不同语言的嵌入空间(如用LASER或mBERT)。
2. THUCNews(中文)
- 内容:新浪新闻分类数据,14个类别(财经、房产、教育等),共74万篇。
- 特点:大规模中文长文本,需自行划分训练/测试集。
- 获取:THUCTC工具包 或 Hugging Face。
- 官方划分:
- 训练集:65万篇。
- 测试集:9万篇。
- 类别分布:均匀分布(每类约4.6万篇训练,6,000篇测试)。
四、聚类评估数据集(带真实标签)
数据集名称 | 文本类型 | 类别数 | 用途 |
---|---|---|---|
Iris | 结构化特征 | 3 | 基础聚类算法验证 |
MNIST | 手写数字图像 | 10 | 跨模态聚类(需文本化) |
AG News | 新闻标题 | 4 | 短文本聚类效果对比 |
StackOverflow | 技术问答 | 20 | 长文本与标签稀疏性测试 |
第三章 无监督训练数据集:
1. Wikipedia 语料库(训练)
- 内容:多语言维基百科全文(含元数据如页面标题、链接等)。
- 规模:英文版约 40 亿词,中文版约 10 亿词(2023 年数据)。
- 用途:BERT、GPT 等模型的预训练基础语料。
- 训练/测试分布:
- 无官方划分,通常按时间切分(如用 2020 年前数据训练,2021 年后数据测试)。
- 部分研究采用随机抽取 1-5% 作为验证集(如 BERT 训练时)。
- 获取方式:通过 Wikimedia Dumps 按需下载特定语言版本。
2. Common Crawl
内容:互联网网页抓取的原始文本(含 HTML 标签,需清洗)。
规模:每月新增约 200TB 原始数据,覆盖 100+ 种语言。
用途:训练超大规模模型(如 GPT-3、T5)。
训练/测试分布:
- 无官方划分,通常按时间或域名划分(如 90% 训练 + 10% 测试)。
- 需注意数据去重(重复网页可能影响模型性能)。
语言分布示例:
语言 占比 英语 46% 俄语 6% 中文 4% 其他 44% 获取方式:通过 Common Crawl 官网 下载 WARC 文件。
3. BookCorpus
- 内容:未出版的英文小说书籍(涵盖多种体裁)。
- 规模:约 11,000 本书,总词数 9.8 亿。
- 用途:长文本生成、语言模型微调。
- 训练/测试分布:
- 公开版本(如 Hugging Face 的
bookcorpus
):默认无划分,建议按 9:1 随机分割。 - 原始版本因版权限制需申请访问权限。
- 公开版本(如 Hugging Face 的
- 示例使用:BERT 的预训练数据中,BookCorpus 占 25%(与 Wikipedia 组合使用)。
- 替代版本:
- Books3(包含 19 万本书,需通过 The Eye 下载)。
- Project Gutenberg 子集(公开版权书籍,可自由使用)。
4. Project Gutenberg
- 内容:版权过期的经典文学作品(含小说、诗歌、非虚构等)。
- 规模:60,000+ 本电子书(以英文为主,含部分其他语言)。
- 用途:文学风格分析、低资源语言模型训练。
- 训练/测试分布:
- 无官方划分,建议按作者或年代划分(如 19 世纪作品训练,20 世纪作品测试)。
- 可过滤特定领域(如科幻 vs 现实主义小说)。
- 获取方式:直接通过 Project Gutenberg 批量下载。
5. OpenWebText(补充推荐)
- 内容:Reddit 高赞帖子的外链网页文本(清洗后)。
- 规模:约 800 万文档,总词数 400 亿。
- 用途:GPT-2 等模型的训练数据。
- 训练/测试分布:
- 官方提供 预分割版本,默认按 95% 训练 + 5% 测试。
- 特点:包含网络用语、非正式文本,贴近实际应用场景。
第四章 情感分析任务:
1.MR (Movie Reviews)(重要)
- 任务:二分类(正/负面电影评论)
- 数据量:10,662条句子
- 分布:无固定划分,通常使用交叉验证或80%/20%随机分割。
2.CR (Customer Reviews)(重要)
- 任务:二分类(商品评论情感)
- 数据量:约4,000条评论
- 分布:无官方划分,常用交叉验证或随机分割。
3.SST (Stanford Sentiment Treebank)(重要)
- 任务:二分类(SST-2)或五分类(SST-5)
- 数据量:
- SST-2:67,349条(训练集 6,920,验证集 872,测试集 1,821)
- SST-5:11,855条(训练集 8,544,验证集 1,101,测试集 2,210)
- 分布:官方固定划分。
4.Tweet (Twitter Sentiment Analysis)
- 任务:三分类(正/负/中性)
- 数据量:约20,000条推文(如SemEval-2017)
- 分布:官方划分(训练集 10k,测试集 10k)。
第五章 文本立场/主观性分类(Subjectivity/Stance)
1.SUBJ (Subjectivity Dataset)(重要)
- 任务:二分类(主观/客观句子)
- 数据量:10,000条句子
- 分布:通常按5k训练 + 5k测试划分。
2.MPQA (MPQA Opinion Corpus)(重要)
- 任务:二分类(观点极性)
- 数据量:10,606条句子
- 分布:无固定划分,常用交叉验证。
第六章 问答与语义相似度(QA & Semantic Similarity)
1.TREC (TREC Question Classification)(重要)
- 任务:6分类或50分类(问题类型)
- 数据量:5,952条训练 + 500条测试
- 分布:官方固定划分。
2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
- 任务:二分类(句子对是否语义等价)
- 数据量:5,801对(训练集) + 1,500对(测试集)
- 分布:官方划分,标签不均衡(约67%负样本)。
3.SS (Semantic Similarity)
- 任务:二分类(句子对是否语义相似)
- 数据量:依赖子集(如STS-B约8,628对)
- 分布:通常按训练/验证/测试划分。
第七章 新闻与长文本分类(News & Long-Text)
1.AG (AG News)
- 任务:四分类(新闻类别)
- 数据量:127,600条(训练集 120k,测试集 7.6k)
- 分布:官方均衡划分(每类训练集30k,测试集1.9k)。
2.G-T (Gutenberg-Times Corpus)
- 任务:历史新闻分类
- 数据量:约10,000篇文档
- 分布:需按时间或主题自定义划分。
3.G-TS (Gutenberg-Times with Timestamps)
- 任务:时间敏感分类
- 数据量:同G-T,附带时间戳
- 分布:按时间划分(如1900年前后)。
第八章 领域特定分类(Domain-Specific)
1.Bio (BioText)
- 任务:二分类(生物医学文献关联性)
- 数据量:约20,000条
- 分布:通常按80%/20%分割。
2.Go-S (Gene Ontology Sentences)
- 任务:多标签分类(基因功能)
- 数据量:约50,000条
- 分布:按文献时间自定义划分。
3.SO (Stack Overflow)
- 任务:多标签分类(代码问题标签)
- 数据量:约10,000,000条(常用子集50k)
- 分布:按时间或随机划分。
4.TC (Text Classification, 如新闻分类)
- 任务:多分类(如新闻类别)
- 分布:若为AG News,官方均衡划分(训练集 120k,测试集 7.6k)。
5.BS (可能为Bias Summarization或Book Summaries)
- 任务:需进一步明确(假设为摘要偏见检测)
- 分布:依赖具体数据集,通常按70%/30%划分。
第九章 句法与语法分析
1.TreeD (Treebank Data, 如Penn Treebank)
- 任务:句法分析(依存/成分树解析)
- 分布:通常按章节划分(如PTB:训练集 2-21,验证集 22,测试集 23)。
2.Tense
- 任务:动词时态分类(过去/现在/未来等)
- 分布:需自定义划分(常见按80%/20%分割)。
3.CoordI (Coordination Identification)
- 任务:并列结构识别
- 分布:依赖具体语料库(如英文树库需自定义划分)。
第十章 词汇与语义任务
1.WC (可能为Word Classification或Word Context)
- 任务:词汇分类(如词性标注)
- 分布:若为词性标注,常用树库划分(如PTB)。
2.SubjN/ObjN (Subjective/Object Nouns)
- 任务:主观性名词 vs. 客观性名词分类
- 分布:需自定义划分(类似SUBJ数据集)。
3.SOMO (可能为Semantic Orientation)
- 任务:词汇语义极性(正/负)
- 分布:通常按词典或语料库自定义划分。
第十一章、自然语言推理(NLI)
1. SNLI (Stanford NLI)(重点)
- 任务: 三分类(蕴含/矛盾/中立)
- 数据分布:
- 训练集: 549,367对
- 验证集: 9,842对
- 测试集: 9,824对
- 特点:
- 所有句子对基于图像描述生成,训练集与测试集领域一致。
- 测试集包含部分对抗样本(如词汇重叠但逻辑矛盾)。
2. MultiNLI
- 任务: 多领域三分类
- 数据分布:
- 训练集: 392,702对(覆盖10种文本类型,如小说、政府报告)
- 验证集: 9,815对(匹配领域) + 9,832对(不匹配领域)
- 测试集: 分两部分:
- 匹配领域(20,000对,与训练集同领域)
- 不匹配领域(20,000对,新领域如旅游指南)
- 特点:
- 测试集的“不匹配领域”用于评估模型跨领域泛化能力。
3. XNLI
- 任务: 跨语言三分类(15种语言)
- 数据分布:
- 训练集: 392,702对(仅英语,翻译为其他语言)
- 验证集: 2,490对/语言
- 测试集: 5,010对/语言
- 特点:
- 测试集包含低资源语言(如斯瓦希里语、乌尔都语),评估跨语言迁移能力。