【PaddleOCR】OCR表格识别数据集介绍，包含PubTabNet、好未来表格识别、WTW中文场景表格等数据，持续更新中......

发布于：2025-07-06 ⋅ 阅读:(365) ⋅ 点赞:(0)

🧑 博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）

💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份，助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本，送真活跃粉丝，助你提升文章热度。有兴趣的加文末联系方式，备注自己的CSDN昵称，拉你进群，互相学习共同进步。

在这里插入图片描述

【PaddleOCR】OCR表格识别数据集介绍，包含PubTabNet、好未来表格识别、WTW中文场景表格等数据，持续更新中......

这里整理了常用表格识别数据集，持续更新中，欢迎各位小伙伴贡献数据集～

数据集汇总

数据集名称	图片下载地址	PPOCR标注下载地址
PubTabNet	https://github.com/ibm-aur-nlp/PubTabNet	jsonl格式，可直接用pubtab_dataset.py加载
好未来表格识别竞赛数据集	https://ai.100tal.com/dataset	jsonl格式，可直接用pubtab_dataset.py加载
WTW中文场景表格数据集	https://github.com/wangwen-whu/WTW-Dataset	需要进行转换后才能用pubtab_dataset.py加载