【PaddleOCR】垂类多语言OCR数据集介绍,包含中国城市车牌、银行信用卡、验证码和多语言等数据集,持续更新中......

发布于:2025-07-05 ⋅ 阅读:(21) ⋅ 点赞:(0)

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【PaddleOCR】垂类多语言OCR数据集介绍,包含中国城市车牌、银行信用卡、验证码和多语言等数据集,持续更新中......

这里整理了常用垂类和多语言OCR数据集,持续更新中,欢迎各位小伙伴贡献数据集~

一、中国城市车牌数据集

  • 数据来源CCPD
  • 数据简介: 包含超过25万张中国城市车牌图片及车牌检测、识别信息的标注。包含以下几种不同场景中的车牌图片信息。
    • CCPD-Base: 通用车牌图片

    • CCPD-DB: 车牌区域亮度较亮、较暗或者不均匀

    • CCPD-FN: 车牌离摄像头拍摄位置相对更远或者更近

    • CCPD-Rotate: 车牌包含旋转(水平20~50度,竖直-10~10度)

    • CCPD-Tilt: 车牌包含旋转(水平15~45度,竖直15~45度)

    • CCPD-Blur: 车牌包含由于摄像机镜头抖动导致的模糊情况

    • CCPD-Weather: 车牌在雨天、雪天或者雾天拍摄得到

    • CCPD-Challenge: 至今在车牌检测识别任务中最有挑战性的一些图片

    • CCPD-NP: 没有安装车牌的新车图片。

      在这里插入图片描述

二、银行信用卡数据集

  • 数据来源: source

  • 数据简介: 训练数据共提供了三类数据

    • 1.招行样卡数据: 包括卡面图片数据及标注数据,总共618张图片

    • 2.单字符数据: 包括图片及标注数据,总共37张图片。

    • 3.仅包含其他银行卡面,不具有更细致的信息,总共50张图片。

    • demo图片展示如下,标注信息存储在excel表格中,下面的demo图片标注为

      • 前8位卡号:62257583
      • 卡片种类:本行卡
      • 有效期结束:07/41
      • 卡用户拼音:MICHAEL

    在这里插入图片描述

三、验证码数据集-Captcha

  • 数据来源: captcha

  • 数据简介: 这是一个数据合成的工具包,可以根据输入的文本,输出验证码图片,使用该工具包生成几张demo图片如下:

    在这里插入图片描述

四、多语言数据集(Multi-lingual scene text detection and recognition)

  • 数据来源: source
  • 数据简介: 多语言检测数据集MLT同时包含了语种识别和检测任务。
    • 在检测任务中,训练集包含10000张图片,共有10种语言,每种语言包含1000张训练图片。测试集包含10000张图片。
    • 在识别任务中,训练集包含111998个样本。
  • 下载地址: 训练集较大,分2部分下载,需要在网站上注册之后才能下载:
    link

网站公告

今日签到

点亮在社区的每一天
去签到