【吴恩达机器学习-笔记整理】OCR,滑动窗口,数据扩增,上限分析,计算机视觉

发布于:2023-01-05 ⋅ 阅读:(290) ⋅ 点赞:(0)

🌵🌵🌵前言

✨你好啊,我是“ 怪& ”,是一名在校大学生哦。
🌍主页链接:怪&的个人博客主页
☀️博文主更方向为:课程学习知识、作业题解、期末备考。随着专业的深入会越来越广哦…一起期待。
❤️一个“不想让我曾没有做好的也成为你的遗憾”的博主。
💪很高兴与你相遇,一起加油!

一、什么是OCR

照片光学字符识别

步骤
  • 文字检测
  • 字符分割
  • 字符分类

请添加图片描述

二、滑动窗口

以较简单的人行检测为例

切割出小块后,然后用放大算子(将较近区域连接起来,即关联部分)

请添加图片描述

切割出人区域

请添加图片描述

文字检测:

请添加图片描述

请添加图片描述

字符分割

请添加图片描述

三、获取大量数据和人工数据

得到高性能机器学习系统的方法,使用一个低偏差机器学习算法,并且使用庞大的训练集去训练它

人工数据合成

(1)、自己创造数据
(2)、扩充已有的小的标签训练集

用不同的字体库生成字符
请添加图片描述

添加有意义的失真
例如此处的扭曲,现实中可能发生

请添加图片描述
请添加图片描述

音频加噪声扩增:

请添加图片描述

机器学习问题必做:

1、用学习曲线做一个合理检验:查看更多的数据是否真的有用
2、大概需要花多少时间,去获得10倍于当前拥有的数据

请添加图片描述

四、天花板分析:下一步工作的pipeline

上限分析的内容

请添加图片描述

红对勾:人为遍历测试集,直接给出答案,看相应的准确率
数据是依次人为做到准确识别
通过上限分析,我们知道哪一模块需要(当前模块之前都是准确操作,查看该模块是否是准确操作的准确率的变化)

请添加图片描述

请添加图片描述

❤️❤️❤️忙碌的敲代码也不要忘了浪漫鸭!


网站公告

今日签到

点亮在社区的每一天
去签到