CV-2020-笔记:01 介绍

发布于:2023-03-27 ⋅ 阅读:(286) ⋅ 点赞:(0)

CV-2020-笔记:01 介绍

计算机视觉课程学习笔记

教材:Computer Vision: Algorithms and Applications, 2010

“What I cannot create, I do not understand.”—— Richard Feynman

1. 课程简要

计算机视觉与图像处理

  • 图像处理(image processing):学习的是从图像到图像的转换,输入输出均是图像(如图像压缩、图像增强等)。
  • 计算机视觉(computer vision):从图像中得出显式的、有意义的描述,输入为图像,输出则是对场景的描述、解释或定量测量。
  • 图像处理模式识别计算机视觉实现其目标的技术

相关的知识领域

  • 基础知识:集合理论、代数、统计学、优化理论、编程技术、算法...
  • 相关知识:计算机图形学、数字图像处理、计算摄影、机器学习、模式识别、视觉计算...

2. 计算机视觉介绍

什么是计算机视觉(computer vision)

  • 感性认知

    • 使用计算机软硬件对人类视觉进行建模复制
    • 知道是可以解决的,但不知道如何很好地解决;
    • 为解决此问题,必须回答关于人类智能核心表示和计算的问题。
  • 工程认知

    • 构建一个具有能解决普遍视觉问题的知识库(knowledge given warehouse)和强力算法(powerful algorithms)的计算机视觉系统
    • 数学抽象:就是求$W^*$

      $$ \begin{aligned} W^*&=\arg\max_{W\in\Omega}p(W|I)\\ &=\arg\max_{W\in\Omega}p(I|W)p(W) \end{aligned} $$

      • 通过贝叶斯将后验计算变为似然和先验计算。
  • 目标:构造出能够解释图像(interpret images)的程序。

    • 计算机难于完成进行规划的任务(即得到数据后”该干什么“,action)

计算机视觉的方法、研究

  • 启发式算法(Heuristic):混合多种低级的算法。
  • 能量最小化方法(Energy Function Minization):假设启发式方法正确并存在优化准则,通过能量函数最小化来求解。
  • 贝叶斯方法(Bayesian Method):将规则转换为先验;给出能量函数;明确假设和先验知识。
  • 表达、模型、学习问题:

    • 表达 Representational:即$W$是什么(如有多少变量);
    • 模型 Modeling:即$p(W)$是什么,如何计算概率;
    • 学习 Learning:即$p(I|W)$是什么,如何计算似然。
  • 计算、实现算法:分析搜索空间,设计算法,计算并保留歧义。
  • 实现问题:软件模拟、并行程序、视觉片

表达与计算

  • 符号表达

    • $\omega$:对场景、世界中物体、关系的描述;
    • $p(\omega)$:先验概率,有时仅是惩罚项(penalty item);
    • $p(I|\omega)$:似然。
  • 计算

    • 复杂的解空间,通常是离散和连续变量组成的混合空间;
    • 考虑如何遍历这个复杂的空间;

视觉任务 Vision Task

  • 视觉任务:如分割、检测、识别、解析、渲染、学习等。
  • 图像形成:相机、光照、颜色等(计算机视觉与人类视觉系统的对比)
  • 人类视觉的短处:会被欺骗、受认知的影响、全局认知,视觉是一个病态问题(vision is ill-posed)
  • 贝叶斯推理 (Bayesian Inference):在很多的可能性中,用统计的方法,选择可能性最大的一项作为输出。

视觉任务的挑战

  • Seeing Machine

    • 输入:图像
    • 输出:认知结果的表述(shape)、简单的输出(标签)、决策行为
    • 映射:如统计方法
    • 计算:算法
  • 基础问题

    • 输入空间是高维的(high/infinite dimensional)
    • 形状建模(Modeling of shape,如何对认知结果描述)
    • 映射是非线性
    • 小样本进行泛化
    • 有限的内存和计算时间(如嵌入式平台的模型压缩)
  • 基本挑战:计算效率、统计最优映射

    • 最优映射无法到达 (Kolmogorov)
    • 工程问题,逼近
  • 期望属性:

    • 泛化 generalization
    • 通用性 universality:容易迁移
    • 快速的收敛性 fast convergence
  • 具体的挑战:

    • 图像的测度:尺度空间(Scale-space)、独立成分分析、图像几何信息(Geometry of images)
    • 通用的模型表达:傅立叶描述子(Fourier descritors)、Landmark Representations、中轴模型(Medial models)、水平集(Level sets)
    • 信息压缩:降维(池化)、特征提取选择、AdaBoost方式

3. 计算机视觉的应用和前置知识

计算机视觉的应用

  • GIS遥感、机器人自动导航、质量控制、车牌提取、监控、医学影像、图像视频检测等等。

计算机视觉的前置知识

  • 采样(Sampling)和量化(quantization)
  • 傅立叶变换(Fourier Transform)
  • 图像处理(image processing)
计算机视觉 start~

网站公告

今日签到

点亮在社区的每一天
去签到