计算机视觉技术底层原理说明文档(上篇):基础与图像处理

计算机视觉技术底层原理说明文档(上篇):基础与图像处理 文档摘要本文档旨在构建完整的 AI 视觉计算机视觉基础知识体系。上篇主要聚焦于计算机视觉的本质、两大核心分类任务目标检测与测距以及传统图像处理技术中机器如何从像素级别“看懂”一张图像的完整生命周期。模块一计算机视觉CV的基础概念1. 核心技术本质计算机视觉的基础处理单元是图像Image。对于计算机系统而言并不存在真实的“动态连续视频”这一物理介质所谓的视频识别系统本质上是对连续输入的多帧图像进行高频、快速的“逐帧分析与检测”例如 30fps 即每秒处理30张独立的图像帧。2. 视觉任务的两大核心主线在工业与消费级应用中视觉任务主要解决两大物理空间问题目标检测与识别 (Object Detection Recognition)提取图像特征解决对象“是什么分类”以及“在哪里空间坐标定位”的问题。图像测距与深度估计 (Depth Estimation)在二维的图像矩阵中推算目标对象与镜头或真实世界基准点的三维物理距离。通俗原理解释AI 看视频就像人在看高频翻页的连环画或定格动画。赋予 AI 视觉能力核心就是教会它回答两个基础问题“画面前面出现的是什么东西” 以及 “这个东西离我的镜头有多远”模块二图像测距底层几何原理机器只认识二维矩阵里的像素点从二维推算三维深度的常见工程方案分为以下两类1. 双目测距立体视觉 Stereo Vision硬件结构依赖两个处于同一水平基准线的独立摄像头模拟人类双眼。物理现象视差当左右两个镜头同时拍摄同一个物体时由于观测夹角的不同同一个物体在左图和右图的像素坐标中会产生偏移量这种偏移被称为“视差 (Disparity)”。计算模型将两个摄像头之间的固定物理距离作为几何中的“基线 (Baseline)”结合镜头的焦距参数利用三角定位几何模型和相似三角形公式精确计算出物体到镜头的绝对直线距离。2. 单目测距透视求距 Monocular Vision硬件结构依赖单个具备高精度传感器的独立摄像头。计算模型通过控制摄像头在空间中旋转特定角度或进行已知规律的自我位移。机器通过对比同一个物体在不同视角或不同距离下“成像尺寸的大小变化比例”结合透视原理推算距离。技术局限受制于缺少另一个视角的物理参照物其测距容易受外界光照、物体自身变化以及传感器精度的影响。通常这种方案被应用于100米范围以内的中近场测距。模块三机器识别图像的底层四步解析在深度学习网络广泛应用之前亦或是在要求极高精度的工业缺陷检测如医学影像、微米级瑕疵检测中计算机从输入图片到认出目标的底层逻辑必须经过一段由浅入深的图形学演算过程。这是传统极客采用 OpenCV 库操作的核心步骤一边缘检测 (Edge Detection)计算逻辑计算机系统遍历每一个像素点及其周围的邻居计算它们之间的RGB 变化梯度或灰度明暗差异。利用求导或梯度算子如 Sobel 算子找出颜色差异发生“断崖式突变”的位置从而勾勒出不同物体的初步线稿轮廓。步骤二图片归一化与颜色简化 (Normalization Binarization)计算逻辑现实世界的色彩极其复杂包含光斑、阴影、渐变色会大规模消耗显卡的并行计算算力。为了实现降维算法通常会将图片转化为灰度图或者进一步使用特定的阈值算法Thresholding将图片强行转换为纯黑与纯白的二值化矩阵形剥离不必要的彩色数据。步骤三边缘平滑与形态修补 (Edge Smoothing / Morphology)计算逻辑经过初步提取的图像边缘在像素级别通常会表现出剧烈的锯齿、断裂以及周围散落的噪点。此时需引入特定的数学工具如高斯平滑滤波算法去噪并通过形态学中的“膨胀与腐蚀”算法把断开的边界连接上把毛刺消除掉最终得到干净、圆滑且闭合的几何边界。步骤四特征提取与综合匹配 (Feature Extraction Matching)计算逻辑针对简单几何体由于边界已经闭合且平滑可直接代入面积、周长、多边形参数等数学公式进行对比识别。针对复杂物体如人脸、车辆车辆单一的轮廓已无法满足。此时需要利用角点检测等算法提取图像内部不可改变的海量关键特征点例如人脸的双眼眼角间距、鼻梁弯曲度、嘴角特定弧度坐标等进行大规模的多维度空间向量匹配。通俗原理解释机器从图片里认出一个人就像学画画的过程。先抓“色差”画出大体轮廓和线稿边缘检测觉得渐变色计算太消耗脑力直接用大号黑色墨水只留黑白两色颜色简化/二值化用橡皮擦涂改掉边缘乱七八糟的杂线让轮廓变得清晰圆润滤波与平滑去噪重点提取眼睛、鼻子这些独一无二的局部特征点跟脑海里的记忆比对从而判断出这个人是谁。