#CV 导论
Task - Object Detection & Instance Segmentation
Object Detection 上一个 Vision 时代(前 Transformer?)解决得最好的问题:人脸识别、目标检测、实例分割 我们首先明确: Object Detection 的目标是输出一个 bounding box+class Instance Segmentation 的目标是输
CV 导论
CV 导论的全部课程笔记
CV 导论 - Overview
Introduction 什么是 Vision? Sensation - Processing - Perception - Cognition, 包括神经/识别的 Perception 是更重要的部分 Visuomotor coordination Vision 是 Modality 中较重要的一
Sequential Data II - RNN, LSTM, Naive Attention
Vanilla RNN Sequential data \displaystyle \{x_{k}\} 方法的两个能力: fitting (learning pattern) generation Character-Level RNN Chunk Too deep 从上次结束的地方继续开始:RNN
3D Vision III & Sequential Data I - PointNet, 3D Conv, RNN
PointNet++ Quiz: PointNet 和 Conv 谁的 capacity 更强? PointNet 把 ball 里面每一个点等而视之,丢失了relative coord的信息;Conv就没有,相当于在视野里 PointNet 对每个像素做了相同的 MLP,Conv 做了不同的 ML
3D Vision II - 3D Representations, Point Cloud Sampling, PointNet
Depth Image Review 上节我们已经讲了Depth Image+\displaystyle K,R,T才是真3D,单独的 z depth 不能表示世界坐标系里的距离信息——当你指出图中的这个点 \displaystyle (u,v) 的 z depth 或者 ray depth 是 \
3D Vision I - 3D Data, Camera Model, Calibration
我们很早地开始讲 3D Vision 是因为要引入多模态 modality 3D Data 我们把3d representation分成implicit隐式立体和explicit显式立体 implict:例如双目视觉通过双眼视角差产生立体视觉就是隐式3d,并不精确,是相对感知;为什么相对感知能完成生
Deep Learning V - VGG, ResNet, UNet
VGGNet 相比 AlexNet 有很好的涨点,特征是: Small filters (3x3 Conv kernel) Deeper networks (16-19 layers) 为什么小的 filter 能够带来更好的效果? Receptive Field 感受野 像这样3次 3x3 Con
Deep Learning IV - Batch Norm, ResNet, 过拟合的 tricks 和多分类问题
这是 2025 春 计算机视觉导论的笔记 Todo: 内容杂乱无章,十分愚蠢,或许未来会润色语言使它便于阅读 Underfitting Underfitting 模型在training set上都不好 原因:注意dataloader很容易有bug,别搞X.shuffle, Y.shuffle这种事情
Deep Learning III - Preprocess, Initialization, Optimizer, Learning Rate
这是 2025 春 计算机视觉导论的笔记 Todo: 内容杂乱无章,十分愚蠢,或许未来会润色语言使它便于阅读 本节聚焦 Training 的细节和努力减小 Training 和 Test 之间的 Gap CNN Training Mini-batch SGD:For loop Sample:Shuf