Avatar
Saucejiang
Task - Object Detection & Instance Segmentation
Object Detection 上一个 Vision 时代(前 Transformer?)解决得最好的问题:人脸识别、目标检测、实例分割 我们首先明确: Object Detection 的目标是输出一个 bounding box+class Instance Segmentation 的目标是输
CV 导论
CV 导论的全部课程笔记
CV 导论 - Overview
Introduction 什么是 Vision? Sensation - Processing - Perception - Cognition, 包括神经/识别的 Perception 是更重要的部分 Visuomotor coordination Vision 是 Modality 中较重要的一
Sequential Data II - RNN, LSTM, Naive Attention
Vanilla RNN Sequential data \displaystyle \{x_{k}\} 方法的两个能力: fitting (learning pattern) generation Character-Level RNN Chunk Too deep 从上次结束的地方继续开始:RNN
3D Vision III & Sequential Data I - PointNet, 3D Conv, RNN
PointNet++ Quiz: PointNet 和 Conv 谁的 capacity 更强? PointNet 把 ball 里面每一个点等而视之,丢失了relative coord的信息;Conv就没有,相当于在视野里 PointNet 对每个像素做了相同的 MLP,Conv 做了不同的 ML
3D Vision II - 3D Representations, Point Cloud Sampling, PointNet
Depth Image Review 上节我们已经讲了Depth Image+\displaystyle K,R,T才是真3D,单独的 z depth 不能表示世界坐标系里的距离信息——当你指出图中的这个点 \displaystyle (u,v) 的 z depth 或者 ray depth 是 \
3D Vision I - 3D Data, Camera Model, Calibration
我们很早地开始讲 3D Vision 是因为要引入多模态 modality 3D Data 我们把3d representation分成implicit隐式立体和explicit显式立体 implict:例如双目视觉通过双眼视角差产生立体视觉就是隐式3d,并不精确,是相对感知;为什么相对感知能完成生
Kaggle: BirdCLEF+ 2025
想法 data augmentation/boost: 降噪 混合 how would unlabeled soundscape help? 特征匹配?这个pipeline应该只会扩大误差? 混合不改变原有分类结果(但多了其他的) 关键的区别在于这些site录音情况有差异 model? Past b
Deep Learning V - VGG, ResNet, UNet
VGGNet 相比 AlexNet 有很好的涨点,特征是: Small filters (3x3 Conv kernel) Deeper networks (16-19 layers) 为什么小的 filter 能够带来更好的效果? Receptive Field 感受野 像这样3次 3x3 Con
早期机器学习 - K-Means
K-means 聚类 输入类的数目和特征向量,输出类使平方误差最小 方法 # 导入 numpy 和 matplotlib.pyplot import numpy as np import matplotlib.pyplot as plt # 随机生成数据 np.random.seed(0) # n