Avatar
Saucejiang
Efficient Computing of Deep Neural Network
This post contains my personal notes from the course Efficient Computing of Deep Neural Networks (04835640, Summer 2025, at Peking University). The co
Task - Object Detection & Instance Segmentation
Object Detection 上一个 Vision 时代(前 Transformer?)解决得最好的问题:人脸识别、目标检测、实例分割 我们首先明确: Object Detection 的目标是输出一个 bounding box+class Instance Segmentation 的目标是输
CV 导论
CV 导论的全部课程笔记
CV 导论 - Overview
Introduction 什么是 Vision? Sensation - Processing - Perception - Cognition, 包括神经/识别的 Perception 是更重要的部分 Visuomotor coordination Vision 是 Modality 中较重要的一
Sequential Data II - RNN, LSTM, Naive Attention
Vanilla RNN Sequential data \displaystyle \{x_{k}\} 方法的两个能力: fitting (learning pattern) generation Character-Level RNN Chunk Too deep 从上次结束的地方继续开始:RNN
3D Vision III & Sequential Data I - PointNet, 3D Conv, RNN
PointNet++ Quiz: PointNet 和 Conv 谁的 capacity 更强? PointNet 把 ball 里面每一个点等而视之,丢失了relative coord的信息;Conv就没有,相当于在视野里 PointNet 对每个像素做了相同的 MLP,Conv 做了不同的 ML
3D Vision II - 3D Representations, Point Cloud Sampling, PointNet
Depth Image Review 上节我们已经讲了Depth Image+\displaystyle K,R,T才是真3D,单独的 z depth 不能表示世界坐标系里的距离信息——当你指出图中的这个点 \displaystyle (u,v) 的 z depth 或者 ray depth 是 \
3D Vision I - 3D Data, Camera Model, Calibration
我们很早地开始讲 3D Vision 是因为要引入多模态 modality 3D Data 我们把3d representation分成implicit隐式立体和explicit显式立体 implict:例如双目视觉通过双眼视角差产生立体视觉就是隐式3d,并不精确,是相对感知;为什么相对感知能完成生
Kaggle: BirdCLEF+ 2025
想法 data augmentation/boost: 降噪 混合 how would unlabeled soundscape help? 特征匹配?这个pipeline应该只会扩大误差? 混合不改变原有分类结果(但多了其他的) 关键的区别在于这些site录音情况有差异 model? Past b
Deep Learning V - VGG, ResNet, UNet
VGGNet 相比 AlexNet 有很好的涨点,特征是: Small filters (3x3 Conv kernel) Deeper networks (16-19 layers) 为什么小的 filter 能够带来更好的效果? Receptive Field 感受野 像这样3次 3x3 Con