Saucejiang

通过 iostat 诊断学习中可能的 I/O Bound

当 GPU Util 非常低或发生周期性波动，几乎都是因为上游的 Dataloader 没能及时地把数据发送给 GPU。此时，我们需要判断原因是 CPU Bound 还是 I/O Bound。运行 iostat -x 命令，将返回表头如下的表 Device r/s r

2025-08-25

Efficient Computing of Deep Neural Network

This post contains my personal notes from the course Efficient Computing of Deep Neural Networks (04835640, Summer 2025, at Peking University). The co

2025-07-03

Task - Object Detection & Instance Segmentation

Object Detection 上一个 Vision 时代（前 Transformer？）解决得最好的问题：人脸识别、目标检测、实例分割我们首先明确： Object Detection 的目标是输出一个 bounding box+class Instance Segmentation 的目标是输

2025-05-25

CV 导论

CV 导论的全部课程笔记

2025-05-25

CV 导论 - Overview

Introduction 什么是 Vision? Sensation - Processing - Perception - Cognition, 包括神经/识别的 Perception 是更重要的部分 Visuomotor coordination Vision 是 Modality 中较重要的一

2025-05-25

Sequential Data II - RNN, LSTM, Naive Attention

Vanilla RNN Sequential data \displaystyle \{x_{k}\} 方法的两个能力: fitting (learning pattern) generation Character-Level RNN Chunk Too deep 从上次结束的地方继续开始：RNN

2025-05-25

3D Vision III & Sequential Data I - PointNet, 3D Conv, RNN

PointNet++ Quiz: PointNet 和 Conv 谁的 capacity 更强？ PointNet 把 ball 里面每一个点等而视之，丢失了relative coord的信息；Conv就没有，相当于在视野里 PointNet 对每个像素做了相同的 MLP，Conv 做了不同的 ML

2025-05-22

3D Vision II - 3D Representations, Point Cloud Sampling, PointNet

Depth Image Review 上节我们已经讲了Depth Image+\displaystyle K,R,T才是真3D，单独的 z depth 不能表示世界坐标系里的距离信息——当你指出图中的这个点 \displaystyle (u,v) 的 z depth 或者 ray depth 是 \

2025-05-22

3D Vision I - 3D Data, Camera Model, Calibration

我们很早地开始讲 3D Vision 是因为要引入多模态 modality 3D Data 我们把3d representation分成implicit隐式立体和explicit显式立体 implict：例如双目视觉通过双眼视角差产生立体视觉就是隐式3d，并不精确，是相对感知；为什么相对感知能完成生

2025-05-20

Kaggle: BirdCLEF+ 2025

想法 data augmentation/boost: 降噪混合 how would unlabeled soundscape help? 特征匹配？这个pipeline应该只会扩大误差？混合不改变原有分类结果(但多了其他的) 关键的区别在于这些site录音情况有差异 model? Past b

2025-05-20