Posted 2025-05-08Updated 2025-07-24Review10 minutes read (About 1552 words)

Feature Pyramid Networks for Object Detection

目的

识别不同尺寸的物体是目标检测中的一个基本挑战，而特征金字塔一直是多尺度目标检测中的一个基本的组成部分，但是由于特征金字塔计算量大，会拖慢整个检测速度，所以大多数方法为了检测速度而尽可能的去避免使用特征金字塔，而是只使用高层的特征来进行预测。高层的特征虽然包含了丰富的语义信息，但是由于低分辨率，很难准确地保存物体的位置信息。与之相反，低层的特征虽然语义信息较少，但是由于分辨率高，就可以准确地包含物体位置信息。所以如果可以将低层的特征和高层的特征融合起来，就能得到一个识别和定位都准确的目标检测系统。所以本文就旨在设计出这样的一个结构来使得检测准确且快速。

FPN结构

为了使得不同尺度的特征都包含丰富的语义信息，同时又不使得计算成本过高，作者就采用top down和lateral connection的方式，让低层高分辨率低语义的特征和高层低分辨率高语义的特征融合在一起，使得最终得到的不同尺度的特征图都有丰富的语义信息。

bottom-up

Bottom-up的过程就是将图片输入到backbone ConvNet中提取特征的过程中。Backbone输出的feature map的尺寸有的是不变的，有的是成2倍的减小的。对于那些输出的尺寸不变的层，把他们归为一个stage，那么每个stage的最后一层输出的特征就被抽取出来。以ResNet为例，将卷积块conv2， conv3， conv4， conv5的输出定义为{$C_2, C_{3}. C_{4}, C_{5}$} ，这些都是每个stage中最后一个残差块的输出，这些输出分别是原图的{$\frac{1}{4}, \frac{1}{8}, \frac{1}{16}, \frac{1}{32}$}倍，所以这些特征图的尺寸之间就是2倍的关系。

top-down

Top-down的过程就是将高层得到的feature map进行上采样然后往下传递，这样做是因为，高层的特征包含丰富的语义信息，经过top-down的传播就能使得这些语义信息传播到低层特征上，使得低层特征也包含丰富的语义信息。本文中，采样方法是最近邻上采样，使得特征图扩大2倍。上采样的目的就是放大图片，在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的像素，在本文中使用的是最近邻上采样(插值)。这是最简单的一种插值方法，不需要计算，在待求像素的四个邻近像素中，将距离待求像素最近的邻近像素值赋给待求像素。
最邻近法计算量较小，但可能会造成插值生成的图像灰度上的不连续，在灰度变化的地方可能出现明显的锯齿状。

Lateral connection

对于每个stage输出的feature map $C_{n}$，都先进行一个1*1的卷积降低维度。
然后再将得到的特征和上一层采样得到特征图$P_{n+1}$进行融合，就是直接相加，element-wise addition。因为每个stage输出的特征图之间是2倍的关系，所以上一层上采样得到的特征图的大小和本层的大小一样，就可以直接将对应元素相加。
相加完之后需要进行一个3x3的卷积才能得到本层的特征输出$P_{n}$。使用这个3x3卷积的目的是为了消除上采样产生的混叠效应(aliasing effect)，混叠效应应该就是指上边提到的‘插值生成的图像灰度不连续，在灰度变化的地方可能出现明显的锯齿状’。在本文中，因为金字塔所有层的输出特征都共享classifiers/ regressors，所以输出的维度都被统一为256，即这些3x3的卷积的channel都为256。

FPN&RPN

下图所示为Faster R-CNN中的RPN的网络结构，接收单尺度的特征输入，然后经过3x3的卷积，并在feature map上的每个点处生成9个anchor(3个尺寸，每种尺寸对应3个宽高比)，之后再在两个分支并行的进行1x1卷积，分别用于对anchors进行分类和回归。这是单尺度的特征输入的RPN。

所以将FPN和RPN结合起来，那RPN的输入就会变成多尺度的feature map，那我们就需要在金字塔的每一层后边都接一个RPN head(一个3x3卷积，两个1x1卷积)，如下图所示，其中$P_6$是通过$P_5$下采样得到的。

Formally, we define the anchors to have areas of {$32^2, 64^2, 128^2, 256^2, 512^2$} pixels on {$P_2, P_3, P_4, P_5, P_6$}

在生成anchor的时候，因为输入是多尺度特征，就不需要再对每层都使用3种不同尺度的anchor了，所以只为每层设定一种尺寸的anchor，图中绿色的数字就代表每层anchor的size，但是每种尺寸还是会对应3种宽高比。所以总共会有15种anchors。此外，anchor的ground truth label和Faster R-CNN中的定义相同，即如果某个anchor和ground-truth box有最大的IoU，或者IoU大于0.7，那这个anchor就是正样本，如果IoU小于0.3，那就是负样本。此外，需要注意的是每层的RPN head都参数共享的。

Posted 2025-05-06Updated 2025-07-24Reviewa minute read (About 135 words)

Deformable Convolutional Networks

Used in [[CenterNet]]

pre: https://www.youtube.com/watch?v=HRLMSrxw2To&t=308s

解决的问题

Modeling spatial transformations is a long standing problem in computer vision

Deformation (human pose)
Scale
Viewpoint variation
Intra-class variation (不同设计的同一种物体)

Traditional approaches:

build datasets with sufficient desired variations
use transformation-invariant features and algorithms

架构

优势

与传统CNN拥有相同的输入输出

regular convolution -> deformable convolution
regular RoI pooling -> deformable RoI pooling

可以端到端训练且无需额外监督信号

直接认为是一种在物体检测方面即插即用的模块即可

Posted 2025-04-24Updated 2025-07-24Review2 minutes read (About 228 words)

Associative Embedding= End-to-End Learning for Joint Detection and Grouping

Q&A

1

What is standard dense supervised learning? Mentioned in [[CenterNet]].

Standard dense supervised learning typically refers to a supervised learning setup where:

Standard supervised learning means:
- You have input data X and corresponding ground truth labels Y.
- The goal is to train a model $f_\theta(X)$ that maps inputs to outputs by minimizing a loss function (e.g., cross-entropy, MSE) between the predicted labels and ground truth.
- The training dataset is fully labeled (i.e., each input has a corresponding label).
Dense refers to:
- A per-pixel or per-element prediction task, where every element in the input gets a corresponding label.
- Common in vision tasks like:
  - Semantic segmentation (each pixel is labeled with a class).
  - Depth estimation (each pixel has a depth value).
  - Optical flow (each pixel has a motion vector).
  - Surface normal estimation (each pixel has a 3D orientation vector).

In contrast to sparse supervision, where only a subset of the input (e.g., bounding boxes, keypoints) is labeled, dense supervision provides full annotations for every relevant part of the input.

Example
In semantic segmentation:

Input: an RGB image (e.g., 512×512 pixels).
Output: a label map of the same size (512×512), where each pixel has a class label like “road”, “car”, “sky”, etc.
Model: often a Fully Convolutional Network (FCN) or encoder-decoder like U-Net or DeepLab.
Loss: usually pixel-wise cross-entropy.

Posted 2025-04-24Updated 2025-07-24Reviewa few seconds read (About 12 words)

CenterNet

Posted 2025-04-16Updated 2025-07-24Reviewa few seconds read (About 0 words)

Language Models as Zero-Shot Planners= Extracting Actionable Knowledge for Embodied Agents

Posted 2025-04-16Updated 2025-07-24Reviewa few seconds read (About 3 words)

RoboEXP

Posted 2025-04-15Updated 2025-07-24Reviewa few seconds read (About 30 words)

Pixtral 12B

Web: https://mistral.ai/news/pixtral-12b
Demo: https://chat.mistral.ai/chat
Finetune: https://github.com/2U1/Pixtral-Finetune
Model: https://huggingface.co/mistralai/Pixtral-12B-2409

Posted 2025-04-15Updated 2025-07-24Reviewa few seconds read (About 0 words)

OpenPose Using Part Affinity Fields

Posted 2025-04-12Updated 2025-04-12Review9 minutes read (About 1341 words)

博客三周年

前言

三周年的post更多就是一种形式了，看了二周年的post，感觉已经把我本人对于博客网的情感表达得较为详尽了，一年过去我并没有对此生发更多的感情了。看到自己在二周年的博客里提到了：

再往后就遇到了那个她，开始在博客上记录自己那股悸动的感觉，因为这种感觉不记录下来的话，就会溺死在往后的岁月里。当时真的从未想过我们会在一起，我感觉就是一个很特别的我喜欢的女孩子，她肯定有很多爱她的人并不渴求我的爱，毕竟牡丹这么多年了，这恋爱观念的惯性可不小。后来，她也看到了这篇博客，就这样，双向奔赴的我们以这种非常浪漫的方式在一起了。从此博客对我的意义，已经不再是可有可无了，是我的生活了。

不过很搞笑的是我写完那篇后过了20天我就失去了她，不过博客与我而言的意义依然没有太大变动，目前依然是我生活的一部分。
关于博客网本身确实每太多好生发的了，我还是主要写写这一年与博客有关的事情吧。

很长很长的句号

因为考虑到可能对彼此存在潜在的不好影响，所以我删除了网站上所有曾经的恋爱日志，并且更换了我后续日志的密码。

曾经在一次争吵中，她告诉我不要再把我写的东西印成书送给她，没人会想要读这些。我想也是，凡事都有两面性，曾经让人很爽的东西，也终于会慢慢褪色，会变成让人不爽的东西。有的时候我真的在想，或许在恋爱的时候不记录这些更好，或许恋爱的时候就享受恋爱本身，不过度反思的话或许反而能享受更久。曾经的我期望通过自省的方式让自己走在所谓的“正确”的道路上，认为这样走下去就能真的一直相伴下去。但我显然错了，两个人能相伴一生是因为他俩是彼此对的人，而不是因为其中一个人永远做他认为正确的事情。当然，分手是正确的，不尝试复合也是正确的，我一直这么认为。

之后的句号当然就很长了，有“这里一片荒原”，“鹭岛旅”，“Merry Go Round of Life”…分手后的情绪状态也是很宝贵的素材，我确实记录了不少，“Emmm this is my sorror it looks beauty”，但更多的是记录下了我疗愈自己的方式，导致我有的时候状态不对的时候都会打开通读一遍，看着脆弱的一个人慢慢把自己重新拼起来，是可以鼓舞我很久的。

换行`\n`

之后遇到了雪糕，某种程度雪糕重塑了我对于亲密关系的认知（人与人之间为什么可以做到互相理解到这个程度），这会让我意识到，或许我真的从未走进过一段亲密关系。我从此放下了对前任的执念了。
对了雪糕也有属于她的博客网，这上面（以及公众号“集闲殿”）的文章，已经影响了很多人。

麻木

最近其实真的有些麻木了，很少会花时间去感知，梳理自己的情绪了，但倒也没出过什么岔子。
我好像在忘记很多事情，过去一年的事情，如果不在博客上了，我大概率已经忘了个七七八八了，我很害怕。
看到国外的一个演讲，说，“如果你要做第一等科研的话，肯定需要夜以继日得思考你的课题，哪怕不在工位上，在餐厅，在淋浴房，在公园里，你的脑子都要像强迫症一样思考这个课题”，我深以为然，并且我几乎没有费什么力气就达到了这一点。不过这也导致我在日常中不再乐意把我的思维岔出去写日志了。
这些体现在博客网的话就是，最近的日志“让一切隐于晦朔，就在那月之暗面”，已经有半个月没有更新了，然后博客网充斥着一些读过的论文的痕迹。。。
我想这才是我从小到大真正的常态吧。

四周年再见👋

Posted 2025-03-19Updated 2025-07-24Reviewa few seconds read (About 19 words)

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

很重要的编码优化论文，MHE的概念：

目的