
爱心屋签到: aixinwu.sjtu.edu.cn/products/asw-store
每日二GRISSO💊
Starting from 2/20:
Time | Monday | Tuesday | Wednesday | Thursday | Friday | Saturday | Sunday |
---|---|---|---|---|---|---|---|
08:00 | |||||||
09:00 | |||||||
10:00 | Upgrade linux | 计算机视觉DSY115 | |||||
11:00 | 组会 | ||||||
12:00 | |||||||
13:00 | |||||||
14:00 | 自然辩证法DSY202 | ||||||
15:00 | |||||||
16:00 | |||||||
17:00 | |||||||
18:00 | 数据挖掘CRQ219 | ||||||
19:00 | |||||||
20:00 | |||||||
21:00 | |||||||
22:00 | |||||||
Credits: 3+3+1 |
Moved to [[2025 Summer Schedule]]
Moved to [[2025 Summer Schedule]]
Moved to [[2025 Summer Schedule]]
Momentum Contrast for Unsupervised Visual Representation Learning
伪代码:
1 | # f_q, f_k: encoder networks for query and key |
在使用key encoder(momentum encoder)创建负样本,并把encode过的负样本存在一个queue(FIFO)中方便后续对比时直接使用,每次训练都会使用一个新的mini batch,此时会将此mini batch中的样本encode之后加入queue并删除存在最久的那个mini batch的样本(因为考虑到最老的mini batch使用的encoder是最过时的,所以FIFO是非常合理的),这样可以有效控制负样本的数量,也就是公式中的K。
因为负样本数量(字典/队列)很大,所以没办法给key encoder回传梯度,所以可以考虑把query encoder的参数直接复制给key encoder,但过快改变的key encoder会导致样本字典的特征不一致,所以使用动量更新的方式。
> queue这个字典越大,那么理论上这个m就需要越大,保证字典中key的一致性b)
只有一个编码器进行学习。Memory bank存下了所有样本的key。每当梯度回传后,会把memory bank被本次训练中被采样过的key使用新的encoder进行更新。
MoCo和memory bank 更接近,但是使用了queue dictionary和momentum update
AN IMAGE IS WORTH 16X16 WORDS- TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
https://www.youtube.com/watch?v=j3VNqtJUoz0&t=16s
核心思想:
https://github.com/facebookresearch/dino/tree/main
# Emerging Properties in Self-Supervised Vision Transformershttps://juejin.cn/post/7224738994825789496
https://www.youtube.com/watch?v=h3ij3F3cPIk&t=1005s
DI+NO(蒸馏+No Label)
具体来说,DINO 是使用一种称为“无监督自蒸馏”的方法,该方法通过自监督学习来学习模型的知识表示。在这个方法中,模型使用自身的输出来生成“伪标签”,然后使用这些伪标签来重新训练模型,从而进一步提高模型的性能和泛化能力。
https://blog.csdn.net/xbinworld/article/details/83063726
重点idea就是提出用soft target来辅助hard target一起训练,而soft target来自于大模型的预测输出。这里有人会问,明明true label(hard target)是完全正确的,为什么还要soft target呢?
hard target 包含的信息量(信息熵)很低,soft target包含的信息量大,拥有不同类之间关系的信息(比如同时分类驴和马的时候,尽管某张图片是马,但是soft target就不会像hard target 那样只有马的index处的值为1,其余为0,而是在驴的部分也会有概率。)[5]
这样的好处是,这个图像可能更像驴,而不会去像汽车或者狗之类的,而这样的soft信息存在于概率中,以及label之间的高低相似性都存在于soft target中。但是如果soft targe是像这样的信息[0.98 0.01 0.01],就意义不大了,所以需要在softmax中增加温度参数T(这个设置在最终训练完之后的推理中是不需要的)
关于DINO中发生的涌现
https://juejin.cn/post/7280436457142501388
DINO之前的工作
We have also seen emerged two properties that can be leveraged in future applications: the quality of the features in k-NN classification has a potential for image retrieval. The presence of information about the scene layout in the features can also benefit weakly supervised image segmentation.
https://blog.csdn.net/h661975/article/details/135116957
loss: ITC (Image Text Contrastive)
1 | # image_encoder - ResNet or Vision Transformer |
Cross_entropy_loss:
CLIP 本质上是全局图像嵌入,不利于像素对齐特征提取。
LERF- Language Embedded Radiance Fields
NeRF+CLIP
一个Language Field
通过优化从现成的视觉语言模型(如 CLIP)到 3D 场景的嵌入,为 NeRF 中的语言奠定基础。
LERF 提供了一个额外的好处:由于我们从多个尺度的多个视图中提取 CLIP 嵌入,因此通过 3D CLIP 嵌入获得的文本查询的相关性图与通过 2D CLIP 嵌入获得的文本查询的相关性图相比更加本地化。根据定义,它们也是 3D 一致的,可以直接在 3D 字段中进行查询,而无需渲染到多个视图。
相较于Clip-Field[[CLIP-Fields- Weakly Supervised Semantic Fields for Robotic Memory]], LERF 更密集。
CLIP-Fields [32] and NLMaps-SayCan [8] fuse CLIP embeddings of crops into pointclouds, using a contrastively supervised field and classical pointcloud fusion respectively. In CLIP-Fields, the crop locations are guided by Detic [40]. On the other hand, NLMaps-SayCan relies on region proposal networks. These maps are sparser than LERF as they primarily query CLIP on detected objects rather than densely throughout views of the scene. Concurrent work ConceptFusion [19] fuses CLIP features more densely in RGBD pointclouds, using Mask2Former [9] to predict regions of interest, meaning it can lose objects which are out of distribution to Mask2Former’s training set. In contrast, LERF does not use region or mask proposals.