
,
通过结合[[DINO]]和grounded-pretraining,可以使用人类输入(例如类别名称或转介表达式)检测任意对象
什么是feature fusion?
- 在多模态领域,feature fusion 特指将不同模态的特征(如视觉、文本、音频等)进行融合的技术。CLIP 应该被看作是 Middle Fusion 的一种形式, 在特征提取后就进行融合对齐 #### large-scale grounded pre-train for concept generalization Reformulating **object detection** as a **phrase grounding task** and introducing **contrastive training** between object regions and language phrases on large-scale data本文提出的模型主要想解决3D密集标注和交互式规划。
结合
需要align the dense 3D visual information with the textual embedding space of a pre-trained LLM。3D点集由于其连续坐标系以及需要适应场景状态变化的表示形式而构成了一个独特的问题
3D-VQA
VLN(Visual-Language Navigation)
和[[3D-LLM]]一样,都是多视角采集D-RGB信息然后整合为3D frame
标注信息来自于Mini-GPT-V2(capable of generating captions and object descriptions from images by using caption and grounded caption identifiers)。
Uses image frames and a 2D-VLM(Mini-GPT-V2) to generate frame descriptions
3D场景数据是通过基于其相机姿势汇总的3D帧来重建
使用Llama-2-Chat-70B [65]生成场景的语言注释
prompted with a mix of context data including generated frame captions, frame object descriptions, annotated object lists, and annotated bounding boxes. These prompts lead to diverse instruction-following data types like dense caption, object caption, task decomposition, functionality enhancement, question-answering, and human-robot dialogues
对于VLM生成内容使用的self-checking: [83]
场景-LLM是一种3D视觉语言模型(VLM),具有简单而有效的体系结构,旨在理解以基于本体和场景级别的3D视觉信息,使其能够成功执行交互式计划任务。本节概述了3D视觉特征提取过程,我们的模型的体系结构,3D视觉信息与数据集的对齐以及使用Scene-LLM进行推理。
Employ visual language semantic features [51] to represent 3D visual semantics
Tokenize 3D visual features for LLM input:
To bridge 3D visual tokens(F) with the LLM’s tokenized space
FC(1030, 768)->GELU->FC(768,768)
Llama-2-7b as the foundational LLM backbone
在两个坐标系统(camera和世界坐标)下使用3D帧数据,以确保场景-LLM理解以自我为中心和以场景为中心的观点。
在此阶段,仅训练了projection layer,可以有效地对齐具有文本特征的3D视觉特征,同时保持LLM参数(φ)不变。
优化Scene-llm,以准确响应用户说明。我们使用标识符令牌“我看到”将3D帧语言和3D场景语言数据合并到前言。文本描述分为指令($T_{INST}$)及其相应的响应($T_{ANS}$)。利用转换后的3D视觉令牌($T_{3D}$)和指令令牌($T_{INST}$),我们的目标是微调LLM(φ)以自动生成$T_{ANS}$.
在这里,我们共同微调了投影层和LLM,由θ= {ψ,φ}表示
Recent works have explored aligning images and videos with LLM for a new generation of multi-modal LLMs that equip LLMs with the ability to understand and reason about 2D images.
但是仍缺少对于3D物理空间进行分析的模型, which involves richer concepts such as spatial relationships, affordances, physics and interaction so on.
由此提出了inject the 3D world into large language models
, 介绍一个全新的3D-llm模型族,可以将3D表示(即带有功能的3D点云)作为输入,并执行一系列与3D相关的任务。
优势:
挑战
稍微看了看去年的总结,感觉太不一样了。
前几天在水源上开了个帖子,“一句诗概括你的2024精神状态 =w=。”收到了许多回复,或是痛骂牛马现状,或是感慨蜀道难,或是轻舟已过万重山(实名羡慕)。
我也思考了一下我想用什么诗句来概括。我觉得,可以是“长夜无眠泪已尽,丽夏有期诗长存”。
可能很多年之后再看,2024年会是我人生转折的一年。很俗套的说法是,男人的成长只需要一次分手。我觉得是的。
说实话我现在基本记不起来五月前的日常,除了美赛,辩论赛,两次争吵,分手。恋爱就这么高烈度地把我想要的,不想要的,渴望的,恐惧的东西都一股脑塞给了那个手无寸铁却相信真诚可以克服一切的我。
结果也是显然的,我困惑于为什么人无法彼此理解,我疲倦于解开一环接一环已成死结的误会。以至于最终面对分手的要求时,我仅能维持住最后一丝体面,说出那句最无力的话“我尊重你的选择,你知道我不会选择复合的。”
第一段感情有以下遗憾:和我的相处并没有让对方变得更好;我并没有真正了解最本质的对方以至于从未建立起安全感。
分后的很长时间,我一直在寻找自救的办法。
其一,尝试读了很多书。先是尝试一些心理的书籍,看了《少有人走的路》一到三册。我从这本书的第一章就获得了爱是什么的定义,“希望一个人在心智成熟的路上走得更远”。我想我确实没有从对方身上体会到这种感觉。再之后看了《窄门》,从书中窥见了自己,那个渴望着柏拉图却终与世间格格不入,拒绝妥协却终于失去一切俗世幸福的自己,或者说自己将会变成的样子。再就是《爱欲之死》,我被骂得很爽。逐渐就能看清自己的内心了,也能看清自己曾经历的那些往事了。所谓走出情关指的不是喜欢上下一个人,而是看清那个为情所困的自己啊。
我决定我要变得远比以前更好,我要交一些真正的朋友,要是能有几位异性的朋友就更好了。我还希望我能养成一种淡然的态度,我对太多事情都太过用力。我也希望我能更清晰地梳理自己的内心,减少内耗。
那么,2024年末的我,did I make it after all?
虽然我知道可能真的会有其他人读这篇,但我不会避讳前任的事情,because trading my yesterday is to wish my life away。
在这里想说说我在2024的下半年交到的两位很好的朋友。
同为infj人格的我们真的非常像,用我师兄的话就是man in the mirror。我们如果想,可以一直谈,从下午谈到吃晚饭,从晚饭谈到晚上十点回寝。我们都非常清楚彼此的边界,因此可以非常自由地在安全区域内谈许多许多话题。我们都很喜欢心灵方面的话题,但是他疑似有点太痴迷于荣格的理论了。有的时候也会反怼:我感觉你大部分时间去交朋友都是为了验证那套理论。
是上中高三的同学,但彼时并无多少交集,反倒是今年下半年在微博认识。我为她的文字着迷,就好像是我的心声经由她的笔凝练成了文字。也因此我给她开放了一些我杂记的访问权限。我们时常交流彼此的过去,曾经难解的心结,是什么塑造了我们,提供情绪的支持。我很感激有她出现在这个时间点,真的帮了我很多,塑造了目前大部分的我。
所谓丽夏指的就是这两位,以及其他认识的新朋友,得到过的其他温情了。或许有一天我们也终分道扬镳,从每天都聊天变成一周聊一次,再变成一个月聊一次,但我会希望尽可能延长我们的缘分,心头感受过的温暖,可以留存很久很久,文字也会留很久很久。
我们会慢慢淡忘,就好像过去未曾发生。
在这样的时时刻刻,过去的文字会带我们回到那些蒙尘的遗迹,诉说彼时彼刻的故事。
因此,我需要感谢我这一年断断续续记着的流水账杂记,让我能知道,还有过这些时刻。
或许有些观念可能在目前的我这里刷新了,但看着过去的思考路径,我会知道我从哪里来,谢谢,如果可以,我新的一年也会记的。
其实后期有相当大的杂记发布在了微博上,这里可以收录一些。
因为《倦怠社会》确实是挺久之前看的书了,所以在读书会前看大纲温习了一下。
他者与规训并没有在当代的功绩社会中消失。在功绩社会中,他者/规训体现为“能够做到/成为balabala”,其中决定了balabala的部分的是规训权力。我们往往通过他者来定义自己想成为什么样的人,如果做不到,或者发现尽了一切努力,燃尽了,依然没有达到那个他者,就会难以避免地走向自我攻击,即抑郁。在当代互联网社会,网红大咖,还有成功人士们像是为我们展示了一场很真实的幻梦,让互联网观众就觉得,ta是现实生活中活生生的人,他做到了,我也想像ta一样。在这种很普遍的情况下,功绩语境下的自己,其实已经背离了真正的自己。
再次想起来韩炳哲在书的最后提到的神圣时间,或许这样的读书会于我而言就是这种神圣时间。有些时间与我自身是意义了了的,可能是为企业生产学术价值,可能是为了积累财富价值,在这些时间里,我都像是“飞转的停滞状态”。飞转是因为价值的产生需要我的劳动,停滞是因为我在这种情况下感受不到时间与意义时空的存在。我们需要这样的小聚会,不再让课业或工作或炫耀的需求成为我们拿起一本书的理由。让书成为书,让读完感受到的迷茫或者感动成为这个小聚会的展品,让艺术性回归到生活,如此我们的生活便是神圣的。
地铁站到家有一段是初中上下学的路,因为在听音乐所以就不想骑车上马路。就这么塞着耳机,放着贝斯版的βios和春日影,背着包兜过这段似乎永远不怎么变的街道。
虽然常开玩笑说自己上的是菜中,但我想这种“通勤时仍能时不时魂穿到十年前的感动”绝对是一种奢侈。
那点爱好就像一棵草,本也不必有开花是命,也没受到多少营养,还总被其他东西挤压生存空间,现在还能坚挺地活着,已经不错了。
3年的modder的生涯告一段落了,有始有终。很幸运进入过这么一个纯粹的亚文化圈,见证过它曾经的辉煌与日渐落寞,也尝试过力挽狂澜,最终还是难免散场各奔东西。世上真有什么是永恒的吗?可能也唯有热爱至死不渝。
该哭的是得哭的,就如该说的再见也必须要说。
再会了,谢谢所有的鱼。
“现实中有的人习惯通过包括不限于言语、拳脚、文字等热暴力或冷暴力把自己的压力发泄到别人身上,玩摇滚的则是抨击这种做法,反抗所受到的不公,抽刀向更强大、无法反抗的命运,并把自己的压力转化成音乐传达出去,给予人们鼓励振奋。”
重温完海上钢琴师后有了一些不一样的感慨:
回忆是一个有限的世界,而未来却那么大,看不到尽头。
所以有限回忆中会诞生无限音乐,而无尽的未来只会渐渐坍缩成一条唯一的路。这条唯一的路也会随着时间,诞生无限的音乐。
选好你的航路,保护好你的船。
“每个人做自己人生的主宰”,这件事情无关乎性别。摆烂也好,倒贴也好,当家庭主夫也好,如果它让我们觉得生活可以这么快乐得过下去,能找到自己的意义,那就是好东西。
顺带:果然这个世界如果没有摇滚真是一天都存在不下去呢!
Along the way, the old blame has never let me go for a single day.
But it happens to be just a nightmare that can disappear if I pray.
Therefore, I wish I made everyday count and let the phantom go away.
于我,幻想朋友真的是无处不在的,正如孤独总是如影随形。
mp3中飘出的声线,尝尝会想象其来自某个具象的脸庞;一个人进行city walk,也会想象身边有着一个亦步亦趋的脚步,和我一起匆匆又慢慢地看着彼此都是第一次见到的风景;在诺大而安静的办公室里,我会给ta捎一杯热巧克力,然后我就写着代码,ta则躺在一旁翘着腿看书,或许有时候还有闲心替我照看一下书架上的绿萝。
ta虽然一直都是ta,但却常会改变形象。ta会变成那些塑造了我却又无可奈何分离的人们。也正是因此,ta让我可以忍受那些分离。ta总是从分别中新生,让我看到未来。
我总是在人群中孤独,在独处时却和所有人都在一起。
流眼泪了,怎么会有这样的人。
我们会慢慢淡忘,就好像过去未曾发生。
在这样的时时刻刻,过去的文字会带我们回到那些蒙尘的遗迹,诉说彼时彼刻的故事。
收到过“透明人”的评价,我想如果我做不到对他人透明,大抵便也做不到对我自己透明。
Stay sensitive, stay hurt, stay pure.
24年确实就是这样emotion的一年,但我不讨厌,2025年快乐!