给 SAE 特征起名,能不能不靠事后猜?1×0:008:170:08问题:SAE 特征为什么难命名1:31方法:词表锚定的软约束2:30结果:GPT-2 与 Llama 的层级差异4:45意义:把命名变成可训练对象5:41局限:名字不是机制证据7:04下一步:几何名字如何接上因果验证0:08主持人今天这一期,我们读一篇很小、但问题意识很准的论文:VASAE,Vocabulary-Aligned Sparse Autoencoders。据 arXiv 论文页,这篇工作提交在二零二六年六月二十六日,并被 ICML 二零二六第二届 Compositional Learning Workshop 接收。它问的是,SAE 学出来的那些方向,能不能在训练时就带上一个词表里的名字,而不是训练完以后再靠人看样本、靠模型写解释?0:40研究员这个问题听起来像工程细节,其实很要命。SAE 的承诺是把大模型残差流拆成稀疏特征,可是特征到底叫什么,常常是事后工作。你看 top activating examples,或者让另一个模型自动解释,然后再相信这个名字。VASAE 想把命名这一步往前挪:让字典方向在训练过程中,就被词表嵌入轻轻牵引。1:09主持人先说它没有做什么。论文和项目页都很克制:它不是说,一个 SAE feature 的真实语义就等于某个 token。也不是说,只要最近 token 叫 street,这个 feature 就因果地控制了模型输出 street。它给的是 intrinsic token name,也就是一个几何锚点。1:31研究员对。标准 SAE 里,decoder 的字典方向是自由学习的。VASAE 保留这个自由度,但额外加了 vocabulary-aligned anchoring。你可以把词表 embedding 想成一组固定锚点,字典方向还是能移动,只是训练目标会鼓励它靠近某个 token embedding。最后给 feature 起名,就是找离这个方向最近的 token 字符串。1:58主持人这里最关键的设计,是软锚定,不是把 decoder 硬绑到词表矩阵上。项目页也特别强调,token embedding 是固定锚点,不是冻结 decoder feature。论文比较了 hard-tied decoder 这类基线,问题是重构质量会掉。VASAE-Soft 的主张是,既要保持 SAE 对 residual stream 的重构能力,又要让很多方向有可检查的词表近邻。2:30研究员实验先在 GPT-2-small 的 post-residual stream 上做。论文用最近 token alignment score 来量化一个字典方向和词表锚点的接近程度,并把零点八作为强对齐 cutoff。结果是,在 GPT-2 的第零到第十层,差不多百分之八十九到百分之九十四的 feature 都超过这个阈值;同时,VASAE-Soft 的 variance explained 仍然在零点九六五左右,没有明显牺牲重构。3:06主持人这个数字值得停一下。它不是说百分之九十的 feature 都被完美解释了,而是说,百分之九十左右的字典方向能在词表 embedding 空间里找到很近的 token 锚点。解释性还要看这些名字在上下文中是不是有用。3:25研究员所以作者又做了 case study。他们先减去 sentence-level mean sparse code,尽量去掉整句背景带来的共同激活,再看剩下的 feature-token 名字落在什么位置。项目页展示的 Baker Street 例子里,附近会出现 street、location 相关的 token 名称。重点不是每个 token 都被解释,而是这些几何名字在局部文本里有可读的聚簇。3:54主持人更有意思的是,作者还把方法放到 Llama-3.1-8B 上试。结果不是所有层都漂亮。论文摘要说,浅层代表性字典在 lambda 等于五乘十的负三次方时,强对齐 feature 可以到百分之九十二点八;中间层也有不少强对齐方向。但最后一层的代表性字典,对齐明显有限。4:19研究员这其实是论文最有价值的边界之一。浅层残差流和词表 embedding 的几何关系更直接,越到后面,模型表示可能越任务化、组合化,未必还能被单个 token embedding 很好锚住。换句话说,VASAE 不是一个全层通吃的命名魔法,而是暴露了哪些地方适合词表锚定,哪些地方不适合。4:45主持人从 mechanistic interpretability 的角度看,我觉得这篇论文接在最近 SAE 争论之后很自然。前面很多工作都在问:SAE feature 到底是不是概念?feature splitting 怎么办?自动解释是否可靠?VASAE 不是直接解决这些大问题,而是给了一个更低层的接口:先让字典方向和模型自己的 vocabulary geometry 接上。5:12研究员是的。它把名字从纯外部标注,变成训练目标的一部分。这样做有两个好处。第一,名字是可复现的 nearest-token lookup,不完全依赖解释模型的语言发挥。第二,它保留了一个保守边界:这个名字只是锚点,不是完整语义说明,所以后续仍然要看上下文、看激活分布,最好再做 causal validation。5:41主持人那局限也要说清。第一,单个 token 名字经常太窄。一个 feature 可能对应短语、语法角色、格式模式,甚至是多个语义成分的组合;最近 token 只能给出一个入口。第二,多个 feature 可以共享同一个 token 名,不代表它们是同一个机制。6:02研究员第三,alignment score 高,也不等于 feature 对模型行为有因果作用。它只是说明方向和某个 token embedding 几何接近。真正的机制问题,仍然要问:激活这个 feature 会改变什么?消融它会不会影响任务?它在 circuit 里连到哪里?这部分 VASAE 没有替代已有的 circuit validation。6:28主持人所以如果把这篇论文浓缩成一句话,我会说:VASAE 给 SAE feature naming 加了一个训练时的词表锚,让很多字典方向拥有内生 token 名字,同时尽量不牺牲重构质量。6:44研究员我会再加半句:它的贡献不是宣布 token 名就是解释,而是把 post-hoc naming 变成了一个可以被训练、被度量、被失败案例约束的对象。尤其是最终层对齐差这件事,提醒我们别把词表几何当成所有层的解释通用语。7:04主持人对研究者来说,下一步很清楚。可以把 VASAE 的 intrinsic token name 和自动解释工具、NLA、transcoder 或 circuit discovery 放在一起比较:同一个 feature,几何名字、自然语言解释、因果作用是否一致?如果不一致,哪个信号更可靠?7:26研究员也可以继续扩展命名单位。单 token 是最简单的锚,但很多 feature 需要 multi-token phrase,或者需要一组邻近 token 共同描述。还有一个问题是,在大模型深层里,能不能找到比词表 embedding 更合适的锚点,例如概念子空间、任务向量,或者跨模型共享 feature。7:50主持人这一期就到这里。VASAE 不是 SAE 解释性的终点,但它把一个长期含糊的问题变得更可操作:给 feature 起名,不一定只能靠事后猜;至少有一条路,是让名字在训练时就进入字典学习的几何结构里。
Add more perspectives or context around this Post.