LLM Interpretability 前沿精读

LLM Interpretability 前沿精读

Public
Clementine
Clementine

聚焦 LLM interpretability 前沿,每期深入解读一篇高质量论文或研究成果,覆盖 arXiv 新论文、顶会发表与头部实验室博客,帮你跟上 mechanistic interpretability、circuit analysis 等方向的最新进展

LLM Interpretability 前沿精读
LLM Interpretability 前沿精读07/01/2026, 12:34:59 AM
几百万个 SAE 特征,真的能拿来用吗?
本期精读 arXiv:2606.26620,讨论 Qwen3-Instruct SAE 如何把稀疏自编码器推进到 Qwen3 指令模型族的大规模特征基础设施。
0:00 / 8:03
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/30/2026, 12:29:34 AM
给 SAE 特征起名,能不能不靠事后猜?
本期精读 VASAE:它把 SAE feature 的命名从事后解释推进到训练时词表锚定,讨论 GPT-2 与 Llama 实验结果,以及为什么 token 名字只是几何锚点、还不是机制证据。
0:00 / 8:17
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/29/2026, 12:34:40 AM
模型遇到错别字,为什么会突然想太多?
本期精读 arXiv:2606.26396,讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作:作者用 SAE 发现,错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念,并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。
0:00 / 12:21
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/27/2026, 12:35:30 AM
同一个事实,模型为什么会答成几套版本?
本期精读 arXiv:2606.27237,讨论语言模型里的事实知识为什么可能不是一份共享数据库,而是按任务格式分布在不同参数路径里。节目会讲行为共现、参数定位和 Chain of Thought 三条证据,以及它对 factuality 评测和知识编辑的影响。
0:00 / 12:22
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/26/2026, 12:34:47 AM
会识别幻觉,为什么还管不住幻觉?
本期精读 arXiv:2606.24952,讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。
0:00 / 11:46
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/25/2026, 12:34:16 AM
SAE 把概念拆碎,是不是因为概念本来就不是一根向量?
本期精读 arXiv:2606.06333:SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配,并用子空间组减少碎片化与 absorption。
0:00 / 14:54
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/24/2026, 12:38:11 AM
SAE 的解释,什么时候才算可信?
本期精读 arXiv:2606.18383,讨论一篇给 SAE 解释加上「可证书」的新论文:它把问题从 feature 是否可读,推进到 sparse proxy 是否能保真原模型行为。
0:00 / 12:12
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/22/2026, 12:30:16 AM
DiffusionGemma 还会把思考写在明面上吗?
本期精读 arXiv:2606.20560。论文把 DiffusionGemma 的透明度拆成变量透明度、算法透明度和 monitorability:中间向量可被少量 token 近似,整体监控性接近 Gemma 4,但非自回归去噪暴露出回改答案、token smearing 和 intermediate-context reasoning 等新现象。
0:00 / 10:19
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/21/2026, 12:34:29 AM
SAE 控住了特征,为什么行为还能回来?
本期精读 arXiv:2606.18322。论文提出 post-intervention recovery,用受约束的 residual-space 优化测试 SAE feature clamp 是否真能形成行为瓶颈。结论很尖锐:SAE feature 可以是有用的因果把手,但不能直接等同于完整的行为控制。
0:00 / 10:51
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/20/2026, 12:28:34 AM
SAE 为什么会把字典名额浪费在「大号 token」上?
arXiv:2606.15054 指出,标准 SAE 的内积打分会把 token 范数混进 feature 激活;在 BatchTopK 下,高范数 token 抢走稀疏名额,让大量字典槽位变成 norm detector。cosine-scored SAE 在重建质量相当时,把 Qwen3-8B 上的 single-feature probing top-one 从 0.667 提升到 0.815。
0:00 / 9:45
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/19/2026, 12:37:09 AM
音频模型为什么宁愿相信错字幕,也不相信耳朵?
KAIST 的 arXiv:2606.18924 用电路分析研究 Audio LLM 在文本和音频冲突时的文本偏置:Qwen2-Audio 和 Ultravox 会系统性相信文字提示;消融文本电路后,音频正确率大幅回升;back-patching 把晚层音频表征回灌到早层,能把平均音频准确率从约三成五推到四成六附近。
0:00 / 9:24
LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/18/2026, 12:27:47 AM
线性探针到底读出了推理,还是读出了题目格式?
线性探针在 Qwen3-14B 的第 32 层上能把演绎、归纳、溯因三类题目 100% 分开,但这篇 arXiv:2606.02907 证明:去掉数据集来源、选项数和回答长度等格式因素后,准确率会掉到随机水平。本期讲清它为什么是在修正 interpretability 的证据标准。
0:00 / 10:24