TRACE: 通过 Adaptation-Aware Probing 发现 Task-Specific 参数，实现持续微调不遗忘

论文信息

TRACE: Discovering Task-Specific Parameter via Adaptation-Aware Probing for Continual Fine-Tuning

发表于 KDD 2026，来自吉林大学、复旦大学、Heriot-Watt University 和 University of Trento 的合作。代码开源在 GitHub。

要解决什么问题

LLM 在部署后通常需要针对不同任务做 supervised fine-tuning (SFT)。现实场景中，任务是陆续到来的——今天微调代码生成，明天微调医学问答，后天微调数学推理。问题在于，sequential fine-tuning 是一种 destructive update：新任务的梯度会覆盖旧任务学到的参数表示，导致 catastrophic forgetting。

现有的应对方式大致有几类：experience replay 需要保存和重放旧数据，计算和存储开销大；LoRA / adapter 为每个任务维护单独的模块，但共享 adapter 会遗忘、独立 adapter 则带来管理复杂度；joint fine-tuning 把所有数据混在一起训，但在 continual setting 下通常拿不到历史数据；regularization 方法（如 EWC）给参数更新加全局约束，但不区分任务相关性。

TRACE 的出发点很直接：这些方法都没有从根本上解决"无差别覆写"的问题。与其想办法在覆写之后修补，不如一开始就只更新该更新的参数。

核心思路

论文受到了神经科学中 brain functional specialization 的启发——大脑不同区域负责不同功能（颞叶处理听觉、枕叶处理视觉），LLM 的不同层和模块对不同任务的贡献也是不均匀的。已有研究表明 Transformer 中存在大量参数冗余，80% 以上的 neuron 可以被 prune 而不影响性能。

基于此，TRACE 将 continual fine-tuning 重新定义为 task-specific parameter discovery 问题：

先用一次短暂的 warm-start fine-tune（仅 1 epoch）对预训练模型做 task-specific 的微调探测
比较 warm-start 后的模型和原始预训练模型，找到每个任务的 core parameter subset
在后续的 continual fine-tuning 中，每个任务只更新自己的 core parameters，其余参数 frozen

这个设计的精妙之处在于，warm-start 的目的不是训出一个好模型，而是产生一个足够强的信号来判断"哪些参数对这个任务重要"。

两种 Core Parameter 识别策略

TRACE 提供了两种独立的策略来识别 task-specific core parameters，它们从不同角度衡量参数的重要性。

策略一：L2-Fisher Importance Scoring (TRACE-LF)

这是一种 task-local 的策略，不需要跨任务比较。对每个参数，计算两个指标：

L2 norm of parameter change：warm-start 前后参数变化的幅度，变化越大说明这个参数对任务越"敏感"
Fisher Information：任务 loss 对该参数扰动的敏感度，Fisher 值越大说明这个参数对任务 performance 越关键

两者做 normalize 后加权求和（默认 alpha=beta=0.5），取 top-r% 的参数作为 core set。

策略二：Cosine Similarity Specificity Scoring (TRACE-CS)

这是一种 task-contrastive 的策略。核心想法是：如果某个参数在不同任务上的 update direction 差异很大，那它很可能编码了 task-specific knowledge。

具体做法是计算同一参数在不同任务上的 update vector 之间的 cosine similarity，然后用 1 - average_similarity 作为 specificity score。score 越高，说明这个参数的更新方向越"独特"于当前任务。

两种策略是互补的：TRACE-LF 关注"这个参数有多重要"，TRACE-CS 关注"这个参数有多独特"。

Selective Parameter Activation

识别出 core parameters 之后，continual fine-tuning 就变得很直接：对每个任务 T_k，只允许其 core parameter set C_k 中的参数接受梯度更新，其余参数 frozen。值得注意的是，TRACE 允许参数在不同任务之间 reuse——如果某个参数同时是多个任务的 core parameter，它在每个对应任务的训练阶段都可以被更新，不做额外冻结。

这个设计很实用，避免了过度保守导致的 capacity 浪费。

实验结果

论文在 5 个 backbone 上做了验证：DeepSeek-R1 (1.5B)、LLaMA2 (7B)、LLaMA3 (8B)、Qwen2.5 (14B)、Qwen3 (32B)。三个 SFT 任务分别是 Code Alpaca（代码生成）、GSM8K-RFT（数学推理）、MedQA（医学问答），对应评测 HumanEval pass@1、GSM8K accuracy、MedQA accuracy。

主要结果

TRACE 在所有 backbone 上都一致性地超过了 baselines。几个亮点数据：

LLaMA3-8B：TRACE-CS average score 达到 63.28，比最强 baseline（Sequential LoRA 的 46.33）高出 +16.95 个百分点。其中 HumanEval 从 43.29 跳到 61.60（+18.31），GSM8K 从 41.17 跳到 66.03（+24.86）
Qwen2.5-14B：TRACE-LF 的 HumanEval 从 Sequential LoRA 的 45.73 飙到 73.20（+27.47），average 达到 75.28 vs 62.34（+12.94）
Qwen3-32B：TRACE-LF 在 HumanEval 上达到 90.90，比 baseline 最高的 75.00 高出 +15.90

整体而言，TRACE-LF 和 TRACE-CS 各有所长，取决于具体任务和模型组合，但两者都稳定地优于所有 baseline。

Task Order Sensitivity

在 LLaMA3-8B 上测试了 6 种 task permutation，TRACE 的 average score 波动范围是 53.04-62.27（均值 56.54 ± 3.80），说明效果不依赖于特定的任务顺序。这在 continual setting 中很重要——现实中任务顺序由数据到达决定，不可能人工挑选最优排列。

长任务序列扩展

将任务从 3 个扩展到 5 个（增加了 MATH 和 Lawyer-Instruct），TRACE-CS 仍然以 average 61.48 领先最强 baseline Sequential LoRA 的 54.66（+6.82）。论文还指出一个有意思的观察：相关任务（GSM8K 和 MATH）的 core parameter set 会有大量 overlap，增加相关任务更像是 rehearsal 而非占用新 capacity，所以 performance 不降反升。

Cross-Model Transferability

这可能是论文最有意思的实验之一。作者在 LLaMA3-8B 上做 warm-start 识别 core parameters，然后通过 CKA (Centered Kernel Alignment) 做 layer mapping，将 core parameter 信息迁移到架构完全不同的 Qwen2.5-14B 和 Qwen3-32B 上。

结果显示 Transfer-LF/CS 的性能与直接在目标模型上做 TRACE 识别的结果 highly comparable，而且都超过了所有 baseline。这说明 TRACE 发现的不是 model-specific artifact，而是某种 task-centric 的 functional blueprint——一个任务的"核心功能参数分布"在不同架构之间是可以迁移的。

这也打开了一个实用的 small-to-large 范式：在 8B 小模型上做廉价的 probing，然后把发现的 core parameters 映射到大模型上指导微调，省去了在大模型上做 warm-start 的算力开销。

超参数分析

论文对几个关键超参数做了 sensitivity analysis：

Core parameter ratio r：在 r 属于 [1%, 30%] 范围内都优于 baseline，r=5% 为最优。当 r >= 40% 时性能急剧下降——更新太多低重要度参数反而引入 interference
Warm-start epochs：1 epoch 最优，增加到 2-3 epoch 后 importance distribution 变得 diffuse，弱化了 task-specific signal
alpha (L2-Fisher 权重)：alpha=0.5 最优，纯用 L2（alpha=1）或纯用 Fisher（alpha=0）都更差，说明两个信号确实互补

个人思考

优点：

TRACE 的设计非常 clean。不需要 replay buffer、不需要额外 adapter、不需要 regularization 项，只需要一次短暂的 warm-start probe 就能得到 core parameter mask。整个方法的额外开销主要就是这 K 次 warm-start（K 是任务数，每次只训 1 epoch），相比 continual fine-tuning 本身的成本可以忽略不计。

Cross-model transferability 实验也很有说服力，证明了 task-specific parameter 的结构性存在——不是某个模型的偶然现象，而是 task 本身的某种"指纹"。

值得进一步探讨的：

论文目前只测了 3-5 个任务的场景。当任务数量增长到几十甚至上百时，core parameter set 的 union 是否会趋于覆盖整个模型？论文在长序列实验中部分回答了这个问题（相关任务的 overlap 很高），但对于高度异质的任务集合，这个 scaling behavior 还不完全清楚。

另外，当前的 selective activation 是 layer-level 的粒度（选择整个 linear projection 或 LayerNorm），更细粒度的 neuron-level 或 channel-level 的选择是否能进一步提升效果？论文在 related work 中提到了 pruning 文献中 80% neuron 可剪的观察，但自身的选择粒度还比较粗。

最后，warm-start 需要在每个新任务到来时独立跑一次，这在 streaming setting 中是合理的。但如果能基于已有任务的 core parameter 信息做增量式 discovery（比如预判新任务与已有任务的关系），可能会进一步减少 warm-start 的成本。

总结

TRACE 提出了一个简洁而有效的框架：把 continual fine-tuning 中的 catastrophic forgetting 问题转化为 task-specific parameter discovery 问题。通过 adaptation-aware probing 找到每个任务的核心参数子集，然后只更新这些参数，在 1.5B 到 32B 规模的多个 LLM 上都展示了显著优于 baseline 的效果。cross-model transferability 的发现也为 resource-efficient 的模型适配提供了新的思路。