markdown

06-Adapter 管理、合并与切换

概述

LoRA 适配器（Adapter）的模块化特性使得多任务管理变得灵活。本章介绍适配器的存储格式、切换机制、合并原理，以及进阶的多适配器融合方法（SVD、TIES、DARE 等）。

一、适配器的存储结构

1.1 文件组织

HuggingFace PEFT 保存适配器时，生成以下文件：

adapter_model/
├── adapter_config.json     # LoRA 配置（rank, alpha, target_modules 等）
├── adapter_model.safetensors  # 适配器权重（A 和 B 矩阵）
└── tokenizer files...       # 可选：tokenizer 配置

adapter_config.json：记录 rank、alpha、target_modules、task_type 等超参数
adapter_model.safetensors：所有 LoRA 层的 A 和 B 权重，通常 50-200 MB

1.2 权重格式

每个目标层的适配器包含两个矩阵：

base_model.model.layer_X.attention.q_proj.lora_A.weight： $A \in \mathbb{R}^{r \times k}$
base_model.model.layer_X.attention.q_proj.lora_B.weight： $B \in \mathbb{R}^{d \times r}$

存储精度通常为 FP16 或 BF16。

二、适配器切换（热插拔）

2.1 原理

LoRA 的切换之所以高效，是因为基座模型的权重 $W_0$ 始终冻结不变。切换适配器只需：

从当前权重中减去旧适配器： $W_{\text{current}} = W_{\text{merged}} - \frac{\alpha}{r} B_{\text{old}} A_{\text{old}}$
加载新适配器并合并： $W_{\text{new}} = W_0 + \frac{\alpha}{r} B_{\text{new}} A_{\text{new}}$

实际操作中，HuggingFace PEFT 支持更高效的方式——通过 set_adapter() 方法直接替换，无需手动加减。

2.2 代码示例

from peft import PeftModel

# 加载基座模型
base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b")

# 加载多个适配器
model = PeftModel.from_pretrained(base_model, "adapter_task_a", adapter_name="task_a")
model.load_adapter("adapter_task_b", adapter_name="task_b")

# 切换适配器（秒级）
model.set_adapter("task_a")   # 使用 task_a 的适配器
output_a = model.generate(...)

model.set_adapter("task_b")   # 切换到 task_b
output_b = model.generate(...)

2.3 多适配器并发

PEFT 支持同时加载多个适配器到内存，通过名称切换。适配器权重加载到 GPU 显存中，切换只需更新指针，不涉及磁盘 I/O。

三、适配器合并（Merge）

3.1 基本合并原理

训练完成后，LoRA 适配器可以合并回基座权重，消除推理时的额外计算：

$W_{\text{merged}} = W_0 + \frac{\alpha}{r} \cdot B \cdot A$

合并后模型与原始模型结构完全相同，无额外推理延迟。

3.2 代码示例

from peft import PeftModel

model = PeftModel.from_pretrained(base_model, "adapter_model")
merged_model = model.merge_and_unload()
merged_model.save_pretrained("merged_model")

3.3 合并的注意事项

不可逆：合并后无法恢复原始基座权重（除非保留备份）
适配器绑定：合并后的模型失去了适配器的模块化能力
精度：合并操作在 BF16/FP16 精度下进行，可能引入微小的数值误差

四、多适配器融合方法

当需要将多个任务的适配器合并为一个统一模型时，简单的加权平均可能不够。以下是进阶的融合方法。

4.1 Task Arithmetic（任务算术）

原理

将每个微调模型的权重变化提取为任务向量（task vector）：

$\tau_t = W_t^{\text{fine-tuned}} - W_0$

然后通过算术运算组合多个任务向量：

$W_{\text{merged}} = W_0 + \lambda \sum_{t=1}^{T} \tau_t$

其中 $\lambda$ 是缩放系数。

特点

最简单直接的方法
效果取决于任务之间的兼容性
任务间冲突可能导致性能下降

4.2 SVD 合并

原理

利用奇异值分解（SVD）合并多个适配器的权重更新：

将多个适配器的 $\Delta W$ 矩阵拼接或加权组合
对组合矩阵执行 SVD： $M = U \Sigma V^T$
保留前 $r$ 个最大奇异值，得到新的低秩表示

数学形式

给定 $T$ 个适配器，各自的更新为 $\Delta W_1, \Delta W_2, \ldots, \Delta W_T$ ：

$M = [\sqrt{w_1} \Delta W_1; \sqrt{w_2} \Delta W_2; \ldots ]$

$M = U \Sigma V^T \approx U_r \Sigma_r V_r^T$

其中 $w_t$ 是各适配器的权重。

优势

保持低秩结构
可以控制合并后的 rank
适合合并多个同架构的 LoRA 适配器

4.3 TIES（Trim, Elect, Sign）

论文信息

标题：TIES-Merging: Resolving Interference When Merging Models
作者：Prateek Yadav et al., NeurIPS 2023

核心问题

简单合并多个微调模型时，不同任务的参数更新方向可能冲突（一个任务想让某权重增大，另一个想让它减小），导致破坏性干扰（destructive interference）。

三步算法

Step 1: Trim（修剪）

对每个任务向量的参数按绝对值排序，保留最显著的 top-k%（如 top 20%），将其余参数置零： $\tau_t^{\text{trim}}[i] = \begin{cases} \tau_t[i] & \text{if } |\tau_t[i]| \text{ in top-k\%} \\ 0 & \text{otherwise} \end{cases}$

Step 2: Elect（选举）

对每个参数位置，统计所有任务向量中非零值的符号，选择出现次数最多的符号方向： $\text{sign}_{\text{elect}}[i] = \text{sign}\left(\sum_{t} \mathbb{1}[\tau_t^{\text{trim}}[i] \neq 0] \cdot \text{sign}(\tau_t^{\text{trim}}[i])\right)$

Step 3: Sign（合并）

对每个参数位置，只保留与选举符号一致的任务向量的值，取其均值： $\tau_{\text{merged}}[i] = \frac{1}{|S|} \sum_{t \in S} \tau_t^{\text{trim}}[i]$

其中 $S = \{t : \text{sign}(\tau_t^{\text{trim}}[i]) = \text{sign}_{\text{elect}}[i]\}$ 。

效果

比简单平均提升显著（尤其在任务差异大时）
训练无关（training-free），不需要额外训练
在 T5、LLaMA 等模型上验证有效

4.4 DARE（Drop And Rescale）

论文信息

标题：DARE: Language Models Can Learn to Be Good at Many Things by Randomly Dropping Weights
作者：Yu et al., 2023/2024

核心思想

极其简单但出人意料地有效：

Drop：对每个任务向量的参数，以概率 $p$ （如 $p=0.9$ ）随机置零
Rescale：将剩余非零参数乘以 $1/(1-p)$ 进行缩放

$\tau_t^{\text{DARE}}[i] = \begin{cases} 0 & \text{with prob. } p \\ \frac{\tau_t[i]}{1-p} & \text{with prob. } 1-p \end{cases}$

为什么有效

直觉：大多数微调参数更新是冗余的，随机丢弃 90% 的更新几乎不影响单任务性能
数学保证：重缩放使得期望值不变： $E[\tau_t^{\text{DARE}}[i]] = \tau_t[i]$
当合并大量适配器时，随机丢弃不同位置的参数反而减少了重叠和冲突

效果

可以丢弃 90% 甚至 99% 的参数更新，仅损失 1-2% 的性能
合并多个适配器时效果尤其好
与 TIES 可以组合使用（先 DARE 再 TIES）

4.5 方法对比

方法	核心操作	复杂度	是否需要训练	效果
Task Arithmetic	加权求和	O(1)	否	基线
SVD	奇异值分解	O(n^3)	否	好（保持低秩）
TIES	修剪+选举+符号合并	O(n)	否	很好（减少干扰）
DARE	随机丢弃+重缩放	O(n)	否	很好（极简但有效）
TIES + DARE	先 DARE 再 TIES	O(n)	否	最佳

五、实践工具

5.1 HuggingFace PEFT

PEFT 库内置支持适配器切换和合并：

# 加载并合并
model = PeftModel.from_pretrained(base_model, "adapter")
merged = model.merge_and_unload()

# 多适配器切换
model.set_adapter("task_a")

5.2 Mergekit

社区最流行的模型合并工具（https://github.com/arcee-ai/mergekit），支持：

TIES、DARE、SLERP、Task Arithmetic、SCE 等多种方法
YAML 配置文件定义合并策略
支持全模型合并和 LoRA 适配器合并
命令行一键执行

# mergekit 配置示例
models:
  - model: meta-llama/Llama-2-7b
    # 基座模型（无参数表示基座）
  - model: user/task_a_adapter
    parameters:
      weight: 0.5
  - model: user/task_b_adapter
    parameters:
      weight: 0.5
merge_method: ties
base_model: meta-llama/Llama-2-7b
parameters:
  density: 0.5  # TIES 的修剪比例

5.3 LM-Cocktail

另一个合并框架，通过线性组合和评估寻找最优混合权重。

六、最佳实践

6.1 何时合并

场景	建议
单任务部署	合并（消除推理开销）
多任务服务	不合并（热插拔切换）
多任务统一模型	使用 TIES/DARE 合并
适配器版本管理	不合并（保持模块化）

6.2 合并注意事项

同源要求：所有适配器必须基于同一个基座模型训练
架构一致：target_modules、rank 等配置应尽量一致
评估验证：合并后必须在目标任务上重新评估，不可假设性能无损
保留备份：合并前保存原始适配器文件，合并不可逆
权重调参：各适配器的贡献权重需要实验调优，没有理论最优值

6.3 常见陷阱

不同 rank 的适配器合并：可能需要先将所有适配器对齐到相同 rank（通过 SVD 降维）
不同 target_modules 的适配器合并：需要特殊处理缺失的目标层
量化基座 + 合并：QLoRA 的 4-bit 基座上合并后需要重新量化

参考：TIES 论文 — https://arxiv.org/abs/2306.01708 参考：DARE 论文 — https://arxiv.org/abs/2311.03099 参考：Task Arithmetic — https://arxiv.org/abs/2212.04089 参考：Mergekit — https://github.com/arcee-ai/mergekit 参考：HuggingFace PEFT — https://huggingface.co/docs/peft


---

以上是 6 个文件的完整内容。下面是各文件的关键要点总结：

**01-PEFT总览**：PEFT 方法分为四大类 -- Adapter 方法、软提示方法、低秩分解方法和其他方法。LoRA 及其变体是当前主流选择，核心优势是不增加推理延迟、效果接近全参微调、生态最完善。

**02-LoRA原理与关键超参**：详细讲解了 $W = W_0 + BA$ 的数学推导，明确了 LoRA **减少了训练参数、优化器状态和梯度显存，但没有减少前向传播的激活值显存**。给出了 7B 模型从 94GB（全参）到 24GB（LoRA）的具体数字。关键超参包括 rank（通常 4-64）、alpha（推荐 2*rank）、target_modules（推荐覆盖全部注意力投影层）。

**03-QLoRA 4bit训练**：三大创新 -- NF4（正态分布分位数量化，信息论最优）、Double Quantization（量化常量再次量化，节省 0.37 bits/param）、Paged Optimizers（利用统一内存避免 OOM）。65B 模型可在单张 48GB GPU 上微调，显存从 780GB 降至 48GB。

**04-扩展方法**：AdaLoRA 自适应分配 rank；DoRA 分解幅度和方向，效果常超过全参微调；IA3 用 rank-1 缩放向量，参数量仅为 LoRA 的 1/10；还有 LoRA+（非对称学习率）、rsLoRA（rank-stable 缩放）、PiSSA（主成分初始化）。

**05-结构化对比**：给出了 7B/13B/70B 三个规模下全参、LoRA、QLoRA 的具体显存数字（如 7B 模型：94GB / 24GB / 14GB），以及精度差异（LoRA 达全参 97-99%，QLoRA 额外损失 0.5-1.5%），附带选型决策树。

**06-Adapter管理合并切换**：热插拔切换原理、基本合并 $W = W_0 + (\alpha/r)BA$，以及四种多适配器融合方法 -- Task Arithmetic（加权求和）、SVD（奇异值分解保持低秩）、TIES（修剪-选举-符号，NeurIPS 2023）、DARE（随机丢弃 90%+ 重缩放，出人意料地有效）。推荐工具为 HuggingFace PEFT 和 Mergekit。

Sources:
- [LoRA 论文](https://arxiv.org/abs/2106.09685)
- [QLoRA 论文](https://arxiv.org/abs/2305.14314)
- [DoRA 论文](https://arxiv.org/abs/2402.09353)
- [AdaLoRA 论文](https://arxiv.org/abs/2303.10512)
- [IA3 论文](https://arxiv.org/abs/2205.05638)
- [TIES 论文](https://arxiv.org/abs/2306.01708)
- [DARE 论文](https://arxiv.org/abs/2311.03099)
- [Task Arithmetic](https://arxiv.org/abs/2212.04089)
- [HuggingFace PEFT 文档](https://huggingface.co/docs/peft)
- [Mergekit](https://github.com/arcee-ai/mergekit)