PorTAL:適用於 LLM 的可攜式任務適配器

@RampLabs
英語1 天前 · 2026年7月01日
335K
506
45
17
867

TL;DR

PorTAL 是一種與基礎模型無關的超網路架構,能夠實現 LLM 任務適配在不同模型間的遷移,從而顯著降低微調所需的成本與數據量。

研究人員:Ben Geist

摘要

參數高效微調(例如 LoRA)能將凍結的大型語言模型(LLM)適應到特定任務,但產生的適配器(adapter)僅限於單一基礎模型。當新模型發佈時,必須從頭重新學習適應過程。我們研究的是可攜式任務適應(portable task adaptation)一次性學習任務適應,使其成為與基礎模型無關的形式,並透過僅重新擬合一個小型、每個模型專屬的組件,將其轉移到新的凍結模型上。具體來說,我們學習一個與基礎模型無關的任務潛在變量(task latent) z_t 和一個超網路解碼器(hypernetwork decoder) D_b,該解碼器能為凍結的基礎模型生成逐層的 LoRA 適配器。解碼器由一個與基礎模型無關的共享核心和一個輕量的、每個基礎模型專屬的轉換器(converter)組成。要移植到新的基礎模型時,我們凍結 z_t 和共享核心,僅在少量數據上重新擬合轉換器。

我們將此架構命名為 PorTAL。實驗證明,無論是在同一個模型系列內,還是更引人注目的跨模型系列,PorTAL 都能恢復每個任務 LoRA 所帶來的準確率提升。我們透過凍結在 Qwen3-1.7B 和 4B 上學習到的任務潛在變量和共享核心解碼器,然後僅重新擬合一個輕量的、每個基礎模型專屬的轉換器,在未見過的 Qwen3-8B 上恢復了 約 98% 的 LoRA 準確率增益,在 Gemma-3-4B 上恢復了約 94%。這遠優於當前的可攜式任務適應方法:Cross-LoRA 基準線在未見過的 Qwen3-8B 上僅恢復了約 14% 的增益,而我們達到了 98%。此外,重新擬合過程數據效率高:PorTAL 使用大約一半的校準數據就能達到從頭訓練 LoRA 的準確率平台,並且在相同準確率下,校準效果 consistently 更好(在每個數據量級上,保留數據的對數損失(log-loss)更低)。這大大減少了後續基礎模型微調所需的 FLOPs。

1. 引言與動機

新語言模型的發佈速度不斷加快:每年發佈的知名基礎模型數量從 2020 年的 2 個增加到 2021 年的 9 個、2022 年的 32 個和 2023 年的 149 個 [1],而到了 2024-2025 年,SOTA 模型的發佈節奏已壓縮到 SOTA 模型在公開排行榜上平均僅能保持第一名約 35 天,遠低於 GPT-4 的近一年時間 [2]。

然而,將模型適應到特定任務是一項每個模型都要付出的成本,並不會隨著這些新模型的發佈而攤銷。一次微調(無論是全參數還是 LoRA)都鎖定在單一基礎模型的權重空間中;當下一個模型發佈時,必須在新的基礎模型上重新進行適應。參數高效方法降低了單位成本(在 7B 模型上進行 LoRA 微調約需 $1-3k,而全參數微調約需 $12k [3]),但並未改變其結構:你仍然需要為每個(任務,模型)組合支付數據整理 + 訓練 + 評估的費用,而且全參數微調的成本仍然隨著模型規模的持續增長而增加 [4]。

其結果是,在當前前沿模型上維護一個微調能力組合的成本,大致與模型發佈間隔時間成反比。在獲得每個更新、更智慧的基礎模型所帶來的原始智能的同時,為了保持系統的專業性,為每個模型重新進行微調就成為了主導性的、且不斷增長的成本。

我們的解決方案是:為任務適應付費一次,然後將其攤銷到所有未來的基礎模型上。受柏拉圖式表徵假說(Platonic Representation Hypothesis)[5] 的啟發,我們學習一種與基礎模型無關的適應形式,並透過僅在少量樣本上重新擬合一個輕量的、每個基礎模型專屬的映射,將其帶到每個新模型上。

2. 相關工作

我們的貢獻結合了三條研究路線的想法,在此進行回顧。

透過超網路生成單一基礎模型的 LoRA

Text-to-LoRA [6]、in-context SHINE [7] 和 Profile-to-PEFT [8] 將每個任務或用戶的適應攤銷到單次前向傳播中,但它們針對的是固定的基礎模型,並在任務或用戶之間進行泛化,而不是跨模型(Text-to-LoRA 明確將跨模型轉移留作開放問題)。

跨架構的 LoRA 生成

LoRAGen [9] 使用結構化嵌入(潛在變量 + 模組/層嵌入)為不同的基礎模型生成 LoRA,但它是透過重建現有 LoRA 來訓練的;我們共享其解碼器形狀,但根據任務損失進行端到端訓練,並且關鍵在於,我們凍結共享的任務潛在變量和共享核心,僅重新擬合一個輕量的、每個基礎模型專屬的轉換器,以達到未見過的基礎模型。

跨模型的 LoRA 轉移

Cross-LoRA [10]、LoRA-X [11] 和 CAST [12] 的目標與我們相同,但他們是透過子空間或激活流形對齊來轉換一個已經訓練好的適配器。我們則學習一個與基礎模型無關的潛在變量,並為每個基礎模型重新校準轉換器。我們發現這個小型校準步驟非常重要。Cross-LoRA 在不重新擬合的情況下轉移現有適配器,在未見過的 8B 模型上僅恢復了約 14% 的 LoRA 提升,而我們達到了約 98%(§6.2)。

簡而言之,單一基礎模型的 LoRA 生成、跨架構生成和跨模型轉移都有先前的研究。我們的貢獻是將它們組合成一個方案:學習共享的任務潛在變量和核心,凍結它們,並僅重新擬合一個輕量的、每個基礎模型專屬的轉換器以達到新的基礎模型。我們將其定位為應對加速模型發佈節奏的維護成本解決方案,並在實驗上證明它優於跨模型轉移的方法。

3. 背景:LoRA 與 LoRA 超網路

LoRA [13]。對於一個凍結的權重矩陣,LoRA 學習一個由兩個小型矩陣 AB(秩為 r)構成的低秩更新;只有這兩個矩陣參與訓練:

ΔW=αrBA,A∈Rr×din,  B∈Rdout×r,  r≪d,y=Wx+αrB(Ax)\Delta W = \tfrac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \tfrac{\alpha}{r} B(Ax)

LoRA 超網路。與其直接訓練 AB,不如使用一個超網路根據條件輸入生成它們。Text-to-LoRA [6] 訓練一個超網路,從任務描述嵌入中為單一基礎模型生成完整的 LoRA,並透過凍結的基礎模型進行端到端訓練。這訓練了一個超網路,而不是為每個任務訓練一個單獨的 LoRA,但它仍然局限於單一基礎模型,在任務之間進行泛化,而不是在模型之間。我們的設計借鑒了超網路生成 LoRA 的想法,但目標不同:實現共享的、學習到的任務表徵的跨基礎模型轉移

4. 方法

設計。我們的目標是建立一種任務適應方式,只需學習一次,就能以低成本移植到新的凍結模型上。我們將適配器生成器分為兩部分:一個大型的與基礎模型無關的核心解碼器,在所有模型間共享,以固定的核心寬度 d_c 發射低秩因子;以及一個輕量的、每個基礎模型專屬的轉換器,它調節共享核心的輸入並將其輸出投影到特定模型的維度。我們在一個或多個凍結的基礎模型上進行訓練,然後透過僅重新擬合這個小型、每個基礎模型專屬的轉換器,將其移植到未見過的模型上。

這將學習到的適應攤銷到一個共享表徵中,並使支援每個新基礎模型的成本變得很低。透過建構,共享的潛在變量和核心包含了大部分參數,並吸收了任務表徵以及將其映射到適配器空間的主要部分;只有一個小型轉換器是模型專屬的。我們在下面定義各個組件。

設定。令一個凍結的基礎模型 b 具有變壓器層 = 1, …, L_b,其逐層權重矩陣為 W_ℓ, m,對應於被適應的模組 m ∈ {q_proj, v_proj}(在完整模組變體中,我們將 m 擴展到所有注意力機制和 MLP 投影)。令 θ_b 表示凍結的基礎模型參數。

任務潛在變量。每個任務 t 被映射到一個學習到的任務潛在變量 z_t,這是一個維度為 d_z = 256 的、與基礎模型無關的向量。

解碼器。我們的超網路 D_b 由一個與基礎模型無關的核心解碼器和一個輕量的、每個基礎模型專屬的轉換器組成;它將任務潛在變量 z_t 和一個逐層嵌入 e_ℓ 映射到每個模組的 LoRA 因子:

(Aℓ,m, Bℓ,m)=Db(zt,eℓ,m),Aℓ,m∈Rr×dℓin,  Bℓ,m∈Rdℓ,mout×r(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}

在內部,我們使用 FiLM 來調節一個共享的主幹。主幹以逐層嵌入 e_ℓ 作為輸入,而任務潛在變量 z_t 則縮放和偏移其隱藏特徵。這產生了一個逐層的隱藏狀態:

hℓ=ϕ(W2 [(1+γ(zt))⊙ψ(W1[zt;eℓ])+β(zt)]),h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big),

然後,每個模組的頭部將此隱藏狀態映射到核心寬度的因子:

A^ℓ,m=HeadmA(hℓ)∈Rr×dc,B^ℓ,m=HeadmB(hℓ)∈Rdc×r.\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}.

最後,一個對齊器透過每個模組專屬的線性映射將它們投影到基礎模型的維度:

Aℓ,m=A^ℓ,m Pbin,Bℓ,m=Pbout B^ℓ,m,A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m},

生成的適配器作為標準的 LoRA delta 注入:

yℓ,m=Wℓ,m x+αr Bℓ,m (Aℓ,m x).y_{\ell,m} = W_{\ell,m}\,x + \tfrac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x).

訓練。我們在保持基礎模型參數 θ_b 凍結的同時訓練 {z_t}D_b。我們最小化黃金續寫的負對數似然(NLL)(僅計算答案 token 的損失):

min⁡{zt}, Db  ∑t E(x,y)∼Dttrain[−log⁡p θb ⊕ Db(zt)(y∣x)].\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big].

多任務訓練使用平衡的每個任務步驟和 EMA 損失歸一化,以防止困難任務崩潰到隨機機率。

Ramp Labs - inline image

GIF

多基礎模型訓練。當我們同時在多個基礎模型上訓練時,一個小型基礎模型可能會主導共享潛在變量的梯度。我們對 z_t 應用梯度範數平衡,在優化器步驟之前將每個基礎模型的累積梯度重新縮放到相等的範數,以便每個基礎模型對共享表徵做出同等貢獻。

移植。給定一個未見過的基礎模型 b',我們凍結核心解碼器和 {z_t},並僅在一個小型校準集上重新擬合每個基礎模型專屬的轉換器 {e_ℓ , P_in, P_out }:

min⁡{eℓ}, Pb′in,Pb′out  ∑tE(x,y)∼Dtport[−log⁡p θb′ ⊕ Db′(zt)(y∣x)].\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big].

Ramp Labs - inline image

GIF

5. 實驗設定

任務(14 個標準選擇題)。 TruthfulQA、RTE、CB、COPA、WiC、WSC(SuperGLUE + TruthfulQA;較高的提升空間),以及 BoolQ、ARC-Easy、ARC-Challenge、HellaSwag、OpenBookQA、WinoGrande、CommonsenseQA、SciQ(更廣泛/更大的評估集)。

指標。基於長度歸一化的選項對數似然(acc_norm);我們也報告保留數據的對數損失(log-loss)(黃金續寫的 token 平均 NLL)。§6.1–6.3 使用最佳 epoch 保留數據選擇(每個 epoch 評估),而 §6.4 使用最終 epoch 評估。所有結果均為 3 次隨機種子的平均值 ± 標準差。

數據。每個任務最多 2,000 個樣本——這個硬上限同時應用於源訓練和每個基礎模型專屬轉換器的重新擬合。§6.1–6.3 使用完整的每個任務 2,000 個樣本進行擬合;數據效率研究(§6.4)顯示所需數據遠少於此。評估集大小從 56(CB)到 1,000(BoolQ/WinoGrande/CSQA/SciQ)不等;14 個任務的評估樣本總數約為 7,200 個。

模型。已見過的基礎模型:Qwen3-1.7B、Qwen3-4B。未見過的基礎模型:Qwen3-8B 和 Gemma-3-4B。每個任務的 LoRA 基準線:秩 16,應用於 q/k/v/o + MLP。LoRA Hypernet/PorTAL(§6.1–6.3):秩 8,應用於 q/v。

報告的實驗。(i) LoRA Hypernet 與每個任務 LoRA 的比較;(ii) 在模型系列內部和跨系列移植到未見過基礎模型的能力;(iii) 轉換器重新擬合的數據效率;

6. 結果

6.1 源基礎模型

方法

平均 acc_norm(14 個任務)

基礎模型

0.627

每個任務 LoRA

0.765 ± 0.003

LoRA Hypernet

(聯合訓練 z4B, D4B)(\text{jointly train } z_{4B},\, D_{4B})

0.757 ± 0.003

我們首先確認,在源基礎模型上聯合訓練的學習到的任務潛在變量 z 和解碼器,能夠匹配在相同基礎模型上獨立訓練的每個任務 LoRA。生成的 LoRA Hypernet 平均恢復了每個任務 LoRA 提升的 約 94%,並在 6/14 個任務(RTE、CB、COPA、WiC、ARC-Easy、CommonsenseQA)上達到或超越了它。

6.2 模型系列內部的可攜性

方法(在未見過的 8B 上)

平均 acc_norm

恢復的提升

基礎模型-8B

0.667

每個任務 8B LoRA

0.795 ± 0.004

100%

Cross-LoRA 轉移

0.685 ± 0.001

~14%

LoRA Hypernet(聯合訓練 z8B, D8B)\text{LoRA Hypernet (jointly train } z_{8B},\, D_{8B})

0.785 ± 0.002

~92%

PorTAL

(凍結 z(1.7B+4B),重新擬合 D8B)(\text{frozen } z_{(1.7B+4B)},\ \text{refit } D_{8B})

0.792 ± 0.004

~98%

然後我們直接測試可攜性。我們凍結在 Qwen3-1.7B 和 4B 上聯合學習到的潛在變量和核心解碼器,並僅在未見過的基礎模型上重新擬合輕量的轉換器。在未見過的 Qwen3-8B 上,這恢復了每個任務 LoRA 提升的約 98%,遠高於 Cross-LoRA(一種可比較的跨模型轉移方法)恢復的約 14%。有趣的是,在 Qwen3-8B 上聯合訓練潛在變量和解碼器達到了 0.785(約 92%),在統計上與移植的潛在變量相當,但略低。我們將 PorTAL 略高的性能歸因於跨多個已見過基礎模型的輕微正則化效果。

6.3 跨模型系列的可攜性

未見過的目標模型

基礎模型

每個任務 LoRA

PorTAL

恢復的提升

Gemma-3-4B

0.595

0.778 ± 0.004

0.767 ± 0.004

~94%

然後我們測試跨模型系列的轉移。我們凍結在 Qwen3-1.7B 和 4B 上訓練的潛在變量和核心解碼器,並在 Gemma-3-4B 上重新擬合轉換器。這恢復了從頭訓練 LoRA 提升的約 94%。跨模型系列的轉移幾乎是無損的。

6.4 數據效率

PorTAL 攤銷了任務適應:在已見過的基礎模型上學習一次的潛在變量和核心,應該使後續每個模型的適應成本變得很低,因此移植到新基礎模型所需的數據遠少於從頭訓練一個 LoRA。我們在未見過的 Qwen3-8B 上展示了這一點,掃描了 PorTAL q/v r8、PorTAL full r8 和每個任務 r16-full LoRA 的每個任務數據集大小。對於 PorTAL,這個數據集是它用來重新擬合轉換器的校準集;對於從頭訓練的 LoRA,它是訓練集。

14 個任務的原始平均值,基礎模型-8B 準確率 0.667 / 對數損失 3.819:

Ramp Labs - inline image
Ramp Labs - inline image

在兩個圖中,曲線是視窗大小為 3 的滾動平均值,星號標記每種方法首次達到每個任務 LoRA 峰值的位置。

PorTAL 的數據效率顯著更高。 它使用大約一半的數據就能達到每個任務 LoRA 的最佳準確率,並在高數據範圍內 consistently 超越它。由於凍結的基礎模型主導了每一步的成本,因此用一半的數據達到平台期大約可以將適應 FLOPs 減半。PorTAL 的校準效果也更好,在每個數據量級上,其保留數據的對數損失都低於從頭訓練的 LoRA。

注意:我們在整個過程中與 r16-full LoRA 進行比較,因為我們發現它是我們掃描中最強的每個任務 LoRA 配置。

7. 未來工作

困難任務上的梯度競爭。 在最佳 epoch 選擇下,大多數任務達到了 LoRA 的提升,但少數較困難的常識和知識任務擬合不足,最差的是 OpenBookQA(約 42% 的提升)、WinoGrande(約 57%)和 HellaSwag(約 61%)。這些是最獨特的任務,並且由於秩為 8 的解碼器在整個任務套件中共享,它們的梯度被其他任務壓倒,導致它們仍然擬合不足。我們假設根本原因是優化問題,而不是適配器表達能力有限,因為更大的秩 16 適配器或更大的任務潛在變量都沒有幫助。在未來的工作中,我們希望探索更好的多任務優化方法,例如每個任務的容量或課程學習,或者在共享解碼器之上添加一個小型每個任務殘差。

攤銷的文字描述變體。 一個自然的擴展是將自由的每個任務潛在變量替換為任務描述的編碼器,z_t = E(emb(desc_t)),這樣一個全新的任務可以僅從其描述中進行零樣本適應(類似於 Text-to-LoRA),無需每個任務的訓練。我們將完整的研究留給未來的工作。

其他方向。 更大規模的任務以及超越選擇題的指令/生成任務;以及關於何時凍結的潛在變量足夠、何時需要基礎模型特定適應的理論。

想持續關注我們的下一個 AI 實驗嗎?請在此處訂閱,並在 @RampLabs 上關注我們。Ramp 正在招聘多個職位

參考文獻

  1. Stanford HAI — AI Index Report 2024(基礎模型發佈數量)。https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
  2. Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference(ICML 2024)。https://arxiv.org/abs/2403.04132。更替統計數據(平均第一名維持約 35 天)來自 Arena Leaderboard Dataset, Arena (2025)。https://arena.ai/blog/arena-leaderboard-dataset/
  3. Stanford HAI — AI Index Report 2025https://hai.stanford.edu/ai-index/2025-ai-index-report
  4. Alloc Labs — The Hidden Cost of LLM Fine-Tuninghttps://www.alloclabs.com/blog/hidden-cost-llm-finetuning
  5. Huh et al. — The Platonic Representation Hypothesis(2024)。https://arxiv.org/abs/2405.07987
  6. Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation(ICML 2025)。https://openreview.net/forum?id=zWskCdu3QA
  7. Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA(2026)。https://arxiv.org/abs/2602.06358
  8. Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT)(2025)。https://arxiv.org/abs/2510.16282
  9. Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generationhttps://openreview.net/pdf?id=mrafO7aTYj
  10. Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs(2025)。https://arxiv.org/abs/2508.05232
  11. Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation(2025)。https://arxiv.org/abs/2501.16559
  12. Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer)(2025)。https://arxiv.org/abs/2510.17902
  13. Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models(2021)。https://arxiv.org/abs/2106.09685

附錄

A. 訓練與超參數

設定

數值

優化器

AdamW

學習率(解碼器 / 潛在變量)

1e-3 / 2e-3

Epochs / 批次大小

5 / 4

多任務平衡

平衡的每個任務步驟 + EMA 損失歸一化(0.9 / 0.1),並設定 1e-3 的下限以確保穩定性

每個任務 LoRA 基準線

peft,秩 16,alpha 32,學習率 1e-4,5 個 epochs(最佳 epoch 選擇),模組 q/k/v/o + MLP

初始化

B-heads 和 FiLM γ、β 初始化為零,因此生成的適配器在開始時是恆等映射(ΔW = 0)

硬體

單個 NVIDIA B200(每次運行)

B. 指標

我們報告恢復的提升,而先前的跨模型轉移論文(Cross-LoRA、CAST)則報告保留率。對於方法 m、未適應的基礎模型 b 和從頭訓練的每個任務 LoRA L

恢復的提升=accm−accbaccL−accb,保留率=accmaccL.\text{recovered lift} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}.

當提升空間很小時,保留率接近 100%,而這些論文正是在這種情況下運作的(它們訓練的 LoRA 僅比基礎模型高出約 1%),因此保留率不具區分度。我們在一個提升空間更大的設定中進行評估,因此使用恢復的提升。為了便於比較,以保留率來衡量,Cross-LoRA 的重新實現得分約為 86%(在 CAST 報告的 85-95% 範圍內),但僅恢復了約 14% 的提升,而我們的移植方法得分約為 99% 的保留率 / 約 98% 的恢復提升。

引用此工作

APA 格式

Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research

BibTeX 格式

text
1@techreport{portal2026ramplabs,
2 author = {Geist, Ben},
3 title = {PorTAL: Portable Task Adapters for LLMs},
4 year = {2026},
5 month = {June},
6 institution = {Ramp Labs},
7 url = {https://labs.ramp.com/research}
8}

使用 YouMind 創作爆款文章

收集素材、拆解爆點、生成視覺資產、撰寫內容,並在一個 AI 工作空間裡完成分發。

了解 YouMind

更多可拆解樣本

近期爆款文章

探索更多爆款文章