Forscher: Ben Geist
Zusammenfassung
Parametereffizientes Feintuning (z. B. LoRA) passt ein eingefrorenes LLM an eine Aufgabe an, aber der resultierende Adapter ist an ein Basismodell gebunden. Wenn ein neues Modell veröffentlicht wird, muss die Anpassung von Grund auf neu gelernt werden. Wir untersuchen portable Aufgabenanpassung: das einmalige Erlernen einer Aufgabenanpassung in einer basisagnostischen Form und deren Übertragung auf neue eingefrorene Modelle, indem nur eine kleine, modellspezifische Komponente neu angepasst wird. Konkret lernen wir eine basisagnostische Aufgaben-Latente z_t und einen Hypernetzwerk-Decoder D_b, der schichtweise LoRA-Adapter für eine eingefrorene Basis generiert. Der Decoder besteht aus einem basisagnostischen, gemeinsamen Kern und einem dünnen, basispezifischen Konverter. Um auf eine neue Basis zu portieren, frieren wir z_t und den gemeinsamen Kern ein und passen nur den Konverter mit einer kleinen Datenmenge neu an.
Diese Architektur, die wir PorTAL nennen, erzielt die Genauigkeitssteigerung des aufgabenspezifischen LoRA sowohl innerhalb einer Modellfamilie als auch, bemerkenswerterweise, modellfamilienübergreifend. Wir veranschaulichen dies, indem wir eine Aufgaben-Latente und einen gemeinsamen Kern-Decoder, die auf Qwen3-1.7B und 4B gelernt wurden, einfrieren, dann nur einen dünnen, basispezifischen Konverter neu anpassen und ~98 % des LoRA-Genauigkeitsgewinns auf einem ungesehenen Qwen3-8B und ~94 % auf Gemma-3-4B wiederherstellen. Dies übertrifft die derzeitigen Methoden zur portablen Aufgabenanpassung bei weitem: Die Cross-LoRA-Basislinie erholt nur ~14 % des Gewinns auf dem ungesehenen Qwen3-8B, verglichen mit unseren 98 %. Darüber hinaus ist die Neuanpassung dateneffizient: PorTAL erreicht das Genauigkeitsplateau des LoRA von Grund auf mit etwa halb so vielen Kalibrierungsdaten und ist bei gleicher Genauigkeit durchgängig besser kalibriert (niedrigerer Log-Loss auf dem Validierungssatz) als ein LoRA von Grund auf bei jeder Datenmenge. Dies reduziert die für das Feintuning nachfolgender Basismodelle erforderlichen FLOPs erheblich.
1. Einleitung & Motivation
Neue Sprachmodelle erscheinen in immer schnellerer Folge: Die Anzahl der pro Jahr veröffentlichten bemerkenswerten Foundation-Modelle stieg von 2 im Jahr 2020 auf 9 im Jahr 2021, 32 im Jahr 2022 und 149 im Jahr 2023 [1], und bis 2024-2025 hatte sich der Rhythmus der SOTA-Veröffentlichungen so stark verdichtet, dass das SOTA-Modell die Spitze der öffentlichen Rangliste im Durchschnitt nur noch etwa 35 Tage hielt, gegenüber fast einem Jahr für GPT-4 [2].
Die Anpassung eines Modells an eine Aufgabe ist jedoch ein pro Modell anfallender Kostenpunkt, der sich nicht über diese Veröffentlichungen amortisiert. Ein Feintuning (vollständig oder LoRA) ist an den Gewichtsraum eines Basismodells gebunden; wenn das nächste Modell erscheint, muss die Anpassung auf der neuen Basis wiederholt werden. Parametereffiziente Methoden haben die Stückkosten gesenkt (ein LoRA auf einem 7B-Modell kostet ~$1-3k gegenüber ~$12k für vollständiges Feintuning [3]), aber nicht deren Struktur: Man bezahlt immer noch für Datenkuratierung + einen Trainingsdurchlauf + Evaluierung einmal pro (Aufgabe, Modell), und die Kosten für vollständiges Feintuning skalieren weiterhin mit der ständig wachsenden Modellgröße [4].
Das Ergebnis ist, dass die Kosten für die Aufrechterhaltung eines Portfolios von feingetunten Fähigkeiten auf dem aktuellen Spitzenmodell ungefähr umgekehrt proportional zur Zeit zwischen den Modellveröffentlichungen skalieren. Das erneute Tunen pro Modell wird zum dominierenden, ständig wachsenden Kostenfaktor, um ein System spezialisiert zu halten und gleichzeitig die rohe Intelligenz jeder neueren, intelligenteren Basis zu gewinnen.
Unsere Antwort ist, für die Aufgabenanpassung einmal zu bezahlen und sie über jede zukünftige Basis zu amortisieren. Inspiriert von der Platonischen Repräsentationshypothese [5] lernen wir die Anpassung in einer basisagnostischen Form und übertragen sie auf jedes neue Modell, indem wir nur eine leichte, basispezifische Abbildung anhand einer Handvoll Beispiele neu anpassen.
2. Verwandte Arbeiten
Unser Beitrag kombiniert Ideen aus drei Forschungsrichtungen, die wir hier besprechen.
Einzelbasierte LoRA-Generierung mittels Hypernetzwerken
Text-to-LoRA [6], In-Context SHINE [7] und Profile-to-PEFT [8] amortisieren die Anpassung pro Aufgabe oder pro Benutzer in einem einzigen Vorwärtsdurchlauf, zielen jedoch auf eine feste Basis ab und generalisieren über Aufgaben oder Benutzer hinweg, nicht über Modelle (Text-to-LoRA lässt die modellübergreifende Übertragung explizit offen).
Architekturübergreifende LoRA-Generierung
LoRAGen [9] verwendet ein strukturelles Embedding (Latente + Modul-/Schichten-Embeddings), um LoRA für verschiedene Basen zu erzeugen, wird jedoch durch Rekonstruktion bestehender LoRAs trainiert; wir teilen die Decoder-Form, trainieren aber end-to-end auf den Aufgabenverlust und, entscheidend, frieren eine gemeinsame Aufgaben-Latente und einen gemeinsamen Kern ein und passen nur einen dünnen, basispezifischen Konverter neu an, um eine ungesehene Basis zu erreichen.
Modellübergreifende LoRA-Übertragung
Cross-LoRA [10], LoRA-X [11] und CAST [12] verfolgen dasselbe Ziel wie wir, jedoch durch Übersetzung eines bereits trainierten Adapters mittels Unterraum- oder Aktivierungsmannigfaltigkeits-Angleichung. Stattdessen lernen wir eine basisagnostische Latente und kalibrieren den Konverter pro Basis neu. Wir stellen fest, dass dieser kleine Kalibrierungsschritt wichtig ist. Cross-LoRA, das einen vorhandenen Adapter ohne Neuanpassung überträgt, erholt nur ~14 % des LoRA-Gewinns auf der ungesehenen 8B, verglichen mit unseren ~98 % (§6.2).
Kurz gesagt, es gibt Vorarbeiten zur einzelbasierten LoRA-Generierung, zur architekturübergreifenden Generierung und zur modellübergreifenden Übertragung. Unser Beitrag kombiniert diese zu einem Rezept, das eine gemeinsame Aufgaben-Latente und einen gemeinsamen Kern lernt, diese einfriert und nur einen dünnen, basispezifischen Konverter neu anpasst, um eine neue Basis zu erreichen. Wir betrachten dies als eine Antwort auf die Wartungskosten angesichts eines sich beschleunigenden Modellveröffentlichungsrhythmus und zeigen empirisch, dass es die modellübergreifende Übertragungslinie dominiert.
3. Hintergrund: LoRA und LoRA-Hypernetzwerke
LoRA [13]. Für eine eingefrorene Gewichtsmatrix lernt LoRA ein niedrigrangiges Update, das aus zwei kleinen Matrizen A und B vom Rang r aufgebaut ist; nur diese beiden Matrizen werden trainiert:
ΔW=αrBA,A∈Rr×din, B∈Rdout×r, r≪d,y=Wx+αrB(Ax)\Delta W = \tfrac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \tfrac{\alpha}{r} B(Ax)
LoRA-Hypernetzwerke. Anstatt A und B direkt zu trainieren, generiert ein Hypernetzwerk sie aus einem konditionierenden Input. Text-to-LoRA [6] trainiert ein Hypernetzwerk, um einen vollständigen LoRA für ein einzelnes Basismodell aus einem Aufgabenbeschreibungs-Embedding zu erzeugen, end-to-end durch die eingefrorene Basis. Dies trainiert ein Hypernetzwerk anstelle eines separaten LoRA für jede Aufgabe, bleibt aber einzelbasiert und generalisiert über Aufgaben hinweg, nicht über Modelle. Unser Design übernimmt die Idee der Hypernetzwerk-LoRA-Generierung, zielt aber auf ein anderes Ziel ab, die basisübergreifende Übertragung einer gemeinsamen, gelernten Aufgabenrepräsentation.
4. Methode
Design. Unser Ziel ist eine Aufgabenanpassung, die einmal gelernt und kostengünstig auf neue eingefrorene Modelle portiert werden kann. Wir teilen den Adapter-Generator in zwei Teile auf: einen großen basisagnostischen Kern-Decoder, der von allen Modellen gemeinsam genutzt wird und niedrigrangige Faktoren mit einer festen Kernbreite d_c emittiert; und einen dünnen, basispezifischen Konverter, der die Eingaben des gemeinsamen Kerns konditioniert und seine Ausgaben auf die Dimensionen eines bestimmten Modells projiziert. Wir trainieren auf einer oder mehreren eingefrorenen Basen und portieren dann auf ein ungesehenes Modell, indem wir nur diesen kleinen, basispezifischen Konverter neu anpassen.
Dies amortisiert die gelernte Anpassung in eine gemeinsame Repräsentation und macht jede neue Basis kostengünstig unterstützbar. Durch die Konstruktion enthalten die gemeinsame Latente und der Kern die meisten Parameter und absorbieren sowohl die Aufgabenrepräsentation als auch den Großteil ihrer Abbildung in den Adapterraum; nur ein kleiner Konverter bleibt modellspezifisch. Wir definieren die Komponenten unten.
Aufbau. Eine eingefrorene Basis b habe Transformerschichten ℓ = 1, …, L_b mit schichtweisen Gewichtsmatrizen W_ℓ, m an den angepassten Modulen m ∈ {q_proj, v_proj} (wir erweitern m auf alle Aufmerksamkeits- und MLP-Projektionen in der Vollmodul-Variante). θ_b bezeichne die eingefrorenen Basismodellparameter.
Aufgaben-Latente. Jeder Aufgabe t wird eine gelernte Aufgaben-Latente z_t zugeordnet, ein basisagnostischer Vektor der Dimension d_z = 256.
Decoder. Unser Hypernetzwerk D_b besteht aus einem basisagnostischen Kern-Decoder und einem dünnen, basispezifischen Konverter; es bildet die Aufgaben-Latente z_t und ein schichtweises Embedding e_ℓ auf die LoRA-Faktoren jedes Moduls ab:
(Aℓ,m, Bℓ,m)=Db(zt,eℓ,m),Aℓ,m∈Rr×dℓin, Bℓ,m∈Rdℓ,mout×r(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}
Intern konditionieren wir einen einzelnen gemeinsamen Stamm mit FiLM. Der Stamm nimmt das schichtweise Embedding e_ℓ als Eingabe, während die Aufgaben-Latente z_t seine verborgenen Merkmale skaliert und verschiebt. Dies erzeugt einen schichtweisen verborgenen Zustand:
hℓ=ϕ(W2 [(1+γ(zt))⊙ψ(W1[zt;eℓ])+β(zt)]),h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big),
Pro-Modul-Köpfe bilden diesen verborgenen Zustand dann auf Faktoren der Kernbreite ab:
A^ℓ,m=HeadmA(hℓ)∈Rr×dc,B^ℓ,m=HeadmB(hℓ)∈Rdc×r.\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}.
Schließlich projiziert ein Aligner sie mittels pro-Modul linearer Abbildungen auf die Dimensionen der Basis:
Aℓ,m=A^ℓ,m Pbin,Bℓ,m=Pbout B^ℓ,m,A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m},
Der generierte Adapter wird als standardmäßiges LoRA-Delta injiziert:
yℓ,m=Wℓ,m x+αr Bℓ,m (Aℓ,m x).y_{\ell,m} = W_{\ell,m}\,x + \tfrac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x).
Training. Wir trainieren {z_t} und D_b, während die Basismodellparameter θ_b eingefroren bleiben. Wir minimieren den Gold-Kontinuierungs-NLL (Verlust nur auf Antwort-Token):
min{zt}, Db ∑t E(x,y)∼Dttrain[−logp θb ⊕ Db(zt)(y∣x)].\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big].
Das Multi-Task-Training verwendet ausgeglichene Schritte pro Aufgabe mit EMA-Verlustnormalisierung, um zu verhindern, dass schwierige Aufgaben auf Zufallsniveau kollabieren.

GIF
Multi-Basis-Training. Wenn wir gleichzeitig auf mehreren Basen trainieren, kann eine kleine Basis den Gradienten der gemeinsamen Latenten dominieren. Wir wenden eine Gradientennorm-Balancierung auf z_t an, indem wir den akkumulierten Gradienten jeder Basis vor dem Optimiererschritt auf gleiche Norm umskalieren, sodass jede Basis gleichermaßen zur gemeinsamen Repräsentation beiträgt.
Portierung. Gegeben eine ungesehene Basis b', frieren wir den Kern-Decoder und {z_t} ein und passen nur den basispezifischen Konverter {e_ℓ , P_in, P_out } auf einem kleinen Kalibrierungsset neu an:
min{eℓ}, Pb′in,Pb′out ∑tE(x,y)∼Dtport[−logp θb′ ⊕ Db′(zt)(y∣x)].\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big].

GIF
5. Experimenteller Aufbau
Aufgaben (14, standardmäßige Mehrfachauswahl). TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; höherer Spielraum) und BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (breiter/größere Auswertung).
Metrik. Längennormalisierte Log-Wahrscheinlichkeit über die Auswahlmöglichkeiten (acc_norm); wir berichten auch den Log-Loss auf dem Validierungssatz (Token-Mittelwert des NLL der Gold-Kontinuierung). §6.1–6.3 verwenden die beste Epoche (Auswertung pro Epoche), während §6.4 die Auswertung der letzten Epoche verwendet. Alle sind Mittelwerte über 3 Seeds ± Standardabweichung.
Daten. Bis zu 2.000 Beispiele/Aufgabe — eine harte Obergrenze, die sowohl auf das Quelltraining als auch auf die Neuanpassung des basispezifischen Konverters angewendet wird. §6.1–6.3 passen auf den vollen 2.000/Aufgabe; die Studie zur Dateneffizienz (§6.4) zeigt, dass weit weniger ausreichen. Die Evaluierungssets umfassen 56 (CB) bis 1.000 (BoolQ/WinoGrande/CSQA/SciQ); insgesamt ~7.200 Evaluierungsbeispiele im 14-Aufgaben-Set.
Modelle. Gesehene Basen: Qwen3-1.7B, Qwen3-4B. Ungesehene Basen: Qwen3-8B und Gemma-3-4B. Pro-Aufgabe LoRA-Basislinien: Rang 16 auf q/k/v/o + MLP. LoRA Hypernet/PorTAL (§6.1–6.3): Rang 8 auf q/v.
Berichtete Experimente. (i) LoRA Hypernet vs. Pro-Aufgabe LoRA; (ii) Portabilität auf ungesehene Basen innerhalb und zwischen Familien; (iii) Dateneffizienz der Konverter-Neuanpassung;
6. Ergebnisse
6.1 Quellbasis
Methode
Durchschn. acc_norm (14 Aufgaben)
Basis
0,627
Pro-Aufgabe LoRA
0,765 ± 0,003
LoRA Hypernet
(gemeinsam trainieren z4B, D4B)(\text{gemeinsam trainieren } z_{4B},\, D_{4B})
0,757 ± 0,003
Wir bestätigen zunächst, dass eine gelernte Aufgaben-Latente z und ein Decoder, die gemeinsam auf der Quellbasis trainiert wurden, mit unabhängig auf derselben Basis trainierten Pro-Aufgabe LoRAs mithalten können. Das generierte LoRA Hypernet erholt im Durchschnitt ~94 % des Pro-Aufgabe LoRA-Gewinns und erreicht oder übertrifft diesen bei 6/14 Aufgaben (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA).
6.2 Familieninterne Portabilität
Methode (auf ungesehener 8B)
Durchschn. acc_norm
Erholter Gewinn
Basis-8B
0,667
—
Pro-Aufgabe 8B LoRA
0,795 ± 0,004
100 %
Cross-LoRA-Übertragung
0,685 ± 0,001
~14 %
LoRA Hypernet (gemeinsam trainieren z8B, D8B)\text{LoRA Hypernet (gemeinsam trainieren } z_{8B},\, D_{8B})
0,785 ± 0,002
~92 %
PorTAL
(eingefrorenes z(1.7B+4B), Neuanpassung D8B)(\text{eingefrorenes } z_{(1.7B+4B)},\ \text{Neuanpassung } D_{8B})
0,792 ± 0,004
~98 %
Anschließend testen wir die Portabilität direkt. Wir frieren die Latente und den Kern-Decoder ein, die gemeinsam auf Qwen3-1.7B und 4B gelernt wurden, und passen nur den dünnen Konverter auf einer ungesehenen Basis neu an. Auf einem ungesehenen Qwen3-8B erholt dies ~98 % des Pro-Aufgabe LoRA-Gewinns, weit über den ~14 %, die von Cross-LoRA, der vergleichbaren modellübergreifenden Übertragungsmethode, erholt werden. Interessanterweise erreicht das gemeinsame Training der Latenten und des Decoders auf Qwen3-8B 0,785 (~92 %), statistisch auf Augenhöhe mit der portierten Latenten, aber geringfügig niedriger. Wir führen die etwas höhere Leistung von PorTAL auf eine milde Regularisierung über die mehreren gesehenen Basen zurück.
6.3 Familienübergreifende Portabilität
Ungesehenes Ziel
Basis
Pro-Aufgabe LoRA
PorTAL
Erholter Gewinn
Gemma-3-4B
0,595
0,778 ± 0,004
0,767 ± 0,004
~94 %
Anschließend testen wir die familienübergreifende Übertragung. Wir frieren die Latente und den Kern-Decoder ein, die auf Qwen3-1.7B und 4B trainiert wurden, und passen den Konverter auf Gemma-3-4B neu an. Dies erholt ~94 % des LoRA-Gewinns von Grund auf. Die familienübergreifende Übertragung ist nahezu verlustfrei.
6.4 Dateneffizienz
PorTAL amortisiert die Aufgabenanpassung: Eine einmal auf den gesehenen Basen gelernte Latente und ein Kern sollten jedes nachfolgende Modell kostengünstig anpassbar machen, sodass die Portierung auf eine neue Basis weit weniger Daten benötigt als das Training eines LoRA von Grund auf. Wir zeigen dies auf dem ungesehenen Qwen3-8B, indem wir die Aufgabensetgröße für PorTAL q/v r8, PorTAL voll r8 und Pro-Aufgabe r16-voll LoRA variieren. Für PorTAL ist dieses Set das Kalibrierungsset, auf dem es den Konverter neu anpasst; für das LoRA von Grund auf ist es das Trainingsset.
Rohdaten der 14-Aufgaben-Mittelwerte, Basis-8B acc 0,667 / Log-Loss 3,819:


In beiden Diagrammen sind die Kurven ein gleitender Durchschnitt über ein Fenster von 3, und Sterne markieren, wo jede Methode zum ersten Mal den Spitzenwert des Pro-Aufgabe LoRA erreicht.
PorTAL ist wesentlich dateneffizienter. Es erreicht die beste Genauigkeit des Pro-Aufgabe LoRA mit etwa der Hälfte der Daten und übertrifft es im hohen Datenbereich durchgängig. Da die eingefrorene Basis die Kosten pro Schritt dominiert, halbiert das Erreichen des Plateaus mit der Hälfte der Daten ungefähr die Anpassungs-FLOPs. PorTAL ist auch besser kalibriert, mit einem niedrigeren Log-Loss auf dem Validierungssatz als das LoRA von Grund auf bei jeder Datenmenge.
Hinweis: Wir vergleichen durchgängig mit r16-voll LoRA, da wir festgestellt haben, dass dies die stärkste Pro-Aufgabe LoRA-Konfiguration in unserem Durchlauf war.
7. Zukünftige Arbeiten
Gradientenkonkurrenz bei schwierigen Aufgaben. Unter Auswahl der besten Epoche erreichen die meisten Aufgaben den LoRA-Gewinn, aber einige schwierigere Aufgaben des gesunden Menschenverstands und Wissens werden unterangepasst, am schlechtesten OpenBookQA (~42 % des Gewinns), WinoGrande (~57 %) und HellaSwag (~61 %). Dies sind die unterschiedlichsten Aufgaben, und da der Rang-8-Decoder über das gesamte Set geteilt wird, werden ihre Gradienten von den anderen überwogen und sie bleiben unterangepasst. Wir vermuten, dass die Ursache in der Optimierung liegt, nicht in der begrenzten Ausdruckskraft des Adapters, da weder ein größerer Rang-16-Adapter noch eine größere Aufgaben-Latente halfen. In zukünftigen Arbeiten hoffen wir, eine bessere Multi-Task-Optimierung zu verfolgen, wie z. B. Kapazität oder Curriculum pro Aufgabe, oder ein kleines, aufgabenspezifisches Residuum zusätzlich zum gemeinsamen Decoder.
Amortisierte Textbeschreibungsvariante. Eine naheliegende Erweiterung ersetzt die freie Aufgaben-Latente pro Aufgabe durch einen Encoder über eine Aufgabenbeschreibung, z_t = E(emb(desc_t)), sodass eine brandneue Aufgabe ausschließlich anhand ihrer Beschreibung ohne Beispiele (Zero-Shot) angepasst werden könnte (à la Text-to-LoRA), ohne Training pro Aufgabe. Wir überlassen eine vollständige Untersuchung zukünftigen Arbeiten.
Andere Richtungen. Größere Aufgaben und Aufgaben zur Instruktions-/Generierung über die Mehrfachauswahl hinaus; und Theorie darüber, wann eine eingefrorene Latente ausreicht im Vergleich zu wann eine basisspezifische Anpassung erforderlich ist.
Möchten Sie über unsere nächsten KI-Experimente auf dem Laufenden bleiben? Abonnieren Sie hier und folgen Sie uns auf @RampLabs. Wir stellen auch in verschiedenen Rollen bei Ramp ein.
Referenzen
- Stanford HAI — AI Index Report 2024 (Anzahl der Foundation-Modell-Veröffentlichungen). https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
- Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024). https://arxiv.org/abs/2403.04132. Fluktuationsstatistik (~35 Tage auf Platz 1) aus dem Arena Leaderboard Dataset, Arena (2025). https://arena.ai/blog/arena-leaderboard-dataset/
- Stanford HAI — AI Index Report 2025. https://hai.stanford.edu/ai-index/2025-ai-index-report
- Alloc Labs — The Hidden Cost of LLM Fine-Tuning. https://www.alloclabs.com/blog/hidden-cost-llm-finetuning
- Huh et al. — The Platonic Representation Hypothesis (2024). https://arxiv.org/abs/2405.07987
- Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025). https://openreview.net/forum?id=zWskCdu3QA
- Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026). https://arxiv.org/abs/2602.06358
- Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025). https://arxiv.org/abs/2510.16282
- Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generation. https://openreview.net/pdf?id=mrafO7aTYj
- Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025). https://arxiv.org/abs/2508.05232
- Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025). https://arxiv.org/abs/2501.16559
- Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025). https://arxiv.org/abs/2510.17902
- Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021). https://arxiv.org/abs/2106.09685
Anhang
A. Training & Hyperparameter
Einstellung
Wert
Optimierer
AdamW
LR (Decoder / Latente)
1e-3 / 2e-3
Epochen / Batchgröße
5 / 4
Multi-Task-Balancierung
ausgeglichene Schritte pro Aufgabe + EMA-Verlustnormalisierung (0,9 / 0,1) mit einem Minimum von 1e-3 für Stabilität
Pro-Aufgabe LoRA-Basislinie
peft, Rang 16, Alpha 32, lr 1e-4, 5 Epochen (Auswahl der besten Epoche), Module q/k/v/o + MLP
Initialisierung
B-Köpfe und FiLM γ, β null-initialisiert, sodass der generierte Adapter die Identität ist (ΔW = 0) zu Beginn
Hardware
einzelne NVIDIA B200 (pro Durchlauf)
B. Metriken
Wir berichten den erholten Gewinn, während frühere Arbeiten zur modellübergreifenden Übertragung (Cross-LoRA, CAST) stattdessen die Retention angeben. Für eine Methode m, eine nicht angepasste Basis b und ein Pro-Aufgabe LoRA von Grund auf L:
erholter Gewinn=accm−accbaccL−accb,Retention=accmaccL.\text{erholter Gewinn} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{Retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}.
Die Retention liegt nahe bei 100 %, wenn der Spielraum gering ist, dem Bereich, in dem diese Arbeiten operieren (ihr trainiertes LoRA fügt nur ~1 % über der Basis hinzu), daher ist sie nicht diskriminierend. Wir evaluieren in einem Umfeld mit höherem Spielraum und verwenden daher den erholten Gewinn. Zur Vergleichbarkeit: In Retentionsbegriffen erreicht die Cross-LoRA-Neuimplementierung ~86 % (innerhalb des von CAST berichteten Bereichs von 85-95 %), während sie nur ~14 % des Gewinns erholt, wohingegen unsere Portierung ~99 % Retention / ~98 % erholten Gewinn erzielt.
Zitieren Sie diese Arbeit
APA
Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research
BibTeX
1@techreport{portal2026ramplabs,2 author = {Geist, Ben},3 title = {PorTAL: Portable Task Adapters for LLMs},4 year = {2026},5 month = {June},6 institution = {Ramp Labs},7 url = {https://labs.ramp.com/research}8}





