PorTAL: Portable Task Adapters für modellübergreifendes LLM-Fine-Tuning

Zusammenfassung

Parametereffizientes Feintuning (z. B. LoRA) passt ein eingefrorenes LLM an eine Aufgabe an, aber der resultierende Adapter ist an ein Basismodell gebunden. Wenn ein neues Modell veröffentlicht wird, muss die Anpassung von Grund auf neu gelernt werden. Wir untersuchen portable Aufgabenanpassung: das einmalige Erlernen einer Aufgabenanpassung in einer basisagnostischen Form und deren Übertragung auf neue eingefrorene Modelle, indem nur eine kleine, modellspezifische Komponente neu angepasst wird. Konkret lernen wir eine basisagnostische Aufgaben-Latente z_t und einen Hypernetzwerk-Decoder D_b, der schichtweise LoRA-Adapter für eine eingefrorene Basis generiert. Der Decoder besteht aus einem basisagnostischen, gemeinsamen Kern und einem dünnen, basispezifischen Konverter. Um auf eine neue Basis zu portieren, frieren wir z_t und den gemeinsamen Kern ein und passen nur den Konverter mit einer kleinen Datenmenge neu an.

Diese Architektur, die wir PorTAL nennen, erzielt die Genauigkeitssteigerung des aufgabenspezifischen LoRA sowohl innerhalb einer Modellfamilie als auch, bemerkenswerterweise, modellfamilienübergreifend. Wir veranschaulichen dies, indem wir eine Aufgaben-Latente und einen gemeinsamen Kern-Decoder, die auf Qwen3-1.7B und 4B gelernt wurden, einfrieren, dann nur einen dünnen, basispezifischen Konverter neu anpassen und ~98 % des LoRA-Genauigkeitsgewinns auf einem ungesehenen Qwen3-8B und ~94 % auf Gemma-3-4B wiederherstellen. Dies übertrifft die derzeitigen Methoden zur portablen Aufgabenanpassung bei weitem: Die Cross-LoRA-Basislinie erholt nur ~14 % des Gewinns auf dem ungesehenen Qwen3-8B, verglichen mit unseren 98 %. Darüber hinaus ist die Neuanpassung dateneffizient: PorTAL erreicht das Genauigkeitsplateau des LoRA von Grund auf mit etwa halb so vielen Kalibrierungsdaten und ist bei gleicher Genauigkeit durchgängig besser kalibriert (niedrigerer Log-Loss auf dem Validierungssatz) als ein LoRA von Grund auf bei jeder Datenmenge. Dies reduziert die für das Feintuning nachfolgender Basismodelle erforderlichen FLOPs erheblich.

1. Einleitung & Motivation

Neue Sprachmodelle erscheinen in immer schnellerer Folge: Die Anzahl der pro Jahr veröffentlichten bemerkenswerten Foundation-Modelle stieg von 2 im Jahr 2020 auf 9 im Jahr 2021, 32 im Jahr 2022 und 149 im Jahr 2023 [1], und bis 2024-2025 hatte sich der Rhythmus der SOTA-Veröffentlichungen so stark verdichtet, dass das SOTA-Modell die Spitze der öffentlichen Rangliste im Durchschnitt nur noch etwa 35 Tage hielt, gegenüber fast einem Jahr für GPT-4 [2].

Die Anpassung eines Modells an eine Aufgabe ist jedoch ein pro Modell anfallender Kostenpunkt, der sich nicht über diese Veröffentlichungen amortisiert. Ein Feintuning (vollständig oder LoRA) ist an den Gewichtsraum eines Basismodells gebunden; wenn das nächste Modell erscheint, muss die Anpassung auf der neuen Basis wiederholt werden. Parametereffiziente Methoden haben die Stückkosten gesenkt (ein LoRA auf einem 7B-Modell kostet ~$1-3k gegenüber ~$12k für vollständiges Feintuning [3]), aber nicht deren Struktur: Man bezahlt immer noch für Datenkuratierung + einen Trainingsdurchlauf + Evaluierung einmal pro (Aufgabe, Modell), und die Kosten für vollständiges Feintuning skalieren weiterhin mit der ständig wachsenden Modellgröße [4].

Das Ergebnis ist, dass die Kosten für die Aufrechterhaltung eines Portfolios von feingetunten Fähigkeiten auf dem aktuellen Spitzenmodell ungefähr umgekehrt proportional zur Zeit zwischen den Modellveröffentlichungen skalieren. Das erneute Tunen pro Modell wird zum dominierenden, ständig wachsenden Kostenfaktor, um ein System spezialisiert zu halten und gleichzeitig die rohe Intelligenz jeder neueren, intelligenteren Basis zu gewinnen.

Unsere Antwort ist, für die Aufgabenanpassung einmal zu bezahlen und sie über jede zukünftige Basis zu amortisieren. Inspiriert von der Platonischen Repräsentationshypothese [5] lernen wir die Anpassung in einer basisagnostischen Form und übertragen sie auf jedes neue Modell, indem wir nur eine leichte, basispezifische Abbildung anhand einer Handvoll Beispiele neu anpassen.

2. Verwandte Arbeiten

Unser Beitrag kombiniert Ideen aus drei Forschungsrichtungen, die wir hier besprechen.

Einzelbasierte LoRA-Generierung mittels Hypernetzwerken

Text-to-LoRA [6], In-Context SHINE [7] und Profile-to-PEFT [8] amortisieren die Anpassung pro Aufgabe oder pro Benutzer in einem einzigen Vorwärtsdurchlauf, zielen jedoch auf eine feste Basis ab und generalisieren über Aufgaben oder Benutzer hinweg, nicht über Modelle (Text-to-LoRA lässt die modellübergreifende Übertragung explizit offen).

Architekturübergreifende LoRA-Generierung

LoRAGen [9] verwendet ein strukturelles Embedding (Latente + Modul-/Schichten-Embeddings), um LoRA für verschiedene Basen zu erzeugen, wird jedoch durch Rekonstruktion bestehender LoRAs trainiert; wir teilen die Decoder-Form, trainieren aber end-to-end auf den Aufgabenverlust und, entscheidend, frieren eine gemeinsame Aufgaben-Latente und einen gemeinsamen Kern ein und passen nur einen dünnen, basispezifischen Konverter neu an, um eine ungesehene Basis zu erreichen.

Modellübergreifende LoRA-Übertragung

Cross-LoRA [10], LoRA-X [11] und CAST [12] verfolgen dasselbe Ziel wie wir, jedoch durch Übersetzung eines bereits trainierten Adapters mittels Unterraum- oder Aktivierungsmannigfaltigkeits-Angleichung. Stattdessen lernen wir eine basisagnostische Latente und kalibrieren den Konverter pro Basis neu. Wir stellen fest, dass dieser kleine Kalibrierungsschritt wichtig ist. Cross-LoRA, das einen vorhandenen Adapter ohne Neuanpassung überträgt, erholt nur ~14 % des LoRA-Gewinns auf der ungesehenen 8B, verglichen mit unseren ~98 % (§6.2).

Kurz gesagt, es gibt Vorarbeiten zur einzelbasierten LoRA-Generierung, zur architekturübergreifenden Generierung und zur modellübergreifenden Übertragung. Unser Beitrag kombiniert diese zu einem Rezept, das eine gemeinsame Aufgaben-Latente und einen gemeinsamen Kern lernt, diese einfriert und nur einen dünnen, basispezifischen Konverter neu anpasst, um eine neue Basis zu erreichen. Wir betrachten dies als eine Antwort auf die Wartungskosten angesichts eines sich beschleunigenden Modellveröffentlichungsrhythmus und zeigen empirisch, dass es die modellübergreifende Übertragungslinie dominiert.

3. Hintergrund: LoRA und LoRA-Hypernetzwerke

LoRA [13]. Für eine eingefrorene Gewichtsmatrix lernt LoRA ein niedrigrangiges Update, das aus zwei kleinen Matrizen A und B vom Rang r aufgebaut ist; nur diese beiden Matrizen werden trainiert:

ΔW=αrBA,A∈Rr×din, B∈Rdout×r, r≪d,y=Wx+αrB(Ax)\Delta W = \tfrac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \tfrac{\alpha}{r} B(Ax)

LoRA-Hypernetzwerke. Anstatt A und B direkt zu trainieren, generiert ein Hypernetzwerk sie aus einem konditionierenden Input. Text-to-LoRA [6] trainiert ein Hypernetzwerk, um einen vollständigen LoRA für ein einzelnes Basismodell aus einem Aufgabenbeschreibungs-Embedding zu erzeugen, end-to-end durch die eingefrorene Basis. Dies trainiert ein Hypernetzwerk anstelle eines separaten LoRA für jede Aufgabe, bleibt aber einzelbasiert und generalisiert über Aufgaben hinweg, nicht über Modelle. Unser Design übernimmt die Idee der Hypernetzwerk-LoRA-Generierung, zielt aber auf ein anderes Ziel ab, die basisübergreifende Übertragung einer gemeinsamen, gelernten Aufgabenrepräsentation.

4. Methode

Design. Unser Ziel ist eine Aufgabenanpassung, die einmal gelernt und kostengünstig auf neue eingefrorene Modelle portiert werden kann. Wir teilen den Adapter-Generator in zwei Teile auf: einen großen basisagnostischen Kern-Decoder, der von allen Modellen gemeinsam genutzt wird und niedrigrangige Faktoren mit einer festen Kernbreite d_c emittiert; und einen dünnen, basispezifischen Konverter, der die Eingaben des gemeinsamen Kerns konditioniert und seine Ausgaben auf die Dimensionen eines bestimmten Modells projiziert. Wir trainieren auf einer oder mehreren eingefrorenen Basen und portieren dann auf ein ungesehenes Modell, indem wir nur diesen kleinen, basispezifischen Konverter neu anpassen.

Dies amortisiert die gelernte Anpassung in eine gemeinsame Repräsentation und macht jede neue Basis kostengünstig unterstützbar. Durch die Konstruktion enthalten die gemeinsame Latente und der Kern die meisten Parameter und absorbieren sowohl die Aufgabenrepräsentation als auch den Großteil ihrer Abbildung in den Adapterraum; nur ein kleiner Konverter bleibt modellspezifisch. Wir definieren die Komponenten unten.

Aufbau. Eine eingefrorene Basis b habe Transformerschichten ℓ = 1, …, L_b mit schichtweisen Gewichtsmatrizen W_ℓ, m an den angepassten Modulen m ∈ {q_proj, v_proj} (wir erweitern m auf alle Aufmerksamkeits- und MLP-Projektionen in der Vollmodul-Variante). θ_b bezeichne die eingefrorenen Basismodellparameter.

Aufgaben-Latente. Jeder Aufgabe t wird eine gelernte Aufgaben-Latente z_t zugeordnet, ein basisagnostischer Vektor der Dimension d_z = 256.

Decoder. Unser Hypernetzwerk D_b besteht aus einem basisagnostischen Kern-Decoder und einem dünnen, basispezifischen Konverter; es bildet die Aufgaben-Latente z_t und ein schichtweises Embedding e_ℓ auf die LoRA-Faktoren jedes Moduls ab:

(Aℓ,m, Bℓ,m)=Db(zt,eℓ,m),Aℓ,m∈Rr×dℓin, Bℓ,m∈Rdℓ,mout×r(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}

Intern konditionieren wir einen einzelnen gemeinsamen Stamm mit FiLM. Der Stamm nimmt das schichtweise Embedding e_ℓ als Eingabe, während die Aufgaben-Latente z_t seine verborgenen Merkmale skaliert und verschiebt. Dies erzeugt einen schichtweisen verborgenen Zustand:

hℓ=ϕ(W2 [(1+γ(zt))⊙ψ(W1[zt;eℓ])+β(zt)]),h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big),

Pro-Modul-Köpfe bilden diesen verborgenen Zustand dann auf Faktoren der Kernbreite ab:

A^ℓ,m=HeadmA(hℓ)∈Rr×dc,B^ℓ,m=HeadmB(hℓ)∈Rdc×r.\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}.

Schließlich projiziert ein Aligner sie mittels pro-Modul linearer Abbildungen auf die Dimensionen der Basis:

Aℓ,m=A^ℓ,m Pbin,Bℓ,m=Pbout B^ℓ,m,A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m},

Der generierte Adapter wird als standardmäßiges LoRA-Delta injiziert:

yℓ,m=Wℓ,m x+αr Bℓ,m (Aℓ,m x).y_{\ell,m} = W_{\ell,m}\,x + \tfrac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x).

Training. Wir trainieren {z_t} und D_b, während die Basismodellparameter θ_b eingefroren bleiben. Wir minimieren den Gold-Kontinuierungs-NLL (Verlust nur auf Antwort-Token):

min⁡{zt}, Db ∑t E(x,y)∼Dttrain[−log⁡p θb ⊕ Db(zt)(y∣x)].\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big].

Das Multi-Task-Training verwendet ausgeglichene Schritte pro Aufgabe mit EMA-Verlustnormalisierung, um zu verhindern, dass schwierige Aufgaben auf Zufallsniveau kollabieren.

GIF

Multi-Basis-Training. Wenn wir gleichzeitig auf mehreren Basen trainieren, kann eine kleine Basis den Gradienten der gemeinsamen Latenten dominieren. Wir wenden eine Gradientennorm-Balancierung auf z_t an, indem wir den akkumulierten Gradienten jeder Basis vor dem Optimiererschritt auf gleiche Norm umskalieren, sodass jede Basis gleichermaßen zur gemeinsamen Repräsentation beiträgt.

Portierung. Gegeben eine ungesehene Basis b', frieren wir den Kern-Decoder und {z_t} ein und passen nur den basispezifischen Konverter {e_ℓ , P_in, P_out } auf einem kleinen Kalibrierungsset neu an:

min⁡{eℓ}, Pb′in,Pb′out ∑tE(x,y)∼Dtport[−log⁡p θb′ ⊕ Db′(zt)(y∣x)].\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big].

GIF

5. Experimenteller Aufbau

Aufgaben (14, standardmäßige Mehrfachauswahl). TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; höherer Spielraum) und BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (breiter/größere Auswertung).

Metrik. Längennormalisierte Log-Wahrscheinlichkeit über die Auswahlmöglichkeiten (acc_norm); wir berichten auch den Log-Loss auf dem Validierungssatz (Token-Mittelwert des NLL der Gold-Kontinuierung). §6.1–6.3 verwenden die beste Epoche (Auswertung pro Epoche), während §6.4 die Auswertung der letzten Epoche verwendet. Alle sind Mittelwerte über 3 Seeds ± Standardabweichung.

Daten. Bis zu 2.000 Beispiele/Aufgabe — eine harte Obergrenze, die sowohl auf das Quelltraining als auch auf die Neuanpassung des basispezifischen Konverters angewendet wird. §6.1–6.3 passen auf den vollen 2.000/Aufgabe; die Studie zur Dateneffizienz (§6.4) zeigt, dass weit weniger ausreichen. Die Evaluierungssets umfassen 56 (CB) bis 1.000 (BoolQ/WinoGrande/CSQA/SciQ); insgesamt ~7.200 Evaluierungsbeispiele im 14-Aufgaben-Set.

Modelle. Gesehene Basen: Qwen3-1.7B, Qwen3-4B. Ungesehene Basen: Qwen3-8B und Gemma-3-4B. Pro-Aufgabe LoRA-Basislinien: Rang 16 auf q/k/v/o + MLP. LoRA Hypernet/PorTAL (§6.1–6.3): Rang 8 auf q/v.

Berichtete Experimente. (i) LoRA Hypernet vs. Pro-Aufgabe LoRA; (ii) Portabilität auf ungesehene Basen innerhalb und zwischen Familien; (iii) Dateneffizienz der Konverter-Neuanpassung;

6. Ergebnisse

6.1 Quellbasis

Methode

Durchschn. acc_norm (14 Aufgaben)

Basis

0,627

Pro-Aufgabe LoRA

0,765 ± 0,003

LoRA Hypernet

(gemeinsam trainieren z4B, D4B)(\text{gemeinsam trainieren } z_{4B},\, D_{4B})

0,757 ± 0,003

Wir bestätigen zunächst, dass eine gelernte Aufgaben-Latente z und ein Decoder, die gemeinsam auf der Quellbasis trainiert wurden, mit unabhängig auf derselben Basis trainierten Pro-Aufgabe LoRAs mithalten können. Das generierte LoRA Hypernet erholt im Durchschnitt ~94 % des Pro-Aufgabe LoRA-Gewinns und erreicht oder übertrifft diesen bei 6/14 Aufgaben (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA).

6.2 Familieninterne Portabilität

Methode (auf ungesehener 8B)

Durchschn. acc_norm

Erholter Gewinn

Basis-8B

0,667

—

Pro-Aufgabe 8B LoRA

0,795 ± 0,004

100 %

Cross-LoRA-Übertragung

0,685 ± 0,001

~14 %

LoRA Hypernet (gemeinsam trainieren z8B, D8B)\text{LoRA Hypernet (gemeinsam trainieren } z_{8B},\, D_{8B})

0,785 ± 0,002

~92 %

PorTAL

(eingefrorenes z(1.7B+4B), Neuanpassung D8B)(\text{eingefrorenes } z_{(1.7B+4B)},\ \text{Neuanpassung } D_{8B})

0,792 ± 0,004

~98 %

Anschließend testen wir die Portabilität direkt. Wir frieren die Latente und den Kern-Decoder ein, die gemeinsam auf Qwen3-1.7B und 4B gelernt wurden, und passen nur den dünnen Konverter auf einer ungesehenen Basis neu an. Auf einem ungesehenen Qwen3-8B erholt dies ~98 % des Pro-Aufgabe LoRA-Gewinns, weit über den ~14 %, die von Cross-LoRA, der vergleichbaren modellübergreifenden Übertragungsmethode, erholt werden. Interessanterweise erreicht das gemeinsame Training der Latenten und des Decoders auf Qwen3-8B 0,785 (~92 %), statistisch auf Augenhöhe mit der portierten Latenten, aber geringfügig niedriger. Wir führen die etwas höhere Leistung von PorTAL auf eine milde Regularisierung über die mehreren gesehenen Basen zurück.

6.3 Familienübergreifende Portabilität

Ungesehenes Ziel

Basis

Pro-Aufgabe LoRA

PorTAL

Erholter Gewinn

Gemma-3-4B

0,595

0,778 ± 0,004

0,767 ± 0,004

~94 %

Anschließend testen wir die familienübergreifende Übertragung. Wir frieren die Latente und den Kern-Decoder ein, die auf Qwen3-1.7B und 4B trainiert wurden, und passen den Konverter auf Gemma-3-4B neu an. Dies erholt ~94 % des LoRA-Gewinns von Grund auf. Die familienübergreifende Übertragung ist nahezu verlustfrei.

6.4 Dateneffizienz

PorTAL amortisiert die Aufgabenanpassung: Eine einmal auf den gesehenen Basen gelernte Latente und ein Kern sollten jedes nachfolgende Modell kostengünstig anpassbar machen, sodass die Portierung auf eine neue Basis weit weniger Daten benötigt als das Training eines LoRA von Grund auf. Wir zeigen dies auf dem ungesehenen Qwen3-8B, indem wir die Aufgabensetgröße für PorTAL q/v r8, PorTAL voll r8 und Pro-Aufgabe r16-voll LoRA variieren. Für PorTAL ist dieses Set das Kalibrierungsset, auf dem es den Konverter neu anpasst; für das LoRA von Grund auf ist es das Trainingsset.

Rohdaten der 14-Aufgaben-Mittelwerte, Basis-8B acc 0,667 / Log-Loss 3,819:

In beiden Diagrammen sind die Kurven ein gleitender Durchschnitt über ein Fenster von 3, und Sterne markieren, wo jede Methode zum ersten Mal den Spitzenwert des Pro-Aufgabe LoRA erreicht.

PorTAL ist wesentlich dateneffizienter. Es erreicht die beste Genauigkeit des Pro-Aufgabe LoRA mit etwa der Hälfte der Daten und übertrifft es im hohen Datenbereich durchgängig. Da die eingefrorene Basis die Kosten pro Schritt dominiert, halbiert das Erreichen des Plateaus mit der Hälfte der Daten ungefähr die Anpassungs-FLOPs. PorTAL ist auch besser kalibriert, mit einem niedrigeren Log-Loss auf dem Validierungssatz als das LoRA von Grund auf bei jeder Datenmenge.

Hinweis: Wir vergleichen durchgängig mit r16-voll LoRA, da wir festgestellt haben, dass dies die stärkste Pro-Aufgabe LoRA-Konfiguration in unserem Durchlauf war.

7. Zukünftige Arbeiten

Gradientenkonkurrenz bei schwierigen Aufgaben. Unter Auswahl der besten Epoche erreichen die meisten Aufgaben den LoRA-Gewinn, aber einige schwierigere Aufgaben des gesunden Menschenverstands und Wissens werden unterangepasst, am schlechtesten OpenBookQA (~42 % des Gewinns), WinoGrande (~57 %) und HellaSwag (~61 %). Dies sind die unterschiedlichsten Aufgaben, und da der Rang-8-Decoder über das gesamte Set geteilt wird, werden ihre Gradienten von den anderen überwogen und sie bleiben unterangepasst. Wir vermuten, dass die Ursache in der Optimierung liegt, nicht in der begrenzten Ausdruckskraft des Adapters, da weder ein größerer Rang-16-Adapter noch eine größere Aufgaben-Latente halfen. In zukünftigen Arbeiten hoffen wir, eine bessere Multi-Task-Optimierung zu verfolgen, wie z. B. Kapazität oder Curriculum pro Aufgabe, oder ein kleines, aufgabenspezifisches Residuum zusätzlich zum gemeinsamen Decoder.

Amortisierte Textbeschreibungsvariante. Eine naheliegende Erweiterung ersetzt die freie Aufgaben-Latente pro Aufgabe durch einen Encoder über eine Aufgabenbeschreibung, z_t = E(emb(desc_t)), sodass eine brandneue Aufgabe ausschließlich anhand ihrer Beschreibung ohne Beispiele (Zero-Shot) angepasst werden könnte (à la Text-to-LoRA), ohne Training pro Aufgabe. Wir überlassen eine vollständige Untersuchung zukünftigen Arbeiten.

Andere Richtungen. Größere Aufgaben und Aufgaben zur Instruktions-/Generierung über die Mehrfachauswahl hinaus; und Theorie darüber, wann eine eingefrorene Latente ausreicht im Vergleich zu wann eine basisspezifische Anpassung erforderlich ist.

Möchten Sie über unsere nächsten KI-Experimente auf dem Laufenden bleiben? Abonnieren Sie hier und folgen Sie uns auf @RampLabs. Wir stellen auch in verschiedenen Rollen bei Ramp ein.

Referenzen

Stanford HAI — AI Index Report 2024 (Anzahl der Foundation-Modell-Veröffentlichungen). https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024). https://arxiv.org/abs/2403.04132. Fluktuationsstatistik (~35 Tage auf Platz 1) aus dem Arena Leaderboard Dataset, Arena (2025). https://arena.ai/blog/arena-leaderboard-dataset/
Stanford HAI — AI Index Report 2025. https://hai.stanford.edu/ai-index/2025-ai-index-report
Alloc Labs — The Hidden Cost of LLM Fine-Tuning. https://www.alloclabs.com/blog/hidden-cost-llm-finetuning
Huh et al. — The Platonic Representation Hypothesis (2024). https://arxiv.org/abs/2405.07987
Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025). https://openreview.net/forum?id=zWskCdu3QA
Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026). https://arxiv.org/abs/2602.06358
Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025). https://arxiv.org/abs/2510.16282
Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generation. https://openreview.net/pdf?id=mrafO7aTYj
Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025). https://arxiv.org/abs/2508.05232
Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025). https://arxiv.org/abs/2501.16559
Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025). https://arxiv.org/abs/2510.17902
Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021). https://arxiv.org/abs/2106.09685

Anhang

A. Training & Hyperparameter

Einstellung

Wert

Optimierer

AdamW

LR (Decoder / Latente)

1e-3 / 2e-3

Epochen / Batchgröße

5 / 4

Multi-Task-Balancierung

ausgeglichene Schritte pro Aufgabe + EMA-Verlustnormalisierung (0,9 / 0,1) mit einem Minimum von 1e-3 für Stabilität

Pro-Aufgabe LoRA-Basislinie

peft, Rang 16, Alpha 32, lr 1e-4, 5 Epochen (Auswahl der besten Epoche), Module q/k/v/o + MLP

Initialisierung

B-Köpfe und FiLM γ, β null-initialisiert, sodass der generierte Adapter die Identität ist (ΔW = 0) zu Beginn

Hardware

einzelne NVIDIA B200 (pro Durchlauf)

B. Metriken

Wir berichten den erholten Gewinn, während frühere Arbeiten zur modellübergreifenden Übertragung (Cross-LoRA, CAST) stattdessen die Retention angeben. Für eine Methode m, eine nicht angepasste Basis b und ein Pro-Aufgabe LoRA von Grund auf L:

erholter Gewinn=accm−accbaccL−accb,Retention=accmaccL.\text{erholter Gewinn} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{Retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}.

Die Retention liegt nahe bei 100 %, wenn der Spielraum gering ist, dem Bereich, in dem diese Arbeiten operieren (ihr trainiertes LoRA fügt nur ~1 % über der Basis hinzu), daher ist sie nicht diskriminierend. Wir evaluieren in einem Umfeld mit höherem Spielraum und verwenden daher den erholten Gewinn. Zur Vergleichbarkeit: In Retentionsbegriffen erreicht die Cross-LoRA-Neuimplementierung ~86 % (innerhalb des von CAST berichteten Bereichs von 85-95 %), während sie nur ~14 % des Gewinns erholt, wohingegen unsere Portierung ~99 % Retention / ~98 % erholten Gewinn erzielt.

Zitieren Sie diese Arbeit

APA

Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research

BibTeX

text

1@techreport{portal2026ramplabs,
2  author = {Geist, Ben},
3  title = {PorTAL: Portable Task Adapters for LLMs},
4  year = {2026},
5  month = {June},
6  institution = {Ramp Labs},
7  url = {https://labs.ramp.com/research}
8}

PorTAL: Portable Task Adapters für LLMs

Zusammenfassung

1. Einleitung & Motivation

2. Verwandte Arbeiten

3. Hintergrund: LoRA und LoRA-Hypernetzwerke

4. Methode

5. Experimenteller Aufbau

6. Ergebnisse

7. Zukünftige Arbeiten

Referenzen

Anhang

Zitieren Sie diese Arbeit

Turn one viral article into a full content workflow

Aktuelle virale Artikel

Wir stellen vor: OpenWiki, ein Open-Source-Agent für Repository-Dokumentation

50 toxische Verhaltensweisen, von denen niemand zugibt, dass sie funktionieren

Wie Anthropic-Ingenieure Fable 5 tatsächlich prompten

Fable meistern: Der Grundlagen-Leitfaden

Ethereum Institutional: Beschleunigung der institutionellen Akzeptanz von Ethereum.

Das echte Handbuch, das ich nach einem Jahr täglicher Nutzung von NotebookLM entdeckt habe