शोधकर्ता: बेन गीस्ट
सारांश
पैरामीटर-कुशल फाइन-ट्यूनिंग (जैसे LoRA) एक फ्रोज़न LLM को किसी कार्य के अनुकूल बनाती है, लेकिन परिणामी एडॉप्टर एक आधार मॉडल से बंधा होता है। जब कोई नया मॉडल जारी होता है, तो अनुकूलन को फिर से शुरू से सीखना पड़ता है। हम पोर्टेबल कार्य अनुकूलन (portable task adaptation) का अध्ययन करते हैं: एक कार्य अनुकूलन को एक बार, आधार-अनभिज्ञ (base-agnostic) रूप में सीखना और उसे केवल एक छोटे प्रति-मॉडल घटक को पुनः फ़िट करके नए फ्रोज़न मॉडलों में स्थानांतरित करना। ठोस रूप से, हम एक आधार-अनभिज्ञ कार्य प्रच्छन्न (task latent) (z_t) और एक हाइपरनेटवर्क डिकोडर (hypernetwork decoder) (D_b) सीखते हैं जो एक फ्रोज़न आधार के लिए प्रति-परत LoRA एडॉप्टर उत्पन्न करता है। डिकोडर एक आधार-अनभिज्ञ साझा केंद्र (shared core) और एक पतले प्रति-आधार परिवर्तक (per base converter) से बना होता है। किसी नए आधार पर पोर्ट करने के लिए, हम (z_t) और साझा केंद्र को फ्रोज़ करते हैं और केवल परिवर्तक को थोड़ी मात्रा में डेटा पर पुनः फ़िट करते हैं।
इस आर्किटेक्चर को, जिसे हम PorTAL नाम देते हैं, मॉडल परिवार के भीतर और, अधिक चौंकाने वाली बात, मॉडल परिवारों के पार, प्रति-कार्य LoRA की सटीकता वृद्धि को पुनर्प्राप्त करता है। हम इसे Qwen3-1.7B और 4B पर सीखे गए कार्य प्रच्छन्न और साझा केंद्र डिकोडर को फ्रोज़ करके, फिर केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करके और एक अनदेखे Qwen3-8B पर ~98% और Gemma-3-4B पर ~94% LoRA की सटीकता वृद्धि प्राप्त करके दर्शाते हैं। यह वर्तमान पोर्टेबल कार्य अनुकूलन विधियों से कहीं बेहतर प्रदर्शन करता है: Cross-LoRA बेसलाइन अनदेखे Qwen3-8B पर केवल ~14% वृद्धि प्राप्त करती है, जबकि हमारा 98% है। इसके अतिरिक्त, पुनः फ़िट डेटा-कुशल है: PorTAL लगभग आधे कैलिब्रेशन डेटा के साथ शुरू से LoRA सटीकता पठार तक पहुँच जाता है, और समान सटीकता पर लगातार बेहतर कैलिब्रेटेड होता है (प्रत्येक डेटा आकार पर कम होल्ड-आउट लॉग-लॉस) शुरू से LoRA की तुलना में। इससे बाद के आधार मॉडलों को फाइन-ट्यून करने के लिए आवश्यक FLOPs में काफी कमी आती है।
1. परिचय और प्रेरणा
नए भाषा मॉडल त्वरित गति से आ रहे हैं: प्रति वर्ष जारी उल्लेखनीय फाउंडेशन मॉडलों की संख्या 2020 में 2 से बढ़कर 2021 में 9, 2022 में 32 और 2023 में 149 हो गई [1], और 2024-2025 तक SOTA रिलीज़ की गति इतनी संकुचित हो गई थी कि SOTA मॉडल सार्वजनिक लीडरबोर्ड में औसतन केवल ~35 दिनों तक शीर्ष पर रहा, जो GPT-4 के लिए लगभग एक वर्ष से भी कम था [2]।
हालाँकि, किसी मॉडल को किसी कार्य के अनुकूल बनाना एक प्रति-मॉडल लागत है जो इन रिलीज़ों में नहीं फैलती। एक फाइन-ट्यून (पूर्ण या LoRA) एक आधार मॉडल के वेट स्पेस से बंधी होती है; जब अगला मॉडल आता है, तो अनुकूलन को नए आधार पर फिर से करना होता है। पैरामीटर-कुशल विधियों ने इकाई लागत को कम किया (7B मॉडल पर LoRA ~$1-3k बनाम पूर्ण फाइन-ट्यूनिंग के लिए ~$12k [3]) लेकिन इसकी संरचना को नहीं: आप अभी भी प्रति (कार्य, मॉडल) डेटा क्यूरेशन + एक प्रशिक्षण रन + मूल्यांकन के लिए भुगतान करते हैं, और पूर्ण फाइन-ट्यूनिंग लागत अभी भी बढ़ते मॉडल आकार के साथ बढ़ती है [4]।
परिणाम यह है कि वर्तमान सीमांत मॉडल पर फाइन-ट्यून क्षमताओं के पोर्टफोलियो को बनाए रखने की लागत मोटे तौर पर मॉडल रिलीज़ के बीच के समय के व्युत्क्रमानुपाती होती है। प्रति मॉडल पुनः ट्यूनिंग एक प्रमुख, लगातार बढ़ती लागत बन जाती है, जबकि एक सिस्टम को विशिष्ट रखते हुए प्रत्येक नए, अधिक स्मार्ट आधार की कच्ची बुद्धि प्राप्त करने की आवश्यकता होती है।
हमारा उत्तर एक बार कार्य अनुकूलन के लिए भुगतान करना और इसे प्रत्येक भविष्य के आधार पर फैलाना है। प्लेटोनिक प्रतिनिधित्व परिकल्पना [5] से प्रेरित होकर, हम अनुकूलन को आधार-अनभिज्ञ रूप में सीखते हैं और इसे प्रत्येक नए मॉडल पर केवल कुछ उदाहरणों पर एक हल्के प्रति-आधार मैप को पुनः फ़िट करके ले जाते हैं।
2. संबंधित कार्य
हमारा योगदान तीन कार्य-श्रेणियों के विचारों को जोड़ता है, जिनकी हम यहाँ समीक्षा करते हैं।
हाइपरनेटवर्क के माध्यम से एकल-आधार LoRA उत्पादन
Text-to-LoRA [6], इन-कॉन्टेक्स्ट SHINE [7], और Profile-to-PEFT [8] प्रति-कार्य या प्रति-उपयोगकर्ता अनुकूलन को एक एकल फॉरवर्ड पास में फैलाते हैं, लेकिन एक निश्चित आधार को लक्षित करते हैं और कार्यों या उपयोगकर्ताओं में सामान्यीकरण करते हैं, मॉडलों में नहीं (Text-to-LoRA स्पष्ट रूप से क्रॉस-मॉडल स्थानांतरण को खुला छोड़ देता है)।
क्रॉस-आर्किटेक्चर LoRA उत्पादन
LoRAGen [9] विभिन्न आधारों के लिए LoRA उत्सर्जित करने के लिए एक संरचनात्मक एम्बेडिंग (प्रच्छन्न + मॉड्यूल/परत एम्बेडिंग) का उपयोग करता है, लेकिन मौजूदा LoRA को पुनर्निर्माण करके प्रशिक्षित किया जाता है; हम इसके डिकोडर आकार को साझा करते हैं लेकिन कार्य हानि पर अंत-से-अंत प्रशिक्षित करते हैं, और महत्वपूर्ण रूप से, एक अनदेखे आधार तक पहुँचने के लिए एक साझा कार्य प्रच्छन्न और एक साझा केंद्र को फ्रोज़ करते हैं, केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करते हैं।
क्रॉस-मॉडल LoRA स्थानांतरण
Cross-LoRA [10], LoRA-X [11], और CAST [12] उसी लक्ष्य को लक्षित करते हैं जो हम करते हैं, लेकिन पहले से प्रशिक्षित एडॉप्टर को उप-स्थान या सक्रियण मैनिफोल्ड संरेखण के माध्यम से अनुवाद करके। हम इसके बजाय एक आधार-अनभिज्ञ प्रच्छन्न सीखते हैं और प्रति-आधार परिवर्तक को पुनः कैलिब्रेट करते हैं। हम पाते हैं कि यह छोटा कैलिब्रेशन चरण महत्वपूर्ण है। Cross-LoRA, जो बिना पुनः फ़िट किए मौजूदा एडॉप्टर को स्थानांतरित करता है, अनदेखे 8B पर LoRA की केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा ~98% है (§6.2)।
संक्षेप में, एकल-आधार LoRA उत्पादन, क्रॉस-आर्किटेक्चर उत्पादन, और क्रॉस-मॉडल स्थानांतरण सभी के पास पूर्व कला है। हमारा योगदान उन्हें एक ऐसी विधि में जोड़ता है जो एक साझा कार्य प्रच्छन्न और केंद्र सीखता है, उन्हें फ्रोज़ करता है, और किसी नए आधार तक पहुँचने के लिए केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करता है। हम इसे त्वरित मॉडल रिलीज़ गति के लिए एक रखरखाव लागत उत्तर के रूप में प्रस्तुत करते हैं, और दिखाते हैं कि यह अनुभवजन्य रूप से क्रॉस-मॉडल स्थानांतरण रेखा पर हावी है।
3. पृष्ठभूमि: LoRA और LoRA हाइपरनेटवर्क
LoRA [13]. एक फ्रोज़न वेट मैट्रिक्स के लिए, LoRA दो छोटे मैट्रिक्स (A) और (B) से रैंक (r) के निम्न-रैंक अद्यतन को सीखता है; केवल ये दो मैट्रिक्स प्रशिक्षित होते हैं:
[\Delta W = \frac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \frac{\alpha}{r} B(Ax)]
LoRA हाइपरनेटवर्क। (A) और (B) को सीधे प्रशिक्षित करने के बजाय, एक हाइपरनेटवर्क उन्हें एक कंडीशनिंग इनपुट से उत्पन्न करता है। Text-to-LoRA [6] एक हाइपरनेटवर्क को एक कार्य विवरण एम्बेडिंग से एकल आधार मॉडल के लिए पूर्ण LoRA उत्सर्जित करने के लिए प्रशिक्षित करता है, जो फ्रोज़न आधार के माध्यम से अंत-से-अंत होता है। यह प्रत्येक कार्य के लिए एक अलग LoRA के बजाय एक हाइपरनेटवर्क प्रशिक्षित करता है, लेकिन यह एकल-आधार रहता है, कार्यों में सामान्यीकरण करता है, मॉडलों में नहीं। हमारा डिज़ाइन हाइपरनेटवर्क LoRA उत्पादन विचार को उधार लेता है लेकिन एक अलग लक्ष्य को लक्षित करता है: एक साझा, सीखे गए कार्य प्रतिनिधित्व का क्रॉस-आधार स्थानांतरण।
4. विधि
डिज़ाइन। हमारा लक्ष्य एक कार्य अनुकूलन है जो एक बार सीखा जाता है और सस्ते में नए फ्रोज़न मॉडलों में पोर्ट किया जाता है। हम एडॉप्टर जनरेटर को दो भागों में विभाजित करते हैं: एक बड़ा आधार-अनभिज्ञ कोर डिकोडर, जो सभी मॉडलों में साझा होता है, जो एक निश्चित कोर चौड़ाई (d_c) पर निम्न-रैंक कारक उत्सर्जित करता है; और एक पतला प्रति-आधार परिवर्तक जो साझा कोर के इनपुट को कंडीशन करता है और इसके आउटपुट को किसी विशिष्ट मॉडल के आयामों में प्रोजेक्ट करता है। हम एक या अधिक फ्रोज़न आधारों पर प्रशिक्षित करते हैं, फिर केवल इस छोटे प्रति-आधार परिवर्तक को पुनः फ़िट करके एक अनदेखे मॉडल में पोर्ट करते हैं।
यह सीखे गए अनुकूलन को एक साझा प्रतिनिधित्व में फैलाता है और प्रत्येक नए आधार को समर्थन देने के लिए सस्ता बनाता है। निर्माण से, साझा प्रच्छन्न और केंद्र में अधिकांश पैरामीटर होते हैं और कार्य प्रतिनिधित्व और एडॉप्टर स्पेस में इसके मैपिंग का बल्क अवशोषित करते हैं; केवल एक छोटा परिवर्तक मॉडल-विशिष्ट रहता है। हम नीचे घटकों को परिभाषित करते हैं।
सेटअप। मान लीजिए एक फ्रोज़न आधार (b) में ट्रांसफॉर्मर परतें (\ell = 1, \dots, L_b) हैं जिनमें प्रति-परत वेट मैट्रिक्स (W_{\ell, m}) अनुकूलित मॉड्यूल पर हैं (m \in {q_proj, v_proj}) (हम (m) को पूर्ण-मॉड्यूल संस्करण में सभी अटेंशन और MLP प्रोजेक्शन तक विस्तारित करते हैं)। मान लीजिए (\theta_b) फ्रोज़न आधार पैरामीटर को दर्शाता है।
कार्य प्रच्छन्न (Task latent)। प्रत्येक कार्य (t) को एक सीखे गए कार्य प्रच्छन्न (z_t) से मैप किया जाता है, जो आयाम (d_z = 256) का एक आधार-अनभिज्ञ वेक्टर है।
डिकोडर। हमारा हाइपरनेटवर्क (D_b) एक आधार-अनभिज्ञ कोर डिकोडर और एक पतले प्रति-आधार परिवर्तक से बना है; यह कार्य प्रच्छन्न (z_t) और एक प्रति-परत एम्बेडिंग (e_\ell) को प्रत्येक मॉड्यूल के LoRA कारकों में मैप करता है:
[(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}]
आंतरिक रूप से, हम एक एकल साझा ट्रंक को FiLM के साथ कंडीशन करते हैं। ट्रंक प्रति-परत एम्बेडिंग (e_\ell) को इनपुट के रूप में लेता है, जबकि कार्य प्रच्छन्न (z_t) इसकी छिपी हुई सुविधाओं को स्केल और शिफ्ट करता है। यह एक प्रति-परत छिपी हुई अवस्था उत्पन्न करता है:
[h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big)]
प्रति-मॉड्यूल हेड इस छिपी हुई अवस्था को कोर-चौड़ाई कारकों में मैप करते हैं:
[\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}]
अंत में, एक अलाइनर उन्हें प्रति-मॉड्यूल रैखिक मैप के माध्यम से आधार के आयामों में प्रोजेक्ट करता है:
[A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m}]
उत्पन्न एडॉप्टर को एक मानक LoRA डेल्टा के रूप में इंजेक्ट किया जाता है:
[y_{\ell,m} = W_{\ell,m}\,x + \frac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x)]
प्रशिक्षण। हम ({z_t}) और (D_b) को प्रशिक्षित करते हैं जबकि आधार पैरामीटर (\theta_b) फ्रोज़न रखते हैं। हम गोल्ड-कंटिन्यूएशन NLL को न्यूनतम करते हैं (केवल उत्तर टोकन पर हानि):
[\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big]]
मल्टी-टास्क प्रशिक्षण में कठिन कार्यों को मौका स्तर पर गिरने से रोकने के लिए EMA हानि सामान्यीकरण के साथ संतुलित प्रति-कार्य चरणों का उपयोग किया जाता है।

GIF
मल्टी-बेस प्रशिक्षण। जब हम एक साथ कई आधारों पर प्रशिक्षित करते हैं, तो एक छोटा आधार साझा प्रच्छन्न के ग्रेडिएंट पर हावी हो सकता है। हम (z_t) पर ग्रेडिएंट-नॉर्म संतुलन लागू करते हैं, ऑप्टिमाइज़र चरण से पहले प्रत्येक आधार के संचित ग्रेडिएंट को समान मानदंड में पुनः स्केल करते हैं, ताकि प्रत्येक आधार साझा प्रतिनिधित्व में समान रूप से योगदान दे।
पोर्टिंग। एक अनदेखे आधार (b') को देखते हुए, हम कोर डिकोडर और ({z_t}) को फ्रोज़ करते हैं और केवल प्रति-आधार परिवर्तक ({e_\ell, P^{in}, P^{out}}) को एक छोटे कैलिब्रेशन सेट पर पुनः फ़िट करते हैं:
[\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big]]

GIF
5. प्रायोगिक सेटअप
कार्य (14, मानक बहुविकल्पीय)। TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; उच्च हेडरूम), और BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (व्यापक/बड़ा मूल्यांकन)।
मीट्रिक। विकल्पों पर लंबाई-सामान्यीकृत लॉग-संभावना (acc_norm); हम होल्ड-आउट लॉग-लॉस (गोल्ड कंटिन्यूएशन का टोकन-माध्य NLL) भी रिपोर्ट करते हैं। §6.1–6.3 सर्वश्रेष्ठ-युग होल्ड-आउट चयन (प्रति-युग मूल्यांकन) का उपयोग करते हैं जबकि §6.4 अंतिम-युग मूल्यांकन का उपयोग करता है। सभी 3-बीज माध्य ± मानक विचलन हैं।
डेटा। प्रति कार्य 2,000 उदाहरण तक — एक कठोर सीमा जो दोनों स्रोत प्रशिक्षण और प्रति-आधार परिवर्तक पुनः फ़िट पर लागू होती है। §6.1–6.3 पूर्ण 2,000/कार्य पर फ़िट होता है; डेटा-दक्षता अध्ययन (§6.4) दर्शाता है कि बहुत कम पर्याप्त है। मूल्यांकन सेट 56 (CB) से 1,000 (BoolQ/WinoGrande/CSQA/SciQ) तक हैं; 14-कार्य सूट पर कुल ~7,200 मूल्यांकन उदाहरण।
मॉडल। दृश्यमान आधार: Qwen3-1.7B, Qwen3-4B। अनदेखे आधार: Qwen3-8B और Gemma-3-4B। प्रति-कार्य LoRA बेसलाइन: q/k/v/o + MLP पर रैंक 16। LoRA Hypernet/PorTAL (§6.1–6.3): q/v पर रैंक 8।
रिपोर्ट किए गए प्रयोग। (i) LoRA Hypernet बनाम प्रति-कार्य LoRA; (ii) परिवारों के भीतर और पार अनदेखे आधारों पर पोर्टेबिलिटी; (iii) परिवर्तक पुनः फ़िट की डेटा-दक्षता;
6. परिणाम
6.1 स्रोत आधार
विधि | औसत acc_norm (14 कार्य) |
|---|---|
आधार | 0.627 |
प्रति-कार्य LoRA | 0.765 ± 0.003 |
LoRA Hypernet (संयुक्त रूप से (z_{4B}, D_{4B}) प्रशिक्षित) | 0.757 ± 0.003 |
हम पहले पुष्टि करते हैं कि एक सीखा हुआ कार्य प्रच्छन्न (z) और एक डिकोडर, जो स्रोत आधार पर संयुक्त रूप से प्रशिक्षित होते हैं, उसी आधार पर स्वतंत्र रूप से प्रशिक्षित प्रति-कार्य LoRA से मेल खा सकते हैं। उत्पन्न LoRA Hypernet औसतन प्रति-कार्य LoRA की ~94% वृद्धि प्राप्त करता है और 6/14 कार्यों (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA) पर इसे मात देता है या बराबरी करता है।
6.2 परिवार के भीतर पोर्टेबिलिटी
विधि (अनदेखे 8B पर) | औसत acc_norm | पुनर्प्राप्त वृद्धि |
|---|---|---|
Base-8B | 0.667 | — |
प्रति-कार्य 8B LoRA | 0.795 ± 0.004 | 100% |
Cross-LoRA स्थानांतरण | 0.685 ± 0.001 | ~14% |
LoRA Hypernet (संयुक्त रूप से (z_{8B}, D_{8B}) प्रशिक्षित) | 0.785 ± 0.002 | ~92% |
PorTAL (फ्रोज़न (z_{(1.7B+4B)}), (D_{8B}) पुनः फ़िट) | 0.792 ± 0.004 | ~98% |
हम फिर सीधे पोर्टेबिलिटी का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर संयुक्त रूप से सीखे गए प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं, और केवल पतले परिवर्तक को एक अनदेखे आधार पर पुनः फ़िट करते हैं। अनदेखे Qwen3-8B पर यह प्रति-कार्य LoRA की ~98% वृद्धि प्राप्त करता है, जो तुलनीय क्रॉस-मॉडल स्थानांतरण विधि Cross-LoRA द्वारा प्राप्त ~14% से कहीं अधिक है। दिलचस्प बात यह है कि Qwen3-8B पर प्रच्छन्न और डिकोडर को संयुक्त रूप से प्रशिक्षित करना 0.785 (~92%) तक पहुँचता है, सांख्यिकीय रूप से पोर्ट किए गए प्रच्छन्न के बराबर, लेकिन थोड़ा कम। हम PorTAL के थोड़े उच्च प्रदर्शन को कई दृश्यमान आधारों पर हल्के नियमितीकरण के लिए जिम्मेदार ठहराते हैं।
6.3 क्रॉस-फ़ैमिली पोर्टेबिलिटी
अनदेखा लक्ष्य | आधार | प्रति-कार्य LoRA | PorTAL | पुनर्प्राप्त वृद्धि |
|---|---|---|---|---|
Gemma-3-4B | 0.595 | 0.778 ± 0.004 | 0.767 ± 0.004 | ~94% |
हम फिर क्रॉस-फ़ैमिली स्थानांतरण का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर प्रशिक्षित प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं और परिवर्तक को Gemma-3-4B पर पुनः फ़िट करते हैं। यह शुरू से LoRA की ~94% वृद्धि प्राप्त करता है। क्रॉस-फ़ैमिली स्थानांतरण लगभग हानि-रहित है।
6.4 डेटा-दक्षता
PorTAL कार्य अनुकूलन को फैलाता है: दृश्यमान आधारों पर एक बार सीखा गया प्रच्छन्न और केंद्र प्रत्येक बाद के मॉडल को अनुकूलित करने के लिए सस्ता बना देता है, इसलिए किसी नए आधार पर पोर्ट करने के लिए शुरू से LoRA प्रशिक्षित करने की तुलना में बहुत कम डेटा की आवश्यकता होती है। हम इसे अनदेखे Qwen3-8B पर दिखाते हैं, PorTAL q/v r8, PorTAL full r8, और प्रति-कार्य r16-full LoRA के लिए प्रति-कार्य सेट आकार को स्वीप करते हैं। PorTAL के लिए यह सेट कैलिब्रेशन सेट है जिस पर यह परिवर्तक को पुनः फ़िट करता है; शुरू से LoRA के लिए यह प्रशिक्षण सेट है।
14-कार्य औसत कच्चा, base-8B acc 0.667 / log-loss 3.819:


दोनों प्लॉट में, वक्र 3 की खिड़की पर रोलिंग औसत हैं, और तारे चिह्नित करते हैं कि प्रत्येक विधि पहली बार प्रति-कार्य LoRA के शिखर पर कहाँ पहुँचती है।
PorTAL काफी अधिक डेटा-कुशल है। यह लगभग आधे डेटा का उपयोग करके प्रति-कार्य LoRA की सर्वश्रेष्ठ सटीकता से मेल खाता है, और उच्च डेटा श्रेणी में लगातार इसे हराता है। क्योंकि फ्रोज़न आधार प्रति-चरण लागत पर हावी है, आधे डेटा के साथ पठार तक पहुँचना अनुकूलन FLOPs को लगभग आधा कर देता है। PorTAL बेहतर कैलिब्रेटेड भी है, प्रत्येक डेटा आकार पर शुरू से LoRA की तुलना में कम होल्ड-आउट लॉग-लॉस के साथ।
नोट: हम हर जगह r16-full LoRA के खिलाफ तुलना करते हैं क्योंकि हमने पाया कि यह हमारे स्वीप में सबसे मजबूत प्रति-कार्य LoRA कॉन्फ़िगरेशन है।
7. भविष्य का कार्य
कठिन कार्यों पर ग्रेडिएंट प्रतिस्पर्धा। सर्वश्रेष्ठ युग चयन के तहत अधिकांश कार्य LoRA की वृद्धि तक पहुँचते हैं, लेकिन कुछ कठिन सामान्य ज्ञान और ज्ञान कार्य कम फ़िट होते हैं, सबसे खराब OpenBookQA (~42% वृद्धि), WinoGrande (~57%), और HellaSwag (~61%) हैं। ये सबसे अलग कार्य हैं, और क्योंकि रैंक-8 डिकोडर पूरे सूट में साझा है, उनके ग्रेडिएंट दूसरों द्वारा अधिक भारित होते हैं और वे कम-फ़िट रहते हैं। हम अनुमान लगाते हैं कि मूल कारण ऑप्टिमाइज़ेशन है, सीमित एडॉप्टर अभिव्यंजना नहीं, क्योंकि न तो बड़े रैंक-16 एडॉप्टर और न ही बड़े कार्य प्रच्छन्न ने मदद की। भविष्य के कार्य में हम बेहतर मल्टी-टास्क ऑप्टिमाइज़ेशन का पीछा करने की उम्मीद करते हैं, जैसे प्रति-कार्य क्षमता या पाठ्यक्रम, या साझा डिकोडर के ऊपर एक छोटा प्रति-कार्य अवशेष।
परिव्ययित पाठ-विवरण संस्करण। एक प्राकृतिक विस्तार मुक्त प्रति-कार्य प्रच्छन्न को एक कार्य विवरण पर एन्कोडर से बदल देता है, (z_t = E(emb(desc_t))), ताकि एक बिल्कुल नए कार्य को उसके विवरण से ही शून्य-शॉट (Text-to-LoRA की तरह) अनुकूलित किया जा सके, बिना प्रति-कार्य प्रशिक्षण के। हम एक पूर्ण अध्ययन भविष्य के कार्य के लिए छोड़ते हैं।
अन्य दिशाएँ। बड़े और निर्देश/उत्पादन कार्य बहुविकल्प से परे; और सिद्धांत कि कब एक फ्रोज़न प्रच्छन्न पर्याप्त है बनाम कब आधार-विशिष्ट अनुकूलन की आवश्यकता है।
हमारे अगले AI प्रयोगों के साथ अपडेट रहना चाहते हैं? यहाँ सब्सक्राइब करें और हमें @RampLabs पर फ़ॉलो करें। हम Ramp में विभिन्न भूमिकाओं के लिए भर्ती कर रहे हैं।
संदर्भ
- Stanford HAI — AI Index Report 2024 (फाउंडेशन-मॉडल रिलीज़ गणना)। https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
- Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024)। https://arxiv.org/abs/2403.04132। टर्नओवर आँकड़ा (~35 दिन #1 पर) Arena लीडरबोर्ड डेटासेट, Arena (2025) से। https://arena.ai/blog/arena-leaderboard-dataset/
- Stanford HAI — AI Index Report 2025। https://hai.stanford.edu/ai-index/2025-ai-index-report
- Alloc Labs — The Hidden Cost of LLM Fine-Tuning। https://www.alloclabs.com/blog/hidden-cost-llm-finetuning
- Huh et al. — The Platonic Representation Hypothesis (2024)। https://arxiv.org/abs/2405.07987
- Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025)। https://openreview.net/forum?id=zWskCdu3QA
- Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026)। https://arxiv.org/abs/2602.06358
- Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025)। https://arxiv.org/abs/2510.16282
- Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generation। https://openreview.net/pdf?id=mrafO7aTYj
- Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025)। https://arxiv.org/abs/2508.05232
- Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025)। https://arxiv.org/abs/2501.16559
- Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025)। https://arxiv.org/abs/2510.17902
- Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021)। https://arxiv.org/abs/2106.09685
परिशिष्ट
A. प्रशिक्षण और अतिपैरामीटर
सेटिंग | मान |
|---|---|
ऑप्टिमाइज़र | AdamW |
LR (डिकोडर / प्रच्छन्न) | 1e-3 / 2e-3 |
युग / बैच आकार | 5 / 4 |
मल्टी-टास्क संतुलन | संतुलित प्रति-कार्य चरण + EMA हानि-सामान्यीकरण (0.9 / 0.1) स्थिरता के लिए 1e-3 फ़्लोर के साथ |
प्रति-कार्य LoRA बेसलाइन | peft, रैंक 16, अल्फ़ा 32, lr 1e-4, 5 युग (सर्वश्रेष्ठ-युग चयन), मॉड्यूल q/k/v/o + MLP |
आरंभीकरण | B-हेड और FiLM γ, β शून्य-आरंभिक, ताकि उत्पन्न एडॉप्टर शुरू में पहचान (ΔW = 0) हो |
हार्डवेयर | एकल NVIDIA B200 (प्रति रन) |
B. मीट्रिक्स
हम पुनर्प्राप्त वृद्धि रिपोर्ट करते हैं जबकि पिछले क्रॉस-मॉडल-स्थानांतरण पेपर (Cross-LoRA, CAST) इसके बजाय अवधारण रिपोर्ट करते हैं। एक विधि (m), असंशोधित आधार (b), और शुरू से प्रति-कार्य LoRA (L) के लिए:
[\text{recovered lift} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}]
अवधारण लगभग 100% होता है जब भी थोड़ा हेडरूम होता है, वह शासन जिसमें वे पेपर काम करते हैं (उनका प्रशिक्षित LoRA आधार पर केवल ~1% जोड़ता है), इसलिए यह विभेदक नहीं है। हम उच्च हेडरूम सेटिंग में मूल्यांकन करते हैं और इसलिए पुनर्प्राप्त वृद्धि का उपयोग करते हैं। तुलनीयता के लिए, अवधारण शर्तों में Cross-LoRA पुनः कार्यान्वयन ~86% स्कोर करता है (CAST की रिपोर्ट की गई 85-95% बैंड के भीतर) जबकि केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा पोर्टिंग ~99% अवधारण / ~98% पुनर्प्राप्त वृद्धि स्कोर करता है।
इस कार्य को उद्धृत करें
APA
Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research
BibTeX
1@techreport{portal2026ramplabs,2 author = {Geist, Ben},3 title = {PorTAL: Portable Task Adapters for LLMs},4 year = {2026},5 month = {June},6 institution = {Ramp Labs},7 url = {https://labs.ramp.com/research}8}





