PorTAL: क्रॉस-मॉडल LLM फाइन-ट्यूनिंग के लिए पोर्टेबल टास्क एडेप्टर

सारांश

पैरामीटर-कुशल फाइन-ट्यूनिंग (जैसे LoRA) एक फ्रोज़न LLM को किसी कार्य के अनुकूल बनाती है, लेकिन परिणामी एडॉप्टर एक आधार मॉडल से बंधा होता है। जब कोई नया मॉडल जारी होता है, तो अनुकूलन को फिर से शुरू से सीखना पड़ता है। हम पोर्टेबल कार्य अनुकूलन (portable task adaptation) का अध्ययन करते हैं: एक कार्य अनुकूलन को एक बार, आधार-अनभिज्ञ (base-agnostic) रूप में सीखना और उसे केवल एक छोटे प्रति-मॉडल घटक को पुनः फ़िट करके नए फ्रोज़न मॉडलों में स्थानांतरित करना। ठोस रूप से, हम एक आधार-अनभिज्ञ कार्य प्रच्छन्न (task latent) (z_t) और एक हाइपरनेटवर्क डिकोडर (hypernetwork decoder) (D_b) सीखते हैं जो एक फ्रोज़न आधार के लिए प्रति-परत LoRA एडॉप्टर उत्पन्न करता है। डिकोडर एक आधार-अनभिज्ञ साझा केंद्र (shared core) और एक पतले प्रति-आधार परिवर्तक (per base converter) से बना होता है। किसी नए आधार पर पोर्ट करने के लिए, हम (z_t) और साझा केंद्र को फ्रोज़ करते हैं और केवल परिवर्तक को थोड़ी मात्रा में डेटा पर पुनः फ़िट करते हैं।

इस आर्किटेक्चर को, जिसे हम PorTAL नाम देते हैं, मॉडल परिवार के भीतर और, अधिक चौंकाने वाली बात, मॉडल परिवारों के पार, प्रति-कार्य LoRA की सटीकता वृद्धि को पुनर्प्राप्त करता है। हम इसे Qwen3-1.7B और 4B पर सीखे गए कार्य प्रच्छन्न और साझा केंद्र डिकोडर को फ्रोज़ करके, फिर केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करके और एक अनदेखे Qwen3-8B पर ~98% और Gemma-3-4B पर ~94% LoRA की सटीकता वृद्धि प्राप्त करके दर्शाते हैं। यह वर्तमान पोर्टेबल कार्य अनुकूलन विधियों से कहीं बेहतर प्रदर्शन करता है: Cross-LoRA बेसलाइन अनदेखे Qwen3-8B पर केवल ~14% वृद्धि प्राप्त करती है, जबकि हमारा 98% है। इसके अतिरिक्त, पुनः फ़िट डेटा-कुशल है: PorTAL लगभग आधे कैलिब्रेशन डेटा के साथ शुरू से LoRA सटीकता पठार तक पहुँच जाता है, और समान सटीकता पर लगातार बेहतर कैलिब्रेटेड होता है (प्रत्येक डेटा आकार पर कम होल्ड-आउट लॉग-लॉस) शुरू से LoRA की तुलना में। इससे बाद के आधार मॉडलों को फाइन-ट्यून करने के लिए आवश्यक FLOPs में काफी कमी आती है।

1. परिचय और प्रेरणा

नए भाषा मॉडल त्वरित गति से आ रहे हैं: प्रति वर्ष जारी उल्लेखनीय फाउंडेशन मॉडलों की संख्या 2020 में 2 से बढ़कर 2021 में 9, 2022 में 32 और 2023 में 149 हो गई [1], और 2024-2025 तक SOTA रिलीज़ की गति इतनी संकुचित हो गई थी कि SOTA मॉडल सार्वजनिक लीडरबोर्ड में औसतन केवल ~35 दिनों तक शीर्ष पर रहा, जो GPT-4 के लिए लगभग एक वर्ष से भी कम था [2]।

हालाँकि, किसी मॉडल को किसी कार्य के अनुकूल बनाना एक प्रति-मॉडल लागत है जो इन रिलीज़ों में नहीं फैलती। एक फाइन-ट्यून (पूर्ण या LoRA) एक आधार मॉडल के वेट स्पेस से बंधी होती है; जब अगला मॉडल आता है, तो अनुकूलन को नए आधार पर फिर से करना होता है। पैरामीटर-कुशल विधियों ने इकाई लागत को कम किया (7B मॉडल पर LoRA ~$1-3k बनाम पूर्ण फाइन-ट्यूनिंग के लिए ~$12k [3]) लेकिन इसकी संरचना को नहीं: आप अभी भी प्रति (कार्य, मॉडल) डेटा क्यूरेशन + एक प्रशिक्षण रन + मूल्यांकन के लिए भुगतान करते हैं, और पूर्ण फाइन-ट्यूनिंग लागत अभी भी बढ़ते मॉडल आकार के साथ बढ़ती है [4]।

परिणाम यह है कि वर्तमान सीमांत मॉडल पर फाइन-ट्यून क्षमताओं के पोर्टफोलियो को बनाए रखने की लागत मोटे तौर पर मॉडल रिलीज़ के बीच के समय के व्युत्क्रमानुपाती होती है। प्रति मॉडल पुनः ट्यूनिंग एक प्रमुख, लगातार बढ़ती लागत बन जाती है, जबकि एक सिस्टम को विशिष्ट रखते हुए प्रत्येक नए, अधिक स्मार्ट आधार की कच्ची बुद्धि प्राप्त करने की आवश्यकता होती है।

हमारा उत्तर एक बार कार्य अनुकूलन के लिए भुगतान करना और इसे प्रत्येक भविष्य के आधार पर फैलाना है। प्लेटोनिक प्रतिनिधित्व परिकल्पना [5] से प्रेरित होकर, हम अनुकूलन को आधार-अनभिज्ञ रूप में सीखते हैं और इसे प्रत्येक नए मॉडल पर केवल कुछ उदाहरणों पर एक हल्के प्रति-आधार मैप को पुनः फ़िट करके ले जाते हैं।

2. संबंधित कार्य

हमारा योगदान तीन कार्य-श्रेणियों के विचारों को जोड़ता है, जिनकी हम यहाँ समीक्षा करते हैं।

हाइपरनेटवर्क के माध्यम से एकल-आधार LoRA उत्पादन

Text-to-LoRA [6], इन-कॉन्टेक्स्ट SHINE [7], और Profile-to-PEFT [8] प्रति-कार्य या प्रति-उपयोगकर्ता अनुकूलन को एक एकल फॉरवर्ड पास में फैलाते हैं, लेकिन एक निश्चित आधार को लक्षित करते हैं और कार्यों या उपयोगकर्ताओं में सामान्यीकरण करते हैं, मॉडलों में नहीं (Text-to-LoRA स्पष्ट रूप से क्रॉस-मॉडल स्थानांतरण को खुला छोड़ देता है)।

क्रॉस-आर्किटेक्चर LoRA उत्पादन

LoRAGen [9] विभिन्न आधारों के लिए LoRA उत्सर्जित करने के लिए एक संरचनात्मक एम्बेडिंग (प्रच्छन्न + मॉड्यूल/परत एम्बेडिंग) का उपयोग करता है, लेकिन मौजूदा LoRA को पुनर्निर्माण करके प्रशिक्षित किया जाता है; हम इसके डिकोडर आकार को साझा करते हैं लेकिन कार्य हानि पर अंत-से-अंत प्रशिक्षित करते हैं, और महत्वपूर्ण रूप से, एक अनदेखे आधार तक पहुँचने के लिए एक साझा कार्य प्रच्छन्न और एक साझा केंद्र को फ्रोज़ करते हैं, केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करते हैं।

क्रॉस-मॉडल LoRA स्थानांतरण

Cross-LoRA [10], LoRA-X [11], और CAST [12] उसी लक्ष्य को लक्षित करते हैं जो हम करते हैं, लेकिन पहले से प्रशिक्षित एडॉप्टर को उप-स्थान या सक्रियण मैनिफोल्ड संरेखण के माध्यम से अनुवाद करके। हम इसके बजाय एक आधार-अनभिज्ञ प्रच्छन्न सीखते हैं और प्रति-आधार परिवर्तक को पुनः कैलिब्रेट करते हैं। हम पाते हैं कि यह छोटा कैलिब्रेशन चरण महत्वपूर्ण है। Cross-LoRA, जो बिना पुनः फ़िट किए मौजूदा एडॉप्टर को स्थानांतरित करता है, अनदेखे 8B पर LoRA की केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा ~98% है (§6.2)।

संक्षेप में, एकल-आधार LoRA उत्पादन, क्रॉस-आर्किटेक्चर उत्पादन, और क्रॉस-मॉडल स्थानांतरण सभी के पास पूर्व कला है। हमारा योगदान उन्हें एक ऐसी विधि में जोड़ता है जो एक साझा कार्य प्रच्छन्न और केंद्र सीखता है, उन्हें फ्रोज़ करता है, और किसी नए आधार तक पहुँचने के लिए केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करता है। हम इसे त्वरित मॉडल रिलीज़ गति के लिए एक रखरखाव लागत उत्तर के रूप में प्रस्तुत करते हैं, और दिखाते हैं कि यह अनुभवजन्य रूप से क्रॉस-मॉडल स्थानांतरण रेखा पर हावी है।

3. पृष्ठभूमि: LoRA और LoRA हाइपरनेटवर्क

LoRA [13]. एक फ्रोज़न वेट मैट्रिक्स के लिए, LoRA दो छोटे मैट्रिक्स (A) और (B) से रैंक (r) के निम्न-रैंक अद्यतन को सीखता है; केवल ये दो मैट्रिक्स प्रशिक्षित होते हैं:

[\Delta W = \frac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \frac{\alpha}{r} B(Ax)]

LoRA हाइपरनेटवर्क। (A) और (B) को सीधे प्रशिक्षित करने के बजाय, एक हाइपरनेटवर्क उन्हें एक कंडीशनिंग इनपुट से उत्पन्न करता है। Text-to-LoRA [6] एक हाइपरनेटवर्क को एक कार्य विवरण एम्बेडिंग से एकल आधार मॉडल के लिए पूर्ण LoRA उत्सर्जित करने के लिए प्रशिक्षित करता है, जो फ्रोज़न आधार के माध्यम से अंत-से-अंत होता है। यह प्रत्येक कार्य के लिए एक अलग LoRA के बजाय एक हाइपरनेटवर्क प्रशिक्षित करता है, लेकिन यह एकल-आधार रहता है, कार्यों में सामान्यीकरण करता है, मॉडलों में नहीं। हमारा डिज़ाइन हाइपरनेटवर्क LoRA उत्पादन विचार को उधार लेता है लेकिन एक अलग लक्ष्य को लक्षित करता है: एक साझा, सीखे गए कार्य प्रतिनिधित्व का क्रॉस-आधार स्थानांतरण।

4. विधि

डिज़ाइन। हमारा लक्ष्य एक कार्य अनुकूलन है जो एक बार सीखा जाता है और सस्ते में नए फ्रोज़न मॉडलों में पोर्ट किया जाता है। हम एडॉप्टर जनरेटर को दो भागों में विभाजित करते हैं: एक बड़ा आधार-अनभिज्ञ कोर डिकोडर, जो सभी मॉडलों में साझा होता है, जो एक निश्चित कोर चौड़ाई (d_c) पर निम्न-रैंक कारक उत्सर्जित करता है; और एक पतला प्रति-आधार परिवर्तक जो साझा कोर के इनपुट को कंडीशन करता है और इसके आउटपुट को किसी विशिष्ट मॉडल के आयामों में प्रोजेक्ट करता है। हम एक या अधिक फ्रोज़न आधारों पर प्रशिक्षित करते हैं, फिर केवल इस छोटे प्रति-आधार परिवर्तक को पुनः फ़िट करके एक अनदेखे मॉडल में पोर्ट करते हैं।

यह सीखे गए अनुकूलन को एक साझा प्रतिनिधित्व में फैलाता है और प्रत्येक नए आधार को समर्थन देने के लिए सस्ता बनाता है। निर्माण से, साझा प्रच्छन्न और केंद्र में अधिकांश पैरामीटर होते हैं और कार्य प्रतिनिधित्व और एडॉप्टर स्पेस में इसके मैपिंग का बल्क अवशोषित करते हैं; केवल एक छोटा परिवर्तक मॉडल-विशिष्ट रहता है। हम नीचे घटकों को परिभाषित करते हैं।

सेटअप। मान लीजिए एक फ्रोज़न आधार (b) में ट्रांसफॉर्मर परतें (\ell = 1, \dots, L_b) हैं जिनमें प्रति-परत वेट मैट्रिक्स (W_{\ell, m}) अनुकूलित मॉड्यूल पर हैं (m \in {q_proj, v_proj}) (हम (m) को पूर्ण-मॉड्यूल संस्करण में सभी अटेंशन और MLP प्रोजेक्शन तक विस्तारित करते हैं)। मान लीजिए (\theta_b) फ्रोज़न आधार पैरामीटर को दर्शाता है।

कार्य प्रच्छन्न (Task latent)। प्रत्येक कार्य (t) को एक सीखे गए कार्य प्रच्छन्न (z_t) से मैप किया जाता है, जो आयाम (d_z = 256) का एक आधार-अनभिज्ञ वेक्टर है।

डिकोडर। हमारा हाइपरनेटवर्क (D_b) एक आधार-अनभिज्ञ कोर डिकोडर और एक पतले प्रति-आधार परिवर्तक से बना है; यह कार्य प्रच्छन्न (z_t) और एक प्रति-परत एम्बेडिंग (e_\ell) को प्रत्येक मॉड्यूल के LoRA कारकों में मैप करता है:

[(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}]

आंतरिक रूप से, हम एक एकल साझा ट्रंक को FiLM के साथ कंडीशन करते हैं। ट्रंक प्रति-परत एम्बेडिंग (e_\ell) को इनपुट के रूप में लेता है, जबकि कार्य प्रच्छन्न (z_t) इसकी छिपी हुई सुविधाओं को स्केल और शिफ्ट करता है। यह एक प्रति-परत छिपी हुई अवस्था उत्पन्न करता है:

[h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big)]

प्रति-मॉड्यूल हेड इस छिपी हुई अवस्था को कोर-चौड़ाई कारकों में मैप करते हैं:

[\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}]

अंत में, एक अलाइनर उन्हें प्रति-मॉड्यूल रैखिक मैप के माध्यम से आधार के आयामों में प्रोजेक्ट करता है:

[A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m}]

उत्पन्न एडॉप्टर को एक मानक LoRA डेल्टा के रूप में इंजेक्ट किया जाता है:

[y_{\ell,m} = W_{\ell,m}\,x + \frac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x)]

प्रशिक्षण। हम ({z_t}) और (D_b) को प्रशिक्षित करते हैं जबकि आधार पैरामीटर (\theta_b) फ्रोज़न रखते हैं। हम गोल्ड-कंटिन्यूएशन NLL को न्यूनतम करते हैं (केवल उत्तर टोकन पर हानि):

[\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big]]

मल्टी-टास्क प्रशिक्षण में कठिन कार्यों को मौका स्तर पर गिरने से रोकने के लिए EMA हानि सामान्यीकरण के साथ संतुलित प्रति-कार्य चरणों का उपयोग किया जाता है।

GIF

मल्टी-बेस प्रशिक्षण। जब हम एक साथ कई आधारों पर प्रशिक्षित करते हैं, तो एक छोटा आधार साझा प्रच्छन्न के ग्रेडिएंट पर हावी हो सकता है। हम (z_t) पर ग्रेडिएंट-नॉर्म संतुलन लागू करते हैं, ऑप्टिमाइज़र चरण से पहले प्रत्येक आधार के संचित ग्रेडिएंट को समान मानदंड में पुनः स्केल करते हैं, ताकि प्रत्येक आधार साझा प्रतिनिधित्व में समान रूप से योगदान दे।

पोर्टिंग। एक अनदेखे आधार (b') को देखते हुए, हम कोर डिकोडर और ({z_t}) को फ्रोज़ करते हैं और केवल प्रति-आधार परिवर्तक ({e_\ell, P^{in}, P^{out}}) को एक छोटे कैलिब्रेशन सेट पर पुनः फ़िट करते हैं:

[\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big]]

GIF

5. प्रायोगिक सेटअप

कार्य (14, मानक बहुविकल्पीय)। TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; उच्च हेडरूम), और BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (व्यापक/बड़ा मूल्यांकन)।

मीट्रिक। विकल्पों पर लंबाई-सामान्यीकृत लॉग-संभावना (acc_norm); हम होल्ड-आउट लॉग-लॉस (गोल्ड कंटिन्यूएशन का टोकन-माध्य NLL) भी रिपोर्ट करते हैं। §6.1–6.3 सर्वश्रेष्ठ-युग होल्ड-आउट चयन (प्रति-युग मूल्यांकन) का उपयोग करते हैं जबकि §6.4 अंतिम-युग मूल्यांकन का उपयोग करता है। सभी 3-बीज माध्य ± मानक विचलन हैं।

डेटा। प्रति कार्य 2,000 उदाहरण तक — एक कठोर सीमा जो दोनों स्रोत प्रशिक्षण और प्रति-आधार परिवर्तक पुनः फ़िट पर लागू होती है। §6.1–6.3 पूर्ण 2,000/कार्य पर फ़िट होता है; डेटा-दक्षता अध्ययन (§6.4) दर्शाता है कि बहुत कम पर्याप्त है। मूल्यांकन सेट 56 (CB) से 1,000 (BoolQ/WinoGrande/CSQA/SciQ) तक हैं; 14-कार्य सूट पर कुल ~7,200 मूल्यांकन उदाहरण।

मॉडल। दृश्यमान आधार: Qwen3-1.7B, Qwen3-4B। अनदेखे आधार: Qwen3-8B और Gemma-3-4B। प्रति-कार्य LoRA बेसलाइन: q/k/v/o + MLP पर रैंक 16। LoRA Hypernet/PorTAL (§6.1–6.3): q/v पर रैंक 8।

रिपोर्ट किए गए प्रयोग। (i) LoRA Hypernet बनाम प्रति-कार्य LoRA; (ii) परिवारों के भीतर और पार अनदेखे आधारों पर पोर्टेबिलिटी; (iii) परिवर्तक पुनः फ़िट की डेटा-दक्षता;

6. परिणाम

6.1 स्रोत आधार

विधि	औसत acc_norm (14 कार्य)
आधार	0.627
प्रति-कार्य LoRA	0.765 ± 0.003
LoRA Hypernet (संयुक्त रूप से (z_{4B}, D_{4B}) प्रशिक्षित)	0.757 ± 0.003

हम पहले पुष्टि करते हैं कि एक सीखा हुआ कार्य प्रच्छन्न (z) और एक डिकोडर, जो स्रोत आधार पर संयुक्त रूप से प्रशिक्षित होते हैं, उसी आधार पर स्वतंत्र रूप से प्रशिक्षित प्रति-कार्य LoRA से मेल खा सकते हैं। उत्पन्न LoRA Hypernet औसतन प्रति-कार्य LoRA की ~94% वृद्धि प्राप्त करता है और 6/14 कार्यों (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA) पर इसे मात देता है या बराबरी करता है।

6.2 परिवार के भीतर पोर्टेबिलिटी

विधि (अनदेखे 8B पर)	औसत acc_norm	पुनर्प्राप्त वृद्धि
Base-8B	0.667	—
प्रति-कार्य 8B LoRA	0.795 ± 0.004	100%
Cross-LoRA स्थानांतरण	0.685 ± 0.001	~14%
LoRA Hypernet (संयुक्त रूप से (z_{8B}, D_{8B}) प्रशिक्षित)	0.785 ± 0.002	~92%
PorTAL (फ्रोज़न (z_{(1.7B+4B)}), (D_{8B}) पुनः फ़िट)	0.792 ± 0.004	~98%

हम फिर सीधे पोर्टेबिलिटी का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर संयुक्त रूप से सीखे गए प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं, और केवल पतले परिवर्तक को एक अनदेखे आधार पर पुनः फ़िट करते हैं। अनदेखे Qwen3-8B पर यह प्रति-कार्य LoRA की ~98% वृद्धि प्राप्त करता है, जो तुलनीय क्रॉस-मॉडल स्थानांतरण विधि Cross-LoRA द्वारा प्राप्त ~14% से कहीं अधिक है। दिलचस्प बात यह है कि Qwen3-8B पर प्रच्छन्न और डिकोडर को संयुक्त रूप से प्रशिक्षित करना 0.785 (~92%) तक पहुँचता है, सांख्यिकीय रूप से पोर्ट किए गए प्रच्छन्न के बराबर, लेकिन थोड़ा कम। हम PorTAL के थोड़े उच्च प्रदर्शन को कई दृश्यमान आधारों पर हल्के नियमितीकरण के लिए जिम्मेदार ठहराते हैं।

6.3 क्रॉस-फ़ैमिली पोर्टेबिलिटी

अनदेखा लक्ष्य	आधार	प्रति-कार्य LoRA	PorTAL	पुनर्प्राप्त वृद्धि
Gemma-3-4B	0.595	0.778 ± 0.004	0.767 ± 0.004	~94%

हम फिर क्रॉस-फ़ैमिली स्थानांतरण का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर प्रशिक्षित प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं और परिवर्तक को Gemma-3-4B पर पुनः फ़िट करते हैं। यह शुरू से LoRA की ~94% वृद्धि प्राप्त करता है। क्रॉस-फ़ैमिली स्थानांतरण लगभग हानि-रहित है।

6.4 डेटा-दक्षता

PorTAL कार्य अनुकूलन को फैलाता है: दृश्यमान आधारों पर एक बार सीखा गया प्रच्छन्न और केंद्र प्रत्येक बाद के मॉडल को अनुकूलित करने के लिए सस्ता बना देता है, इसलिए किसी नए आधार पर पोर्ट करने के लिए शुरू से LoRA प्रशिक्षित करने की तुलना में बहुत कम डेटा की आवश्यकता होती है। हम इसे अनदेखे Qwen3-8B पर दिखाते हैं, PorTAL q/v r8, PorTAL full r8, और प्रति-कार्य r16-full LoRA के लिए प्रति-कार्य सेट आकार को स्वीप करते हैं। PorTAL के लिए यह सेट कैलिब्रेशन सेट है जिस पर यह परिवर्तक को पुनः फ़िट करता है; शुरू से LoRA के लिए यह प्रशिक्षण सेट है।

14-कार्य औसत कच्चा, base-8B acc 0.667 / log-loss 3.819:

दोनों प्लॉट में, वक्र 3 की खिड़की पर रोलिंग औसत हैं, और तारे चिह्नित करते हैं कि प्रत्येक विधि पहली बार प्रति-कार्य LoRA के शिखर पर कहाँ पहुँचती है।

PorTAL काफी अधिक डेटा-कुशल है। यह लगभग आधे डेटा का उपयोग करके प्रति-कार्य LoRA की सर्वश्रेष्ठ सटीकता से मेल खाता है, और उच्च डेटा श्रेणी में लगातार इसे हराता है। क्योंकि फ्रोज़न आधार प्रति-चरण लागत पर हावी है, आधे डेटा के साथ पठार तक पहुँचना अनुकूलन FLOPs को लगभग आधा कर देता है। PorTAL बेहतर कैलिब्रेटेड भी है, प्रत्येक डेटा आकार पर शुरू से LoRA की तुलना में कम होल्ड-आउट लॉग-लॉस के साथ।

नोट: हम हर जगह r16-full LoRA के खिलाफ तुलना करते हैं क्योंकि हमने पाया कि यह हमारे स्वीप में सबसे मजबूत प्रति-कार्य LoRA कॉन्फ़िगरेशन है।

7. भविष्य का कार्य

कठिन कार्यों पर ग्रेडिएंट प्रतिस्पर्धा। सर्वश्रेष्ठ युग चयन के तहत अधिकांश कार्य LoRA की वृद्धि तक पहुँचते हैं, लेकिन कुछ कठिन सामान्य ज्ञान और ज्ञान कार्य कम फ़िट होते हैं, सबसे खराब OpenBookQA (~42% वृद्धि), WinoGrande (~57%), और HellaSwag (~61%) हैं। ये सबसे अलग कार्य हैं, और क्योंकि रैंक-8 डिकोडर पूरे सूट में साझा है, उनके ग्रेडिएंट दूसरों द्वारा अधिक भारित होते हैं और वे कम-फ़िट रहते हैं। हम अनुमान लगाते हैं कि मूल कारण ऑप्टिमाइज़ेशन है, सीमित एडॉप्टर अभिव्यंजना नहीं, क्योंकि न तो बड़े रैंक-16 एडॉप्टर और न ही बड़े कार्य प्रच्छन्न ने मदद की। भविष्य के कार्य में हम बेहतर मल्टी-टास्क ऑप्टिमाइज़ेशन का पीछा करने की उम्मीद करते हैं, जैसे प्रति-कार्य क्षमता या पाठ्यक्रम, या साझा डिकोडर के ऊपर एक छोटा प्रति-कार्य अवशेष।

परिव्ययित पाठ-विवरण संस्करण। एक प्राकृतिक विस्तार मुक्त प्रति-कार्य प्रच्छन्न को एक कार्य विवरण पर एन्कोडर से बदल देता है, (z_t = E(emb(desc_t))), ताकि एक बिल्कुल नए कार्य को उसके विवरण से ही शून्य-शॉट (Text-to-LoRA की तरह) अनुकूलित किया जा सके, बिना प्रति-कार्य प्रशिक्षण के। हम एक पूर्ण अध्ययन भविष्य के कार्य के लिए छोड़ते हैं।

अन्य दिशाएँ। बड़े और निर्देश/उत्पादन कार्य बहुविकल्प से परे; और सिद्धांत कि कब एक फ्रोज़न प्रच्छन्न पर्याप्त है बनाम कब आधार-विशिष्ट अनुकूलन की आवश्यकता है।

हमारे अगले AI प्रयोगों के साथ अपडेट रहना चाहते हैं? यहाँ सब्सक्राइब करें और हमें @RampLabs पर फ़ॉलो करें। हम Ramp में विभिन्न भूमिकाओं के लिए भर्ती कर रहे हैं।

संदर्भ

Stanford HAI — AI Index Report 2024 (फाउंडेशन-मॉडल रिलीज़ गणना)। https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024)। https://arxiv.org/abs/2403.04132। टर्नओवर आँकड़ा (~35 दिन #1 पर) Arena लीडरबोर्ड डेटासेट, Arena (2025) से। https://arena.ai/blog/arena-leaderboard-dataset/
Stanford HAI — AI Index Report 2025। https://hai.stanford.edu/ai-index/2025-ai-index-report
Alloc Labs — The Hidden Cost of LLM Fine-Tuning। https://www.alloclabs.com/blog/hidden-cost-llm-finetuning
Huh et al. — The Platonic Representation Hypothesis (2024)। https://arxiv.org/abs/2405.07987
Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025)। https://openreview.net/forum?id=zWskCdu3QA
Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026)। https://arxiv.org/abs/2602.06358
Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025)। https://arxiv.org/abs/2510.16282
Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generation। https://openreview.net/pdf?id=mrafO7aTYj
Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025)। https://arxiv.org/abs/2508.05232
Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025)। https://arxiv.org/abs/2501.16559
Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025)। https://arxiv.org/abs/2510.17902
Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021)। https://arxiv.org/abs/2106.09685

परिशिष्ट

A. प्रशिक्षण और अतिपैरामीटर

सेटिंग	मान
ऑप्टिमाइज़र	AdamW
LR (डिकोडर / प्रच्छन्न)	1e-3 / 2e-3
युग / बैच आकार	5 / 4
मल्टी-टास्क संतुलन	संतुलित प्रति-कार्य चरण + EMA हानि-सामान्यीकरण (0.9 / 0.1) स्थिरता के लिए 1e-3 फ़्लोर के साथ
प्रति-कार्य LoRA बेसलाइन	peft, रैंक 16, अल्फ़ा 32, lr 1e-4, 5 युग (सर्वश्रेष्ठ-युग चयन), मॉड्यूल q/k/v/o + MLP
आरंभीकरण	B-हेड और FiLM γ, β शून्य-आरंभिक, ताकि उत्पन्न एडॉप्टर शुरू में पहचान (ΔW = 0) हो
हार्डवेयर	एकल NVIDIA B200 (प्रति रन)

B. मीट्रिक्स

हम पुनर्प्राप्त वृद्धि रिपोर्ट करते हैं जबकि पिछले क्रॉस-मॉडल-स्थानांतरण पेपर (Cross-LoRA, CAST) इसके बजाय अवधारण रिपोर्ट करते हैं। एक विधि (m), असंशोधित आधार (b), और शुरू से प्रति-कार्य LoRA (L) के लिए:

[\text{recovered lift} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}]

अवधारण लगभग 100% होता है जब भी थोड़ा हेडरूम होता है, वह शासन जिसमें वे पेपर काम करते हैं (उनका प्रशिक्षित LoRA आधार पर केवल ~1% जोड़ता है), इसलिए यह विभेदक नहीं है। हम उच्च हेडरूम सेटिंग में मूल्यांकन करते हैं और इसलिए पुनर्प्राप्त वृद्धि का उपयोग करते हैं। तुलनीयता के लिए, अवधारण शर्तों में Cross-LoRA पुनः कार्यान्वयन ~86% स्कोर करता है (CAST की रिपोर्ट की गई 85-95% बैंड के भीतर) जबकि केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा पोर्टिंग ~99% अवधारण / ~98% पुनर्प्राप्त वृद्धि स्कोर करता है।

इस कार्य को उद्धृत करें

APA

Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research

BibTeX

text

1@techreport{portal2026ramplabs,
2  author = {Geist, Ben},
3  title = {PorTAL: Portable Task Adapters for LLMs},
4  year = {2026},
5  month = {June},
6  institution = {Ramp Labs},
7  url = {https://labs.ramp.com/research}
8}

PorTAL: LLMs के लिए पोर्टेबल टास्क एडेप्टर

सारांश

1. परिचय और प्रेरणा

2. संबंधित कार्य

3. पृष्ठभूमि: LoRA और LoRA हाइपरनेटवर्क

4. विधि

5. प्रायोगिक सेटअप

6. परिणाम

7. भविष्य का कार्य

संदर्भ

परिशिष्ट

इस कार्य को उद्धृत करें

Turn one viral article into a full content workflow

हाल के वायरल लेख

Slack के 5 अनिवार्य नियम जिनका मैं आपसे पालन करने का आग्रह करता हूँ (गंभीरता से)

AI, टोकनाइज्ड स्टॉक्स, प्री-IPO परपेचुअल्स: जून @Coinbase

Binance ने 30 दिनों में स्टॉक ट्रेडिंग के लिए $1 बिलियन से अधिक की एसेट अंडर मैनेजमेंट (AUM) हासिल की

OpenWiki पेश है, रेपो डॉक्यूमेंटेशन के लिए एक ओपन सोर्स एजेंट

Indiana Fever की वर्तमान स्थिति

मैंने Fortnite स्किन्स बेचकर अपने पहले साल में $225,000 USD कैसे कमाए