PorTAL: LLMs के लिए पोर्टेबल टास्क एडेप्टर

@RampLabs
अंग्रेज़ी1 दिन पहले · 01 जुल॰ 2026
335K
506
45
17
867

TL;DR

PorTAL एक बेस-अज्ञेयवादी (base-agnostic) हाइपरनेटवर्क आर्किटेक्चर है जो विभिन्न मॉडलों के बीच LLM टास्क एडेप्टेशन को ट्रांसफर करने में सक्षम बनाता है, जिससे फाइन-ट्यूनिंग के लिए आवश्यक लागत और डेटा में काफी कमी आती है।

शोधकर्ता: बेन गीस्ट

सारांश

पैरामीटर-कुशल फाइन-ट्यूनिंग (जैसे LoRA) एक फ्रोज़न LLM को किसी कार्य के अनुकूल बनाती है, लेकिन परिणामी एडॉप्टर एक आधार मॉडल से बंधा होता है। जब कोई नया मॉडल जारी होता है, तो अनुकूलन को फिर से शुरू से सीखना पड़ता है। हम पोर्टेबल कार्य अनुकूलन (portable task adaptation) का अध्ययन करते हैं: एक कार्य अनुकूलन को एक बार, आधार-अनभिज्ञ (base-agnostic) रूप में सीखना और उसे केवल एक छोटे प्रति-मॉडल घटक को पुनः फ़िट करके नए फ्रोज़न मॉडलों में स्थानांतरित करना। ठोस रूप से, हम एक आधार-अनभिज्ञ कार्य प्रच्छन्न (task latent) (z_t) और एक हाइपरनेटवर्क डिकोडर (hypernetwork decoder) (D_b) सीखते हैं जो एक फ्रोज़न आधार के लिए प्रति-परत LoRA एडॉप्टर उत्पन्न करता है। डिकोडर एक आधार-अनभिज्ञ साझा केंद्र (shared core) और एक पतले प्रति-आधार परिवर्तक (per base converter) से बना होता है। किसी नए आधार पर पोर्ट करने के लिए, हम (z_t) और साझा केंद्र को फ्रोज़ करते हैं और केवल परिवर्तक को थोड़ी मात्रा में डेटा पर पुनः फ़िट करते हैं।

इस आर्किटेक्चर को, जिसे हम PorTAL नाम देते हैं, मॉडल परिवार के भीतर और, अधिक चौंकाने वाली बात, मॉडल परिवारों के पार, प्रति-कार्य LoRA की सटीकता वृद्धि को पुनर्प्राप्त करता है। हम इसे Qwen3-1.7B और 4B पर सीखे गए कार्य प्रच्छन्न और साझा केंद्र डिकोडर को फ्रोज़ करके, फिर केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करके और एक अनदेखे Qwen3-8B पर ~98% और Gemma-3-4B पर ~94% LoRA की सटीकता वृद्धि प्राप्त करके दर्शाते हैं। यह वर्तमान पोर्टेबल कार्य अनुकूलन विधियों से कहीं बेहतर प्रदर्शन करता है: Cross-LoRA बेसलाइन अनदेखे Qwen3-8B पर केवल ~14% वृद्धि प्राप्त करती है, जबकि हमारा 98% है। इसके अतिरिक्त, पुनः फ़िट डेटा-कुशल है: PorTAL लगभग आधे कैलिब्रेशन डेटा के साथ शुरू से LoRA सटीकता पठार तक पहुँच जाता है, और समान सटीकता पर लगातार बेहतर कैलिब्रेटेड होता है (प्रत्येक डेटा आकार पर कम होल्ड-आउट लॉग-लॉस) शुरू से LoRA की तुलना में। इससे बाद के आधार मॉडलों को फाइन-ट्यून करने के लिए आवश्यक FLOPs में काफी कमी आती है।

1. परिचय और प्रेरणा

नए भाषा मॉडल त्वरित गति से आ रहे हैं: प्रति वर्ष जारी उल्लेखनीय फाउंडेशन मॉडलों की संख्या 2020 में 2 से बढ़कर 2021 में 9, 2022 में 32 और 2023 में 149 हो गई [1], और 2024-2025 तक SOTA रिलीज़ की गति इतनी संकुचित हो गई थी कि SOTA मॉडल सार्वजनिक लीडरबोर्ड में औसतन केवल ~35 दिनों तक शीर्ष पर रहा, जो GPT-4 के लिए लगभग एक वर्ष से भी कम था [2]।

हालाँकि, किसी मॉडल को किसी कार्य के अनुकूल बनाना एक प्रति-मॉडल लागत है जो इन रिलीज़ों में नहीं फैलती। एक फाइन-ट्यून (पूर्ण या LoRA) एक आधार मॉडल के वेट स्पेस से बंधी होती है; जब अगला मॉडल आता है, तो अनुकूलन को नए आधार पर फिर से करना होता है। पैरामीटर-कुशल विधियों ने इकाई लागत को कम किया (7B मॉडल पर LoRA ~$1-3k बनाम पूर्ण फाइन-ट्यूनिंग के लिए ~$12k [3]) लेकिन इसकी संरचना को नहीं: आप अभी भी प्रति (कार्य, मॉडल) डेटा क्यूरेशन + एक प्रशिक्षण रन + मूल्यांकन के लिए भुगतान करते हैं, और पूर्ण फाइन-ट्यूनिंग लागत अभी भी बढ़ते मॉडल आकार के साथ बढ़ती है [4]।

परिणाम यह है कि वर्तमान सीमांत मॉडल पर फाइन-ट्यून क्षमताओं के पोर्टफोलियो को बनाए रखने की लागत मोटे तौर पर मॉडल रिलीज़ के बीच के समय के व्युत्क्रमानुपाती होती है। प्रति मॉडल पुनः ट्यूनिंग एक प्रमुख, लगातार बढ़ती लागत बन जाती है, जबकि एक सिस्टम को विशिष्ट रखते हुए प्रत्येक नए, अधिक स्मार्ट आधार की कच्ची बुद्धि प्राप्त करने की आवश्यकता होती है।

हमारा उत्तर एक बार कार्य अनुकूलन के लिए भुगतान करना और इसे प्रत्येक भविष्य के आधार पर फैलाना है। प्लेटोनिक प्रतिनिधित्व परिकल्पना [5] से प्रेरित होकर, हम अनुकूलन को आधार-अनभिज्ञ रूप में सीखते हैं और इसे प्रत्येक नए मॉडल पर केवल कुछ उदाहरणों पर एक हल्के प्रति-आधार मैप को पुनः फ़िट करके ले जाते हैं।

2. संबंधित कार्य

हमारा योगदान तीन कार्य-श्रेणियों के विचारों को जोड़ता है, जिनकी हम यहाँ समीक्षा करते हैं।

हाइपरनेटवर्क के माध्यम से एकल-आधार LoRA उत्पादन

Text-to-LoRA [6], इन-कॉन्टेक्स्ट SHINE [7], और Profile-to-PEFT [8] प्रति-कार्य या प्रति-उपयोगकर्ता अनुकूलन को एक एकल फॉरवर्ड पास में फैलाते हैं, लेकिन एक निश्चित आधार को लक्षित करते हैं और कार्यों या उपयोगकर्ताओं में सामान्यीकरण करते हैं, मॉडलों में नहीं (Text-to-LoRA स्पष्ट रूप से क्रॉस-मॉडल स्थानांतरण को खुला छोड़ देता है)।

क्रॉस-आर्किटेक्चर LoRA उत्पादन

LoRAGen [9] विभिन्न आधारों के लिए LoRA उत्सर्जित करने के लिए एक संरचनात्मक एम्बेडिंग (प्रच्छन्न + मॉड्यूल/परत एम्बेडिंग) का उपयोग करता है, लेकिन मौजूदा LoRA को पुनर्निर्माण करके प्रशिक्षित किया जाता है; हम इसके डिकोडर आकार को साझा करते हैं लेकिन कार्य हानि पर अंत-से-अंत प्रशिक्षित करते हैं, और महत्वपूर्ण रूप से, एक अनदेखे आधार तक पहुँचने के लिए एक साझा कार्य प्रच्छन्न और एक साझा केंद्र को फ्रोज़ करते हैं, केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करते हैं।

क्रॉस-मॉडल LoRA स्थानांतरण

Cross-LoRA [10], LoRA-X [11], और CAST [12] उसी लक्ष्य को लक्षित करते हैं जो हम करते हैं, लेकिन पहले से प्रशिक्षित एडॉप्टर को उप-स्थान या सक्रियण मैनिफोल्ड संरेखण के माध्यम से अनुवाद करके। हम इसके बजाय एक आधार-अनभिज्ञ प्रच्छन्न सीखते हैं और प्रति-आधार परिवर्तक को पुनः कैलिब्रेट करते हैं। हम पाते हैं कि यह छोटा कैलिब्रेशन चरण महत्वपूर्ण है। Cross-LoRA, जो बिना पुनः फ़िट किए मौजूदा एडॉप्टर को स्थानांतरित करता है, अनदेखे 8B पर LoRA की केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा ~98% है (§6.2)।

संक्षेप में, एकल-आधार LoRA उत्पादन, क्रॉस-आर्किटेक्चर उत्पादन, और क्रॉस-मॉडल स्थानांतरण सभी के पास पूर्व कला है। हमारा योगदान उन्हें एक ऐसी विधि में जोड़ता है जो एक साझा कार्य प्रच्छन्न और केंद्र सीखता है, उन्हें फ्रोज़ करता है, और किसी नए आधार तक पहुँचने के लिए केवल एक पतला प्रति-आधार परिवर्तक पुनः फ़िट करता है। हम इसे त्वरित मॉडल रिलीज़ गति के लिए एक रखरखाव लागत उत्तर के रूप में प्रस्तुत करते हैं, और दिखाते हैं कि यह अनुभवजन्य रूप से क्रॉस-मॉडल स्थानांतरण रेखा पर हावी है।

3. पृष्ठभूमि: LoRA और LoRA हाइपरनेटवर्क

LoRA [13]. एक फ्रोज़न वेट मैट्रिक्स के लिए, LoRA दो छोटे मैट्रिक्स (A) और (B) से रैंक (r) के निम्न-रैंक अद्यतन को सीखता है; केवल ये दो मैट्रिक्स प्रशिक्षित होते हैं:

[\Delta W = \frac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \frac{\alpha}{r} B(Ax)]

LoRA हाइपरनेटवर्क। (A) और (B) को सीधे प्रशिक्षित करने के बजाय, एक हाइपरनेटवर्क उन्हें एक कंडीशनिंग इनपुट से उत्पन्न करता है। Text-to-LoRA [6] एक हाइपरनेटवर्क को एक कार्य विवरण एम्बेडिंग से एकल आधार मॉडल के लिए पूर्ण LoRA उत्सर्जित करने के लिए प्रशिक्षित करता है, जो फ्रोज़न आधार के माध्यम से अंत-से-अंत होता है। यह प्रत्येक कार्य के लिए एक अलग LoRA के बजाय एक हाइपरनेटवर्क प्रशिक्षित करता है, लेकिन यह एकल-आधार रहता है, कार्यों में सामान्यीकरण करता है, मॉडलों में नहीं। हमारा डिज़ाइन हाइपरनेटवर्क LoRA उत्पादन विचार को उधार लेता है लेकिन एक अलग लक्ष्य को लक्षित करता है: एक साझा, सीखे गए कार्य प्रतिनिधित्व का क्रॉस-आधार स्थानांतरण

4. विधि

डिज़ाइन। हमारा लक्ष्य एक कार्य अनुकूलन है जो एक बार सीखा जाता है और सस्ते में नए फ्रोज़न मॉडलों में पोर्ट किया जाता है। हम एडॉप्टर जनरेटर को दो भागों में विभाजित करते हैं: एक बड़ा आधार-अनभिज्ञ कोर डिकोडर, जो सभी मॉडलों में साझा होता है, जो एक निश्चित कोर चौड़ाई (d_c) पर निम्न-रैंक कारक उत्सर्जित करता है; और एक पतला प्रति-आधार परिवर्तक जो साझा कोर के इनपुट को कंडीशन करता है और इसके आउटपुट को किसी विशिष्ट मॉडल के आयामों में प्रोजेक्ट करता है। हम एक या अधिक फ्रोज़न आधारों पर प्रशिक्षित करते हैं, फिर केवल इस छोटे प्रति-आधार परिवर्तक को पुनः फ़िट करके एक अनदेखे मॉडल में पोर्ट करते हैं।

यह सीखे गए अनुकूलन को एक साझा प्रतिनिधित्व में फैलाता है और प्रत्येक नए आधार को समर्थन देने के लिए सस्ता बनाता है। निर्माण से, साझा प्रच्छन्न और केंद्र में अधिकांश पैरामीटर होते हैं और कार्य प्रतिनिधित्व और एडॉप्टर स्पेस में इसके मैपिंग का बल्क अवशोषित करते हैं; केवल एक छोटा परिवर्तक मॉडल-विशिष्ट रहता है। हम नीचे घटकों को परिभाषित करते हैं।

सेटअप। मान लीजिए एक फ्रोज़न आधार (b) में ट्रांसफॉर्मर परतें (\ell = 1, \dots, L_b) हैं जिनमें प्रति-परत वेट मैट्रिक्स (W_{\ell, m}) अनुकूलित मॉड्यूल पर हैं (m \in {q_proj, v_proj}) (हम (m) को पूर्ण-मॉड्यूल संस्करण में सभी अटेंशन और MLP प्रोजेक्शन तक विस्तारित करते हैं)। मान लीजिए (\theta_b) फ्रोज़न आधार पैरामीटर को दर्शाता है।

कार्य प्रच्छन्न (Task latent)। प्रत्येक कार्य (t) को एक सीखे गए कार्य प्रच्छन्न (z_t) से मैप किया जाता है, जो आयाम (d_z = 256) का एक आधार-अनभिज्ञ वेक्टर है।

डिकोडर। हमारा हाइपरनेटवर्क (D_b) एक आधार-अनभिज्ञ कोर डिकोडर और एक पतले प्रति-आधार परिवर्तक से बना है; यह कार्य प्रच्छन्न (z_t) और एक प्रति-परत एम्बेडिंग (e_\ell) को प्रत्येक मॉड्यूल के LoRA कारकों में मैप करता है:

[(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}]

आंतरिक रूप से, हम एक एकल साझा ट्रंक को FiLM के साथ कंडीशन करते हैं। ट्रंक प्रति-परत एम्बेडिंग (e_\ell) को इनपुट के रूप में लेता है, जबकि कार्य प्रच्छन्न (z_t) इसकी छिपी हुई सुविधाओं को स्केल और शिफ्ट करता है। यह एक प्रति-परत छिपी हुई अवस्था उत्पन्न करता है:

[h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big)]

प्रति-मॉड्यूल हेड इस छिपी हुई अवस्था को कोर-चौड़ाई कारकों में मैप करते हैं:

[\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}]

अंत में, एक अलाइनर उन्हें प्रति-मॉड्यूल रैखिक मैप के माध्यम से आधार के आयामों में प्रोजेक्ट करता है:

[A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m}]

उत्पन्न एडॉप्टर को एक मानक LoRA डेल्टा के रूप में इंजेक्ट किया जाता है:

[y_{\ell,m} = W_{\ell,m}\,x + \frac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x)]

प्रशिक्षण। हम ({z_t}) और (D_b) को प्रशिक्षित करते हैं जबकि आधार पैरामीटर (\theta_b) फ्रोज़न रखते हैं। हम गोल्ड-कंटिन्यूएशन NLL को न्यूनतम करते हैं (केवल उत्तर टोकन पर हानि):

[\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big]]

मल्टी-टास्क प्रशिक्षण में कठिन कार्यों को मौका स्तर पर गिरने से रोकने के लिए EMA हानि सामान्यीकरण के साथ संतुलित प्रति-कार्य चरणों का उपयोग किया जाता है।

Ramp Labs - inline image

GIF

मल्टी-बेस प्रशिक्षण। जब हम एक साथ कई आधारों पर प्रशिक्षित करते हैं, तो एक छोटा आधार साझा प्रच्छन्न के ग्रेडिएंट पर हावी हो सकता है। हम (z_t) पर ग्रेडिएंट-नॉर्म संतुलन लागू करते हैं, ऑप्टिमाइज़र चरण से पहले प्रत्येक आधार के संचित ग्रेडिएंट को समान मानदंड में पुनः स्केल करते हैं, ताकि प्रत्येक आधार साझा प्रतिनिधित्व में समान रूप से योगदान दे।

पोर्टिंग। एक अनदेखे आधार (b') को देखते हुए, हम कोर डिकोडर और ({z_t}) को फ्रोज़ करते हैं और केवल प्रति-आधार परिवर्तक ({e_\ell, P^{in}, P^{out}}) को एक छोटे कैलिब्रेशन सेट पर पुनः फ़िट करते हैं:

[\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big]]

Ramp Labs - inline image

GIF

5. प्रायोगिक सेटअप

कार्य (14, मानक बहुविकल्पीय)। TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; उच्च हेडरूम), और BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (व्यापक/बड़ा मूल्यांकन)।

मीट्रिक। विकल्पों पर लंबाई-सामान्यीकृत लॉग-संभावना (acc_norm); हम होल्ड-आउट लॉग-लॉस (गोल्ड कंटिन्यूएशन का टोकन-माध्य NLL) भी रिपोर्ट करते हैं। §6.1–6.3 सर्वश्रेष्ठ-युग होल्ड-आउट चयन (प्रति-युग मूल्यांकन) का उपयोग करते हैं जबकि §6.4 अंतिम-युग मूल्यांकन का उपयोग करता है। सभी 3-बीज माध्य ± मानक विचलन हैं।

डेटा। प्रति कार्य 2,000 उदाहरण तक — एक कठोर सीमा जो दोनों स्रोत प्रशिक्षण और प्रति-आधार परिवर्तक पुनः फ़िट पर लागू होती है। §6.1–6.3 पूर्ण 2,000/कार्य पर फ़िट होता है; डेटा-दक्षता अध्ययन (§6.4) दर्शाता है कि बहुत कम पर्याप्त है। मूल्यांकन सेट 56 (CB) से 1,000 (BoolQ/WinoGrande/CSQA/SciQ) तक हैं; 14-कार्य सूट पर कुल ~7,200 मूल्यांकन उदाहरण।

मॉडल। दृश्यमान आधार: Qwen3-1.7B, Qwen3-4B। अनदेखे आधार: Qwen3-8B और Gemma-3-4B। प्रति-कार्य LoRA बेसलाइन: q/k/v/o + MLP पर रैंक 16। LoRA Hypernet/PorTAL (§6.1–6.3): q/v पर रैंक 8।

रिपोर्ट किए गए प्रयोग। (i) LoRA Hypernet बनाम प्रति-कार्य LoRA; (ii) परिवारों के भीतर और पार अनदेखे आधारों पर पोर्टेबिलिटी; (iii) परिवर्तक पुनः फ़िट की डेटा-दक्षता;

6. परिणाम

6.1 स्रोत आधार

विधि

औसत acc_norm (14 कार्य)

आधार

0.627

प्रति-कार्य LoRA

0.765 ± 0.003

LoRA Hypernet (संयुक्त रूप से (z_{4B}, D_{4B}) प्रशिक्षित)

0.757 ± 0.003

हम पहले पुष्टि करते हैं कि एक सीखा हुआ कार्य प्रच्छन्न (z) और एक डिकोडर, जो स्रोत आधार पर संयुक्त रूप से प्रशिक्षित होते हैं, उसी आधार पर स्वतंत्र रूप से प्रशिक्षित प्रति-कार्य LoRA से मेल खा सकते हैं। उत्पन्न LoRA Hypernet औसतन प्रति-कार्य LoRA की ~94% वृद्धि प्राप्त करता है और 6/14 कार्यों (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA) पर इसे मात देता है या बराबरी करता है।

6.2 परिवार के भीतर पोर्टेबिलिटी

विधि (अनदेखे 8B पर)

औसत acc_norm

पुनर्प्राप्त वृद्धि

Base-8B

0.667

प्रति-कार्य 8B LoRA

0.795 ± 0.004

100%

Cross-LoRA स्थानांतरण

0.685 ± 0.001

~14%

LoRA Hypernet (संयुक्त रूप से (z_{8B}, D_{8B}) प्रशिक्षित)

0.785 ± 0.002

~92%

PorTAL (फ्रोज़न (z_{(1.7B+4B)}), (D_{8B}) पुनः फ़िट)

0.792 ± 0.004

~98%

हम फिर सीधे पोर्टेबिलिटी का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर संयुक्त रूप से सीखे गए प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं, और केवल पतले परिवर्तक को एक अनदेखे आधार पर पुनः फ़िट करते हैं। अनदेखे Qwen3-8B पर यह प्रति-कार्य LoRA की ~98% वृद्धि प्राप्त करता है, जो तुलनीय क्रॉस-मॉडल स्थानांतरण विधि Cross-LoRA द्वारा प्राप्त ~14% से कहीं अधिक है। दिलचस्प बात यह है कि Qwen3-8B पर प्रच्छन्न और डिकोडर को संयुक्त रूप से प्रशिक्षित करना 0.785 (~92%) तक पहुँचता है, सांख्यिकीय रूप से पोर्ट किए गए प्रच्छन्न के बराबर, लेकिन थोड़ा कम। हम PorTAL के थोड़े उच्च प्रदर्शन को कई दृश्यमान आधारों पर हल्के नियमितीकरण के लिए जिम्मेदार ठहराते हैं।

6.3 क्रॉस-फ़ैमिली पोर्टेबिलिटी

अनदेखा लक्ष्य

आधार

प्रति-कार्य LoRA

PorTAL

पुनर्प्राप्त वृद्धि

Gemma-3-4B

0.595

0.778 ± 0.004

0.767 ± 0.004

~94%

हम फिर क्रॉस-फ़ैमिली स्थानांतरण का परीक्षण करते हैं। हम Qwen3-1.7B और 4B पर प्रशिक्षित प्रच्छन्न और कोर डिकोडर को फ्रोज़ करते हैं और परिवर्तक को Gemma-3-4B पर पुनः फ़िट करते हैं। यह शुरू से LoRA की ~94% वृद्धि प्राप्त करता है। क्रॉस-फ़ैमिली स्थानांतरण लगभग हानि-रहित है।

6.4 डेटा-दक्षता

PorTAL कार्य अनुकूलन को फैलाता है: दृश्यमान आधारों पर एक बार सीखा गया प्रच्छन्न और केंद्र प्रत्येक बाद के मॉडल को अनुकूलित करने के लिए सस्ता बना देता है, इसलिए किसी नए आधार पर पोर्ट करने के लिए शुरू से LoRA प्रशिक्षित करने की तुलना में बहुत कम डेटा की आवश्यकता होती है। हम इसे अनदेखे Qwen3-8B पर दिखाते हैं, PorTAL q/v r8, PorTAL full r8, और प्रति-कार्य r16-full LoRA के लिए प्रति-कार्य सेट आकार को स्वीप करते हैं। PorTAL के लिए यह सेट कैलिब्रेशन सेट है जिस पर यह परिवर्तक को पुनः फ़िट करता है; शुरू से LoRA के लिए यह प्रशिक्षण सेट है।

14-कार्य औसत कच्चा, base-8B acc 0.667 / log-loss 3.819:

Ramp Labs - inline image
Ramp Labs - inline image

दोनों प्लॉट में, वक्र 3 की खिड़की पर रोलिंग औसत हैं, और तारे चिह्नित करते हैं कि प्रत्येक विधि पहली बार प्रति-कार्य LoRA के शिखर पर कहाँ पहुँचती है।

PorTAL काफी अधिक डेटा-कुशल है। यह लगभग आधे डेटा का उपयोग करके प्रति-कार्य LoRA की सर्वश्रेष्ठ सटीकता से मेल खाता है, और उच्च डेटा श्रेणी में लगातार इसे हराता है। क्योंकि फ्रोज़न आधार प्रति-चरण लागत पर हावी है, आधे डेटा के साथ पठार तक पहुँचना अनुकूलन FLOPs को लगभग आधा कर देता है। PorTAL बेहतर कैलिब्रेटेड भी है, प्रत्येक डेटा आकार पर शुरू से LoRA की तुलना में कम होल्ड-आउट लॉग-लॉस के साथ।

नोट: हम हर जगह r16-full LoRA के खिलाफ तुलना करते हैं क्योंकि हमने पाया कि यह हमारे स्वीप में सबसे मजबूत प्रति-कार्य LoRA कॉन्फ़िगरेशन है।

7. भविष्य का कार्य

कठिन कार्यों पर ग्रेडिएंट प्रतिस्पर्धा। सर्वश्रेष्ठ युग चयन के तहत अधिकांश कार्य LoRA की वृद्धि तक पहुँचते हैं, लेकिन कुछ कठिन सामान्य ज्ञान और ज्ञान कार्य कम फ़िट होते हैं, सबसे खराब OpenBookQA (~42% वृद्धि), WinoGrande (~57%), और HellaSwag (~61%) हैं। ये सबसे अलग कार्य हैं, और क्योंकि रैंक-8 डिकोडर पूरे सूट में साझा है, उनके ग्रेडिएंट दूसरों द्वारा अधिक भारित होते हैं और वे कम-फ़िट रहते हैं। हम अनुमान लगाते हैं कि मूल कारण ऑप्टिमाइज़ेशन है, सीमित एडॉप्टर अभिव्यंजना नहीं, क्योंकि न तो बड़े रैंक-16 एडॉप्टर और न ही बड़े कार्य प्रच्छन्न ने मदद की। भविष्य के कार्य में हम बेहतर मल्टी-टास्क ऑप्टिमाइज़ेशन का पीछा करने की उम्मीद करते हैं, जैसे प्रति-कार्य क्षमता या पाठ्यक्रम, या साझा डिकोडर के ऊपर एक छोटा प्रति-कार्य अवशेष।

परिव्ययित पाठ-विवरण संस्करण। एक प्राकृतिक विस्तार मुक्त प्रति-कार्य प्रच्छन्न को एक कार्य विवरण पर एन्कोडर से बदल देता है, (z_t = E(emb(desc_t))), ताकि एक बिल्कुल नए कार्य को उसके विवरण से ही शून्य-शॉट (Text-to-LoRA की तरह) अनुकूलित किया जा सके, बिना प्रति-कार्य प्रशिक्षण के। हम एक पूर्ण अध्ययन भविष्य के कार्य के लिए छोड़ते हैं।

अन्य दिशाएँ। बड़े और निर्देश/उत्पादन कार्य बहुविकल्प से परे; और सिद्धांत कि कब एक फ्रोज़न प्रच्छन्न पर्याप्त है बनाम कब आधार-विशिष्ट अनुकूलन की आवश्यकता है।

हमारे अगले AI प्रयोगों के साथ अपडेट रहना चाहते हैं? यहाँ सब्सक्राइब करें और हमें @RampLabs पर फ़ॉलो करें। हम Ramp में विभिन्न भूमिकाओं के लिए भर्ती कर रहे हैं

संदर्भ

  1. Stanford HAI — AI Index Report 2024 (फाउंडेशन-मॉडल रिलीज़ गणना)। https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
  2. Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024)। https://arxiv.org/abs/2403.04132। टर्नओवर आँकड़ा (~35 दिन #1 पर) Arena लीडरबोर्ड डेटासेट, Arena (2025) से। https://arena.ai/blog/arena-leaderboard-dataset/
  3. Stanford HAI — AI Index Report 2025https://hai.stanford.edu/ai-index/2025-ai-index-report
  4. Alloc Labs — The Hidden Cost of LLM Fine-Tuninghttps://www.alloclabs.com/blog/hidden-cost-llm-finetuning
  5. Huh et al. — The Platonic Representation Hypothesis (2024)। https://arxiv.org/abs/2405.07987
  6. Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025)। https://openreview.net/forum?id=zWskCdu3QA
  7. Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026)। https://arxiv.org/abs/2602.06358
  8. Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025)। https://arxiv.org/abs/2510.16282
  9. Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generationhttps://openreview.net/pdf?id=mrafO7aTYj
  10. Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025)। https://arxiv.org/abs/2508.05232
  11. Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025)। https://arxiv.org/abs/2501.16559
  12. Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025)। https://arxiv.org/abs/2510.17902
  13. Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021)। https://arxiv.org/abs/2106.09685

परिशिष्ट

A. प्रशिक्षण और अतिपैरामीटर

सेटिंग

मान

ऑप्टिमाइज़र

AdamW

LR (डिकोडर / प्रच्छन्न)

1e-3 / 2e-3

युग / बैच आकार

5 / 4

मल्टी-टास्क संतुलन

संतुलित प्रति-कार्य चरण + EMA हानि-सामान्यीकरण (0.9 / 0.1) स्थिरता के लिए 1e-3 फ़्लोर के साथ

प्रति-कार्य LoRA बेसलाइन

peft, रैंक 16, अल्फ़ा 32, lr 1e-4, 5 युग (सर्वश्रेष्ठ-युग चयन), मॉड्यूल q/k/v/o + MLP

आरंभीकरण

B-हेड और FiLM γ, β शून्य-आरंभिक, ताकि उत्पन्न एडॉप्टर शुरू में पहचान (ΔW = 0) हो

हार्डवेयर

एकल NVIDIA B200 (प्रति रन)

B. मीट्रिक्स

हम पुनर्प्राप्त वृद्धि रिपोर्ट करते हैं जबकि पिछले क्रॉस-मॉडल-स्थानांतरण पेपर (Cross-LoRA, CAST) इसके बजाय अवधारण रिपोर्ट करते हैं। एक विधि (m), असंशोधित आधार (b), और शुरू से प्रति-कार्य LoRA (L) के लिए:

[\text{recovered lift} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{retention} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}]

अवधारण लगभग 100% होता है जब भी थोड़ा हेडरूम होता है, वह शासन जिसमें वे पेपर काम करते हैं (उनका प्रशिक्षित LoRA आधार पर केवल ~1% जोड़ता है), इसलिए यह विभेदक नहीं है। हम उच्च हेडरूम सेटिंग में मूल्यांकन करते हैं और इसलिए पुनर्प्राप्त वृद्धि का उपयोग करते हैं। तुलनीयता के लिए, अवधारण शर्तों में Cross-LoRA पुनः कार्यान्वयन ~86% स्कोर करता है (CAST की रिपोर्ट की गई 85-95% बैंड के भीतर) जबकि केवल ~14% वृद्धि प्राप्त करता है, जबकि हमारा पोर्टिंग ~99% अवधारण / ~98% पुनर्प्राप्त वृद्धि स्कोर करता है।

इस कार्य को उद्धृत करें

APA

Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research

BibTeX

text
1@techreport{portal2026ramplabs,
2 author = {Geist, Ben},
3 title = {PorTAL: Portable Task Adapters for LLMs},
4 year = {2026},
5 month = {June},
6 institution = {Ramp Labs},
7 url = {https://labs.ramp.com/research}
8}

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें