PorTAL: Adaptadores de tareas portátiles para el ajuste fino de LLMs entre modelos

Investigador: Ben Geist

Resumen

El ajuste fino eficiente en parámetros (ej. LoRA) adapta un LLM congelado a una tarea, pero el adaptador resultante está bloqueado a un modelo base. Cuando se lanza un nuevo modelo, la adaptación debe aprenderse desde cero. Estudiamos la adaptación de tareas portátil: aprender una adaptación de tarea una vez, en una forma agnóstica al modelo base, y transferirla a nuevos modelos congelados reajustando solo un componente pequeño por modelo. Concretamente, aprendemos un latente de tarea z_t agnóstico al modelo base y un decodificador de hiperred D_b que genera adaptadores LoRA por capa para un modelo base congelado. El decodificador está compuesto por un núcleo compartido agnóstico al modelo base y un convertidor delgado por modelo base. Para portar a un nuevo modelo base, congelamos z_t y el núcleo compartido y reajustamos solo el convertidor con una pequeña cantidad de datos.

Esta arquitectura, a la que llamamos PorTAL, recupera la mejora de precisión de LoRA por tarea tanto dentro de una familia de modelos como, más sorprendentemente, entre familias de modelos. Ilustramos esto congelando un latente de tarea y un decodificador de núcleo compartido aprendidos en Qwen3-1.7B y 4B, luego reajustando solo un convertidor delgado por modelo base y recuperando ~98% de la ganancia de precisión de LoRA en un Qwen3-8B no visto, y ~94% en Gemma-3-4B. Supera con creces los métodos actuales de adaptación de tareas portátiles: la línea base Cross-LoRA recupera solo ~14% de la ganancia en el Qwen3-8B no visto, frente a nuestro 98%. Además, el reajuste es eficiente en datos: PorTAL alcanza la meseta de precisión de LoRA desde cero con aproximadamente la mitad de datos de calibración, y con igual precisión está consistentemente mejor calibrado (menor log-loss en datos reservados) que un LoRA desde cero en cada tamaño de datos. Esto reduce considerablemente los FLOPs necesarios para ajustar modelos base posteriores.

1. Introducción y Motivación

Los nuevos modelos de lenguaje llegan a un ritmo acelerado: el número de modelos fundacionales notables lanzados por año aumentó de 2 en 2020 a 9 en 2021, 32 en 2022 y 149 en 2023 [1], y para 2024-2025 la cadencia de lanzamientos de SOTA se había comprimido tanto que el modelo SOTA solo mantuvo la cima del ranking público durante ~35 días en promedio, frente a casi un año para GPT-4 [2].

Adaptar un modelo a una tarea, sin embargo, es un costo por modelo que no se amortiza entre estos lanzamientos. Un ajuste fino (completo o LoRA) está bloqueado al espacio de pesos de un modelo base; cuando llega el siguiente modelo, la adaptación debe rehacerse en el nuevo modelo base. Los métodos eficientes en parámetros redujeron el costo unitario (un LoRA en un modelo de 7B cuesta ~$1-3k frente a ~$12k para ajuste fino completo [3]) pero no su estructura: todavía pagas por curación de datos + una ejecución de entrenamiento + evaluación una vez por (tarea, modelo), y el costo del ajuste fino completo aún escala con el tamaño creciente del modelo [4].

El resultado es que el costo de mantener un portafolio de capacidades ajustadas en el modelo frontera actual escala aproximadamente de forma inversa al tiempo entre lanzamientos de modelos. Reajustar por modelo se convierte en el costo dominante y creciente de mantener un sistema especializado mientras también se gana la inteligencia bruta de cada modelo base más nuevo y más inteligente.

Nuestra respuesta es pagar por la adaptación de tarea una vez y amortizarla en cada modelo base futuro. Inspirados por la Hipótesis de Representación Platónica [5], aprendemos la adaptación en una forma agnóstica al modelo base y la llevamos a cada nuevo modelo reajustando solo un mapa ligero por modelo base con un puñado de ejemplos.

2. Trabajo relacionado

Nuestra contribución combina ideas de tres líneas de trabajo, que revisamos aquí.

Generación de LoRA de base única mediante hiperredes

Text-to-LoRA [6], in-context SHINE [7] y Profile-to-PEFT [8] amortizan la adaptación por tarea o por usuario en una sola pasada hacia adelante, pero se dirigen a un modelo base fijo y generalizan entre tareas o usuarios, no entre modelos (Text-to-LoRA explícitamente deja abierta la transferencia entre modelos).

Generación de LoRA entre arquitecturas

LoRAGen [9] utiliza un embedding estructural (latente + embeddings de módulo/capa) para emitir LoRA para diferentes modelos base, pero se entrena reconstruyendo LoRAs existentes; compartimos la forma de su decodificador pero entrenamos de extremo a extremo con pérdida de tarea, y crucialmente, congelamos un latente de tarea compartido y un núcleo compartido, reajustando solo un convertidor delgado por modelo base para llegar a un modelo base no visto.

Transferencia de LoRA entre modelos

Cross-LoRA [10], LoRA-X [11] y CAST [12] apuntan al mismo objetivo que nosotros, pero traduciendo un adaptador ya entrenado mediante alineación de subespacios o de espacios de activación. Nosotros, en cambio, aprendemos un latente agnóstico al modelo base y recalibramos el convertidor por modelo base. Encontramos que este pequeño paso de calibración es importante. Cross-LoRA, que transfiere un adaptador existente sin reajuste, recupera solo ~14% de la mejora de LoRA en el 8B no visto, frente a nuestro ~98% (§6.2).

En resumen, la generación de LoRA de base única, la generación entre arquitecturas y la transferencia entre modelos tienen trabajo previo. Nuestra contribución los combina en una receta que aprende un latente de tarea y un núcleo compartidos, los congela y reajusta solo un convertidor delgado por modelo base para llegar a un nuevo modelo base. Enmarcamos esto como una respuesta al costo de mantenimiento ante una cadencia acelerada de lanzamientos de modelos, y mostramos que domina empíricamente la línea de transferencia entre modelos.

3. Antecedentes: LoRA e hiperredes LoRA

LoRA [13]. Para una matriz de pesos congelada, LoRA aprende una actualización de bajo rango construida a partir de dos matrices pequeñas A y B de rango r; solo estas dos matrices entrenan:

ΔW=αrBA,A∈Rr×din, B∈Rdout×r, r≪d,y=Wx+αrB(Ax)\Delta W = \tfrac{\alpha}{r} B A,\qquad A \in \mathbb{R}^{r\times d_{in}},\; B \in \mathbb{R}^{d_{out}\times r},\; r \ll d,\qquad y = Wx + \tfrac{\alpha}{r} B(Ax)

Hiperredes LoRA. En lugar de entrenar A y B directamente, una hiperred las genera a partir de una entrada de condicionamiento. Text-to-LoRA [6] entrena una hiperred para emitir un LoRA completo para un solo modelo base a partir de un embedding de descripción de tarea, de extremo a extremo a través del modelo base congelado. Esto entrena una hiperred en lugar de un LoRA separado para cada tarea, pero permanece en un solo modelo base, generalizando entre tareas, no entre modelos. Nuestro diseño toma prestada la idea de generación de LoRA con hiperred pero apunta a un objetivo diferente, la transferencia entre modelos base de una representación de tarea aprendida y compartida.

4. Método

Diseño. Nuestro objetivo es una adaptación de tarea que se aprende una vez y se porta económicamente a nuevos modelos congelados. Dividimos el generador de adaptadores en dos partes: un decodificador de núcleo agnóstico al modelo base grande, compartido entre todos los modelos, que emite factores de bajo rango con un ancho de núcleo fijo d_c; y un convertidor delgado por modelo base que condiciona las entradas del núcleo compartido y proyecta sus salidas a las dimensiones de un modelo específico. Entrenamos en uno o más modelos base congelados, luego portamos a un modelo no visto reajustando solo este pequeño convertidor por modelo base.

Esto amortiza la adaptación aprendida en una representación compartida y hace que cada nuevo modelo base sea económico de soportar. Por construcción, el latente compartido y el núcleo contienen la mayoría de los parámetros y absorben tanto la representación de la tarea como la mayor parte de su mapeo al espacio del adaptador; solo un convertidor pequeño permanece específico del modelo. Definimos los componentes a continuación.

Configuración. Sea un modelo base congelado b que tiene capas de transformer ℓ = 1, …, L_b con matrices de pesos por capa W_ℓ, m en los módulos adaptados m ∈ {q_proj, v_proj} (extendemos m a todas las proyecciones de atención y MLP en la variante de módulo completo). Sea θ_b los parámetros del modelo base congelado.

Latente de tarea. Cada tarea t se asigna a un latente de tarea aprendido z_t, un vector agnóstico al modelo base de dimensión d_z = 256.

Decodificador. Nuestra hiperred D_b se compone de un decodificador de núcleo agnóstico al modelo base y un convertidor delgado por modelo base; mapea el latente de tarea z_t y un embedding por capa e_ℓ a los factores LoRA de cada módulo:

(Aℓ,m, Bℓ,m)=Db(zt,eℓ,m),Aℓ,m∈Rr×dℓin, Bℓ,m∈Rdℓ,mout×r(A_{\ell,m},\, B_{\ell,m}) = D_b(z_t, e_\ell, m), \qquad A_{\ell,m}\in\mathbb{R}^{r\times d^{in}_\ell},\; B_{\ell,m}\in\mathbb{R}^{d^{out}_{\ell,m}\times r}

Internamente, condicionamos un tronco compartido único con FiLM. El tronco toma el embedding por capa e_ℓ como entrada, mientras que el latente de tarea z_t escala y desplaza sus características ocultas. Esto produce un estado oculto por capa:

hℓ=ϕ(W2 [(1+γ(zt))⊙ψ(W1[zt;eℓ])+β(zt)]),h_\ell = \phi\big(W_2\,\big[(1+\gamma(z_t))\odot \psi(W_1[z_t; e_\ell]) + \beta(z_t)\big]\big),

Las cabezas por módulo luego mapean este estado oculto a factores de ancho de núcleo:

A^ℓ,m=HeadmA(hℓ)∈Rr×dc,B^ℓ,m=HeadmB(hℓ)∈Rdc×r.\hat A_{\ell,m} = \mathrm{Head}^{A}_{m}(h_\ell) \in \mathbb{R}^{r\times d_c}, \qquad \hat B_{\ell,m} = \mathrm{Head}^{B}_{m}(h_\ell) \in \mathbb{R}^{d_c\times r}.

Finalmente, un alineador los proyecta a las dimensiones del modelo base mediante mapas lineales por módulo:

Aℓ,m=A^ℓ,m Pbin,Bℓ,m=Pbout B^ℓ,m,A_{\ell,m} = \hat A_{\ell,m}\,P^{in}_b, \qquad B_{\ell,m} = P^{out}_b\,\hat B_{\ell,m},

El adaptador generado se inyecta como un delta LoRA estándar:

yℓ,m=Wℓ,m x+αr Bℓ,m (Aℓ,m x).y_{\ell,m} = W_{\ell,m}\,x + \tfrac{\alpha}{r}\, B_{\ell,m}\,(A_{\ell,m}\,x).

Entrenamiento. Entrenamos {z_t} y D_b manteniendo los parámetros del modelo base θ_b congelados. Minimizamos la NLL de continuación dorada (pérdida solo en tokens de respuesta):

min⁡{zt}, Db ∑t E(x,y)∼Dttrain[−log⁡p θb ⊕ Db(zt)(y∣x)].\min_{{z_t},\, D_b}\; \sum_{t}\, \mathbb{E}_{(x,y)\sim \mathcal{D}^{train}_t}\big[-\log p_{\,\theta_b\,\oplus\, D_b(z_t)}(y \mid x)\big].

El entrenamiento multitarea utiliza pasos equilibrados por tarea con normalización de pérdida EMA para evitar que las tareas difíciles colapsen al azar.

GIF

Entrenamiento con múltiples modelos base. Cuando entrenamos en varios modelos base a la vez, un modelo base pequeño puede dominar el gradiente del latente compartido. Aplicamos equilibrio de norma de gradiente en z_t, reescalando el gradiente acumulado de cada modelo base a igual norma antes del paso del optimizador, para que cada modelo base contribuya por igual a la representación compartida.

Portabilidad. Dado un modelo base no visto b', congelamos el decodificador de núcleo y {z_t} y reajustamos solo el convertidor por modelo base {e_ℓ , P_in, P_out} en un conjunto de calibración pequeño:

min⁡{eℓ}, Pb′in,Pb′out ∑tE(x,y)∼Dtport[−log⁡p θb′ ⊕ Db′(zt)(y∣x)].\min_{{e_\ell},\, P^{in}_{b'}, P^{out}_{b'}}\; \sum_t \mathbb{E}_{(x,y)\sim \mathcal{D}^{port}_t}\big[-\log p_{\,\theta_{b'}\,\oplus\, D_{b'}(z_t)}(y\mid x)\big].

GIF

5. Configuración experimental

Tareas (14, opción múltiple estándar). TruthfulQA, RTE, CB, COPA, WiC, WSC (SuperGLUE + TruthfulQA; mayor margen de mejora), y BoolQ, ARC-Easy, ARC-Challenge, HellaSwag, OpenBookQA, WinoGrande, CommonsenseQA, SciQ (más amplias/evaluaciones más grandes).

Métrica. Log-verosimilitud normalizada por longitud sobre opciones (acc_norm); también reportamos log-loss en datos reservados (NLL media por token de la continuación dorada). Las secciones §6.1–6.3 utilizan selección de mejor época (evaluación por época), mientras que §6.4 utiliza evaluación de la época final. Todas son medias de 3 semillas ± desviación estándar.

Datos. Hasta 2,000 ejemplos/tarea — un límite máximo aplicado tanto al entrenamiento fuente como al reajuste del convertidor por modelo base. Las secciones §6.1–6.3 se ajustan con los 2,000/tarea completos; el estudio de eficiencia de datos (§6.4) muestra que muchos menos son suficientes. Los conjuntos de evaluación varían de 56 (CB) a 1,000 (BoolQ/WinoGrande/CSQA/SciQ); ~7,200 ejemplos de evaluación en total en el conjunto de 14 tareas.

Modelos. Modelos base vistos: Qwen3-1.7B, Qwen3-4B. Modelos base no vistos: Qwen3-8B y Gemma-3-4B. Líneas base LoRA por tarea: rango 16 en q/k/v/o + MLP. LoRA Hypernet/PorTAL (§6.1–6.3): rango 8 en q/v.

Experimentos reportados. (i) LoRA Hypernet vs LoRA por tarea; (ii) portabilidad a modelos base no vistos dentro y entre familias; (iii) eficiencia de datos del reajuste del convertidor;

6. Resultados

6.1 Modelo base fuente

Método

Acc_norm promedio (14 tareas)

Modelo base

0.627

LoRA por tarea

0.765 ± 0.003

LoRA Hypernet

(entrenar conjuntamente z4B, D4B)(\text{entrenar conjuntamente } z_{4B},\, D_{4B})

0.757 ± 0.003

Primero confirmamos que un latente de tarea aprendido z y un decodificador, entrenados conjuntamente en el modelo base fuente, pueden igualar a los LoRA por tarea entrenados independientemente en el mismo modelo base. El LoRA Hypernet generado recupera ~94% de la mejora del LoRA por tarea en promedio y lo iguala o supera en 6/14 tareas (RTE, CB, COPA, WiC, ARC-Easy, CommonsenseQA).

6.2 Portabilidad dentro de la familia

Método (en 8B no visto)

Acc_norm promedio

Mejora recuperada

Modelo base-8B

0.667

—

LoRA 8B por tarea

0.795 ± 0.004

100%

Transferencia Cross-LoRA

0.685 ± 0.001

~14%

LoRA Hypernet (entrenar conjuntamente z8B, D8B)\text{LoRA Hypernet (entrenar conjuntamente } z_{8B},\, D_{8B})

0.785 ± 0.002

~92%

PorTAL

(z(1.7B+4B) congelado, reajustar D8B)(\text{z}_{(1.7B+4B)} \text{ congelado, reajustar } D_{8B})

0.792 ± 0.004

~98%

Luego probamos la portabilidad directamente. Congelamos el latente y el decodificador de núcleo, aprendidos conjuntamente en Qwen3-1.7B y 4B, y reajustamos solo el convertidor delgado en un modelo base no visto. En un Qwen3-8B no visto, esto recupera ~98% de la mejora del LoRA por tarea, muy por encima del ~14% recuperado por Cross-LoRA, el método comparable de transferencia entre modelos. Es interesante notar que entrenar el latente y el decodificador conjuntamente en Qwen3-8B alcanza 0.785 (~92%), estadísticamente a la par con el latente portado, pero ligeramente inferior. Atribuimos el rendimiento ligeramente superior de PorTAL a una regularización moderada a través de los múltiples modelos base vistos.

6.3 Portabilidad entre familias

Objetivo no visto

Modelo base

LoRA por tarea

PorTAL

Mejora recuperada

Gemma-3-4B

0.595

0.778 ± 0.004

0.767 ± 0.004

~94%

Luego probamos la transferencia entre familias. Congelamos el latente y el decodificador de núcleo entrenados en Qwen3-1.7B y 4B y reajustamos el convertidor en Gemma-3-4B. Esto recupera ~94% de la mejora del LoRA desde cero. La transferencia entre familias es casi sin pérdidas.

6.4 Eficiencia de datos

PorTAL amortiza la adaptación de tarea: un latente y un núcleo aprendidos una vez en los modelos base vistos deberían hacer que cada modelo subsiguiente sea económico de adaptar, por lo que portar a un nuevo modelo base necesita muchos menos datos que entrenar un LoRA desde cero. Mostramos esto en el Qwen3-8B no visto, variando el tamaño del conjunto por tarea para PorTAL q/v r8, PorTAL completo r8 y LoRA completo r16 por tarea. Para PorTAL, este conjunto es el conjunto de calibración en el que reajusta el convertidor; para el LoRA desde cero, es el conjunto de entrenamiento.

Promedios brutos de 14 tareas, modelo base-8B acc 0.667 / log-loss 3.819:

En ambos gráficos, las curvas son un promedio móvil sobre una ventana de 3, y las estrellas marcan dónde cada método alcanza por primera vez el pico del LoRA por tarea.

PorTAL es sustancialmente más eficiente en datos. Iguala la mejor precisión del LoRA por tarea usando aproximadamente la mitad de los datos, y lo supera consistentemente en el rango de datos altos. Debido a que el modelo base congelado domina el costo por paso, alcanzar la meseta con la mitad de los datos aproximadamente reduce a la mitad los FLOPs de adaptación. PorTAL también está mejor calibrado, con un log-loss en datos reservados más bajo que el LoRA desde cero en cada tamaño de datos.

Nota: Comparamos con LoRA completo r16 en todo momento porque encontramos que era la configuración de LoRA por tarea más fuerte en nuestra exploración.

7. Trabajo futuro

Competencia de gradientes en tareas difíciles. Bajo la selección de la mejor época, la mayoría de las tareas alcanzan la mejora de LoRA, pero algunas tareas de conocimiento común y sentido común más difíciles se ajustan menos, siendo las peores OpenBookQA (~42% de la mejora), WinoGrande (~57%) y HellaSwag (~61%). Estas son las tareas más distintas, y debido a que el decodificador de rango 8 se comparte en todo el conjunto, sus gradientes son superados por los demás y permanecen subajustados. Hipotetizamos que la causa raíz es la optimización, no la expresividad limitada del adaptador, ya que ni un adaptador de rango 16 más grande ni un latente de tarea más grande ayudaron. En trabajo futuro esperamos buscar una mejor optimización multitarea, como capacidad por tarea o plan de estudios, o un pequeño residual por tarea sobre el decodificador compartido.

Variante de descripción de texto amortizada. Una extensión natural reemplaza el latente por tarea libre con un codificador sobre una descripción de tarea, z_t = E(emb(desc_t)), de modo que una tarea completamente nueva podría adaptarse sin ejemplos a partir de su descripción (al estilo de Text-to-LoRA), sin entrenamiento por tarea. Dejamos un estudio completo para trabajo futuro.

Otras direcciones. Tareas más grandes y de instrucción/generación más allá de opción múltiple; y teoría sobre cuándo un latente congelado es suficiente frente a cuándo se requiere adaptación específica del modelo base.

¿Quieres mantenerte al día con nuestros próximos experimentos de IA? Suscríbete aquí y síguenos en @RampLabs. También estamos contratando para varios roles en Ramp.

Referencias

Stanford HAI — AI Index Report 2024 (conteos de lanzamientos de modelos fundacionales). https://www.deeplearning.ai/the-batch/stanford-ai-index-report-shows-the-state-of-ai-in-2024
Chiang et al. — Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (ICML 2024). https://arxiv.org/abs/2403.04132. Estadística de rotación (~35 días en el #1) del Conjunto de Datos del Ranking de Arena, Arena (2025). https://arena.ai/blog/arena-leaderboard-dataset/
Stanford HAI — AI Index Report 2025. https://hai.stanford.edu/ai-index/2025-ai-index-report
Alloc Labs — The Hidden Cost of LLM Fine-Tuning. https://www.alloclabs.com/blog/hidden-cost-llm-finetuning
Huh et al. — The Platonic Representation Hypothesis (2024). https://arxiv.org/abs/2405.07987
Charakorn et al. — Text-to-LoRA: Instant Transformer Adaptation (ICML 2025). https://openreview.net/forum?id=zWskCdu3QA
Liu et al. — SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA (2026). https://arxiv.org/abs/2602.06358
Tan et al. — Instant Personalized LLM Adaptation via Hypernetwork (Profile-to-PEFT) (2025). https://arxiv.org/abs/2510.16282
Huang et al. — LoRAGen: Structure-Aware LoRA Weight Generation. https://openreview.net/pdf?id=mrafO7aTYj
Xia et al. — Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs (2025). https://arxiv.org/abs/2508.05232
Farhadzadeh et al. — LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation (2025). https://arxiv.org/abs/2501.16559
Al Kari — CAST: Activation Manifold Projection (Cartridge Activation Space Transfer) (2025). https://arxiv.org/abs/2510.17902
Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models (2021). https://arxiv.org/abs/2106.09685

Apéndice

A. Entrenamiento e hiperparámetros

Configuración

Valor

Optimizador

AdamW

LR (decodificador / latente)

1e-3 / 2e-3

Épocas / tamaño de lote

5 / 4

Equilibrio multitarea

pasos equilibrados por tarea + normalización de pérdida EMA (0.9 / 0.1) con un piso de 1e-3 para estabilidad

Línea base LoRA por tarea

peft, rango 16, alpha 32, lr 1e-4, 5 épocas (selección de mejor época), módulos q/k/v/o + MLP

Inicialización

Cabezas B y FiLM γ, β inicializados en cero, por lo que el adaptador generado es la identidad (ΔW = 0) al inicio

Hardware

único NVIDIA B200 (por ejecución)

B. Métricas

Reportamos mejora recuperada mientras que los trabajos previos de transferencia entre modelos (Cross-LoRA, CAST) reportan retención. Para un método m, modelo base no adaptado b y LoRA por tarea desde cero L:

mejora recuperada=accm−accbaccL−accb,retencioˊn=accmaccL.\text{mejora recuperada} = \frac{\mathrm{acc}_m - \mathrm{acc}_b}{\mathrm{acc}_L - \mathrm{acc}_b}, \qquad \text{retención} = \frac{\mathrm{acc}_m}{\mathrm{acc}_L}.

La retención está cerca del 100% siempre que hay poco margen de mejora, el régimen en el que operan esos trabajos (su LoRA entrenado agrega solo ~1% sobre el modelo base), por lo que no es discriminativa. Evaluamos en un entorno de mayor margen de mejora y, por lo tanto, utilizamos mejora recuperada. Para comparabilidad, en términos de retención, la reimplementación de Cross-LoRA obtiene ~86% (dentro del rango reportado de 85-95% de CAST) mientras recupera solo ~14% de la mejora, mientras que nuestra portabilidad obtiene ~99% de retención / ~98% de mejora recuperada.

Citar este trabajo

APA

Geist, B. (2026). PorTAL: Portable Task Adapters for LLMs. Ramp Labs. https://labs.ramp.com/research

BibTeX

text

1@techreport{portal2026ramplabs,
2  author = {Geist, Ben},
3  title = {PorTAL: Portable Task Adapters for LLMs},
4  year = {2026},
5  month = {June},
6  institution = {Ramp Labs},
7  url = {https://labs.ramp.com/research}
8}

PorTAL: Adaptadores de tareas portátiles para LLMs

Resumen

1. Introducción y Motivación

2. Trabajo relacionado

3. Antecedentes: LoRA e hiperredes LoRA

4. Método

5. Configuración experimental

6. Resultados

7. Trabajo futuro

Referencias

Apéndice

Citar este trabajo

Turn one viral article into a full content workflow

Artículos virales recientes

El estado actual de las Indiana Fever

Cómo los ingenieros de Anthropic diseñan realmente los prompts para Fable 5

El manual real que descubrí tras usar NotebookLM todos los días durante un año

Descompilación de la aplicación Tesla 4.58.5

Análisis del partido: Japón 1-2 Brasil "Yin y Yang" por M. Sinan Pala

5 reglas esenciales de Slack que te ruego seguir (en serio)