量子化bit幅の異なる基盤モデルに対するAdapterの転移性を活用したLow-Rank Adaptation

神田 悠斗 波多野 賢治
雑誌・プロシーディングス名: 言語処理学会第31回年次大会発表論文集
開催地(都道府県): 長崎
国名(英語): Japan
言語: Japanese
ページ: Q8-23
出版年: 2025
出版月: 3
出版日: 2025-03-13
📄 PDFを開く 🌐 詳細ページへ
       

概要

大規模言語モデルは,重みの勾配や最適化状態を保持するため,推論時よりも訓練時に要求される GPU メモリ量が多いことが知られている.したがって,例えば同一の計算資源上で基盤モデルの訓練と推論を行う際には,基盤モデルのサイズは訓練時の資源制約から決定されるため,推論時には GPU メモリの余剰が発生する.本研究ではこの推論時のメモリの余剰に着目し,これを活用して LoRA モデルの性能を向上させる新たな 量子化-LoRA フレー ムワークとして,Post LoRA Restoration(PLR)を提案する.評価実験の結果,訓練時の計算コストはそのままに,PLR による最大 12 倍の精度向上が確認できた.

引用情報

神田 悠斗, 波多野 賢治, 量子化bit幅の異なる基盤モデルに対するAdapterの転移性を活用したLow-Rank Adaptation, 言語処理学会第31回年次大会発表論文集, pp.Q8-23, 2025-03-13.

Iconic One Theme | Powered by Wordpress