検索対象文書集合を把握するためのコンテキスト内学習に基づいたクエリ書換え手法

三輪 歩希果 木村 優介 寺本 優香 波多野 賢治
雑誌・プロシーディングス名: 2025年電子情報通信学会総合大会 ISS 特別企画「ジュニア&学生ポスターセッション」予稿集
開催地(都道府県): 東京
国名(英語): Japan
言語: Japanese
出版年: 2025
出版月: 3
出版日: 2025-03-25
🌐 詳細ページへ
       

概要

大規模言語モデル(LLM)は,事前学習で獲得した知識をもとに質問への回答を生成する.しかし,質問内容が内部知識の範囲を超える場合,適切な回答生成が難しくなる.この問題を解決するために,情報検索を利用して関連文書を取得し,それを質問とともに LLM に入力して内部知識を補完する検索拡張生成 (RAG) 技術が広く注目されている. しかし,RAG における検索クエリが十分な情報を含まない場合,検索失敗により回答の精度が低下することがある.この課題に対処するため,検索クエリを書き換えてから用いる手法が提案されている.しかし,クエリ書換え器は検索対象となる文書の内容を把握していないため,検索対象に合わせたクエリ書換えを行うことが難しい. そこで本研究では,検索結果のリランキング時に,リランキング対象となる文書の内容を事前に LLM に把握させ,質問に基づいてリランキングに適したクエリを生成する手法を提案する.本手法により,検索の成功率を向上させ,RAG における回答精度の改善を目指す. この手法では,検索クエリが与えられた際,検索時にはクエリ書換えを行わず,取得された上位 10 件の文書集合とプロンプトを用いてクエリを書き換える.その後,書き換えたクエリと文書集合内の各段落の BM25 スコアを計算し,スコア上位 20 %の段落を回答生成に利用する. 本研究の評価実験では,クエリ書換えの有無やタイミングが RAG の性能に与える影響を確認するため,WEB 検索時にクエリ書換えを行うことを提案した既存手法であるRewrite-Retrieve-Read (RRR) を使用し,通常の RRR ,WEB 検索を行わない RRR(Direct),WEB 検索時にクエリ書換えを行わない RRR (Retrieve-then-read)との回答性能比較を行う. 対象とする QA タスクのデータセットは,幅広い知名度の情報に関する質問が含まれている PopQA と,曖昧な質問が含まれている AmbigNQ である.

引用情報

三輪 歩希果, 木村 優介, 寺本 優香, 波多野 賢治, 検索対象文書集合を把握するためのコンテキスト内学習に基づいたクエリ書換え手法, 2025年電子情報通信学会総合大会 ISS 特別企画「ジュニア&学生ポスターセッション」予稿集, 2025-03-25.

Iconic One Theme | Powered by Wordpress