ストップフレーズ抽出を併用した文書分類

木村 優介 駒水 孝裕 波多野 賢治
雑誌・プロシーディングス名: 第14回データ工学と情報マネジメントに関するフォーラム予稿集
国名(英語): Online
言語: Japanese
出版年: 2022
出版月: 2
出版日: 2022-02-28
📄 PDFを開く
       

概要

深層学習は文書分類においても盛んに利用されており,そのモデルの多くは従来の手法よりも高精度を達 成している.文書分類において,入力文のトークン化は重要な役割を果たすが,語彙を適切に設定することが重要とな る.文字より細かい単位の文字列を統計的な手法により語彙化するトークナイザは文書分類や文書検索などの幅広い タスクに使われている.一般的に単語はジップの法則に従い,高頻度の単語はその多くが機能語であり,文書分類に 寄与しないストップワードとして扱われる.また,サブワードや隣接するサブワードで構成されるサブワードフレー ズも単語と同様にジップの法則に従うことから,高頻度なサブワードフレーズはストップフレーズとなることが期待 される.文書分類モデルにストップフレーズを考慮させることにより,分類モデルがより分類に寄与する重要な語に 注目できるようになり,その精度を向上させる可能性がある.そこで,本研究では文書分類の精度向上を目的とした ストップフレーズ抽出を提案する.また,ストップフレーズ抽出と文書分類のマルチタスク学習を行うことで,意図 的にストップフレーズの Attention 値を低くすることができ,適切なストップフレーズを選択することができれば文 書分類の精度向上の可能性を示した.

引用情報

木村 優介, 駒水 孝裕, 波多野 賢治, ストップフレーズ抽出を併用した文書分類, 第14回データ工学と情報マネジメントに関するフォーラム予稿集, 2022-02-28.

Iconic One Theme | Powered by Wordpress