サブワードフレーズ抽出を併用した文書分類
雑誌・プロシーディングス名: 情報処理学会研究報告
開催地(都道府県): 富山
国名(英語): Japan
言語: Japanese
Vol.: 2022-IFAT-148
No.: 24
出版年: 2022
出版月: 9
出版日: 2022-09-09
概要
深層学習を用いた文書分類は従来の手法と比べて高精度を達成してきた.文書分類は固有表現抽出とのマルチタスク学習によりその精度を向上させることが可能であると報告されている.単語に基づいた特徴量を基本とする手法において,意味のまとまりとしてのフレーズは文書分類の精度に寄与することが知られている.一方で,深層学習においてサブワードは一般的に使われているが,単語とは異なり,意味のまとまりを表すとは限らない.そのため,サブワードで構成されるフレーズを文書分類に応用する研究はされてこなかった.そこで,本研究では文書分類の精度向上を目的に,サブワードフレーズ抽出と文書分類のマルチタスク学習を行う文書分類フレームワークを提案する.従来の単語に基づくフレーズ抽出手法が出現頻度を用いてきた点に倣い,本稿では高頻度なサブワードのフレーズをサブワードフレーズとして定義し抽出する.
引用情報
木村 優介, 駒水 孝裕, 波多野 賢治, サブワードフレーズ抽出を併用した文書分類, 情報処理学会研究報告, Vol.2022-IFAT-148, No.24, 2022-09-09.