固有表現タグおよびPOSタグによる交換制約付きデータ拡張手法
雑誌・プロシーディングス名: 第15回データ工学と情報マネジメントに関するフォーラム予稿集
開催地(都道府県): 岐阜
国名(英語): Japan
言語: Japanese
No.: 1b-6-4
出版年: 2023
出版月: 3
出版日: 2023-03-06
受賞: 学生プレゼンテーション賞
概要
固有表現抽出(以下 NER)のタスクにおいて,深層学習モデルの有効性が示されている.大規模データの準備に,学習データを拡充するデータ拡張が用いられてきた.ルールに基づくデータ拡張は有効な解決方法である一方,系列ラベリング問題に分類されるタスクにおいては適用可能な手法が制限される.NER タグに基づき固有表現箇所を交換する既存拡張手法は,一定の効果を示した.しかし,データの大部分を占める非固有表現の NER タグ箇所に対しては,同様の交換により非文が発生する.本研究では,NER タグに加え POS タグに基づく固有表現ラベル交換 規則の厳格化と,POS タグに基づく非固有表現の NER タグ箇所の交換を提案し,その効果を検証した.
引用情報
寺本 優香, 駒水 孝裕, 波多野 賢治, 固有表現タグおよびPOSタグによる交換制約付きデータ拡張手法, 第15回データ工学と情報マネジメントに関するフォーラム予稿集, No.1b-6-4, 2023-03-06.