NLP2021 言語資源賞

■2021年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は76件の論文が対象となりました.18名の委員からなる選考委員会を組織し,授賞件数は2件を目安として,一次選考と二次選考の二段階で選考を行いました.

一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.評価の高い上位12件の論文を選定し,二次選考の対象論文としました.

二次選考では,選考委員のうちGSKの運営委員を兼ねる10名の委員が上記12件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.ただし,選考委員が共著者である論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,2件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文2件への授賞が決まりました.


■2021年 言語資源賞 (2件)

●P7-10 ビジネスシーン対話対訳コーパスの構築と対話翻訳の課題
中澤敏明, 李凌寒, Matiss Rikters (東大)

本論文は日英ビジネスシーン対話対訳コーパスを構築しています.6つのビジネスシーン(対面対話,電話応対,雑談,会議,研修,プレゼン)を想定し,日本語または英語の対話のシナリオをシナリオライターが執筆し,それを人手で英語または日本語に翻訳することで,日英・英日対訳コーパスを構築しています.日英・英日あわせて,シナリオの数はおよそ80,文数は2400となっています.コーパスの構築手順が丁寧に説明されており,品質管理が十分に行われていることが窺えます.また,このコーパスは評価型ワークショップ WAT 2020(Workshop on Asian Translation 2020) の翻訳タスクでも使用され,論文ではその結果ならびに誤り分析による対話翻訳の課題の考察についても報告しています.同コーパスの一部は既に公開されています.既存の対訳コーパスは書き言葉が中心で,話し言葉,特に対話の対訳コーパスは稀少であり,価値の高い言語資源と言えます.


●E8-3 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良
田中佑, 村脇有吾 (京大), 河原大輔 (早大), 黒橋禎夫 (京大)

本論文は, Wikipedia の編集履歴から日本語入力誤りデータセット JWTD v2(Japanese Wikipedia Typo Dataset version 2) を自動構築しています.このデータセットでは,誤りのタイプとして誤字,脱字,衍字,転字,漢字誤変換の5種類が想定され,これらの誤りを含む文とそれを訂正した正しい文が約70万組収録されています.Wikipedia の編集履歴から,誤りを含む可能性のある文と編集後の文(正しい文)の組をマイニングし,品詞・形態素解析,リダイレクトデータ,事前学習済みBART言語モデルを用いたフィルタリングによって誤り訂正前後の文の組を獲得します.さらに,JWTD v2 を用いて入力誤りを訂正するモデルを学習し,その精度が十分に高いことを実験により確認しています.日本語の入力誤りを含むデータセットとしては他に類を見ないほど大規模なものであり,特に深層学習に基づく日本語の誤り訂正の研究に役立つ重要な言語資源であると言えます.


■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
今一 修 (日立製作所)*
川田 拓也 (日本電気)*
木下 聡 (日本特許情報機構)*
黒田 由加 (三菱UFJリサーチ&コンサルティング)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
難波 英嗣 (中央大学)*
西野 文人 (富士通研究所)*
山崎 誠 (国立国語研究所)*
秋葉 友良 (豊橋技術科学大学)
石川 開 (日本電気)
柏野 和佳子 (国立国語研究所)
木村 俊也 (メルカリ)
福本 文代 (山梨大学)
望月 源 (東京外国語大学)
大久保 佳子 (日本システムアプリケーション)
大須賀 智子 (国立情報学研究所)