NLP2018 言語資源賞

■2018年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は81件の論文が対象となりました.16名の委員からなる選考委員会を組織し,授賞件数は1,2件を目安として,一次選考と二次選考の二段階で選考を行いました.

一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.賞に推薦する場合は3点以上の総合評価点をつけることとしました.2名の選考委員の総合評価点がともに3点以上で,かつその平均が3.5以上の論文15件を選定し,これらを二次選考の対象論文としました.

二次選考では,選考委員のうちGSKの運営委員を兼ねる7名の委員が上記15件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.ただし,選考委員が共著者の論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,最高の得票率を獲得した2件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文2件への授賞が決まりました.

■2018年 言語資源賞 (2件)

●A5-2 Juman++ v2: A Practical and Modern Morphological Analyzer
Arseny Tolmachev, Sadao Kurohashi (Kyoto University)

本論文は形態素解析器JUMAN++の高速化と正解率向上について報告しています.高速化は,素性パタン計算時の冗長性の排除,辞書サイズの削減,探索手法の改良といったアルゴリズムの改良と,コードの最適化の2つで実現されています.これらにより,従来のJUMAN++と比べて250倍の高速化を達成しました.さらに,スコア付けのための線形モデルを学習する際,高速化によってパラメタの更新回数を増やして最適な更新回数を発見できるようになったことなどから,形態素解析の正解率も向上しました.大量のテキストを処理するためには,形態素解析の処理時間の短縮は重要であり,大幅に高速化されたJUMAN++は以前にも増して広く自然言語処理の研究者に利用されると思われることから,言語資源賞にふさわしい論文といえます.

●C3-3 日本語複単語表現レキシコン(JMWEL)の概要と現状 - 動詞性複単語表現を中心として -
高橋雅仁(久留米工大), 田辺利文, 首藤公昭(福岡大学)

本論文では,見出し数10万件を超える規模の日本語複単語表現レキシコンのうち,特に動詞性複単語表現レキシコンについて報告しています.この辞書は,新聞記事,雑誌記事,小説,随筆,事典・ 辞書類などの広範な文書から,非構成(イディオム)性および要素語間の強い共起性のうち少なくとも一方の性質を持つ単語列を複単語表現として抽出・収集したものです.動詞性複単語表現レキシコンでは,それぞれのエントリに対し,異表記,形態種別,複単語表現の構文構造,主動詞部,語釈など,豊富な情報が記載されています.同辞書は長い期間をかけて開発された大規模かつ品質の高い言語資源です.複単語表現の扱いは多くの言語処理で問題となり,その解決に必要不可欠な辞書を構築・公開していることから,言語資源賞にふさわしい論文といえます.

■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
石川 開 (日本電気)*
今一 修 (日立製作所)*
木下 聡 (日本特許情報機構)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
西野 文人 (富士通研究所)*
秋葉 友良 (豊橋技術科学大学)
岡 照晃 (国立国語研究所)
柏野 和佳子 (国立国語研究所)
木村 俊也 (メルカリ)
熊野 正 (NKH放送技術研究所)
中村 誠 (名古屋大学)
福本 文代 (山梨大学)
大久保 佳子 (日本システムアプリケーション)
大須賀 智子 (国立情報学研究所)