NLP2017 言語資源賞

■2017年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

白井委員からの言語資源賞の説明

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.
言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は70件の論文が対象となりました.14名の委員からなる選考委員会を組織し,授賞件数は1,2件を目安として,一次選考と二次選考の二段階で選考を行いました.
一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.賞に推薦する場合は3点以上の総合評価点をつけることとしました.2名の選考委員の総合評価点がともに3点以上で,かつその平均が3.5以上の論文16件を選定し,これらを二次選考の対象論文としました.
二次選考では,選考委員のうちGSKの運営委員を兼ねる7名の委員が上記16件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.二次選考の選考委員と候補論文の著者との利害関係はありません.投票結果ならびに選考委員による討議の結果,最多の得票を獲得した2件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文2件への授賞が決まりました.

 

■2017年 言語資源賞 (2件)

●P2-7 「Kyutechコーパスにおける抜粋要約のアノテーションと分析」山村崇, 嶋田和孝 (九工大)

橋田GSK会長からの授賞の様子(1)

本論文では,Kyutechコーパスにおける抜粋要約の分析について報告しています.Kyutechコーパスは,意志決定タスクの対話を書き起こしたテキストに情報を付与したコーパスです.収録されているのは9つの対話で,4名の参加者がショッピングモールに出店するレストランを候補の中から選ぶというタスクについて議論しています.それぞれの対話には人手で作成した250字以上500字以下の参照要約が3つ与えられています.さらに,対話中のそれぞれの発話に対し,トピックタグ,発話意図タグ,その発話が参照要約の要約文と関連があるかの二値のタグが付与されています.コーパスはクリエイティブ・コモンズCC-BY-NDを条件にウェブ上で公開されています.対話に対してその要約を付与したコーパスはあまり例がなく,また発話に付与されたタグも要約生成技術の研究に有用であることから,言語資源賞にふさわしい論文といえます.

 

●C4-4 「PDFAnno: PDFドキュメントのための言語アノテーションツール」進藤裕之, 松本裕治 (NAIST)

橋田GSK会長からの授賞の様子(2)

学術論文など多くの文書はPDFファイルで公開されているため,PDF形式のテキストに言語情報を付与する潜在的なニーズは大きいと言えます.このとき,テキスト形式の文書を対象とした既存のアノテーションツールを用いることもできますが,PDFファイルをテキスト形式に変換する必要があり,レイアウトなどの情報が失なわれるという問題があります.本論文は,PDFドキュメントに直接アノテーションできるツールPDFAnnoを開発しています.ウェブブラウザ上で動作し,テキストの連続した範囲(Span),長方形の領域(Region),SpanやRegion間の関係(Relation)をアノテーションすることができます.また,複数人による作業をサポートしており,複数のアノテーションの結果を重ねて表示することもできます.同ツールはMITライセンスに基づいて公開されています.OCRソフトウェアとの統合など,今後の発展が大いに期待されるツールであり,言語資源賞にふさわしい論文といえます.

 

■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
石川 開 (日本電気)*
今一 修 (日立製作所)*
木下 聡 (日本特許情報機構)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
西野 文人 (富士通研究所)*
秋葉 友良 (豊橋技術科学大学)
柏野 和佳子 (国立国語研究所)
木村 俊也 (ミクシィ)
新納 浩幸 (茨城大学)
福本 文代 (山梨大学)
大久保 佳子 (日本システムアプリケーション)
大須賀 智子 (国立情報学研究所)