NLP2023 言語資源賞

■2023年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は97件の論文が対象となりました.21名の委員からなる選考委員会を組織し,授賞件数は2件を目安として,一次選考と二次選考の二段階で選考を行いました.

一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.評価の高い上位17件の論文を選定し,二次選考の対象論文としました.

二次選考では,選考委員のうちGSKの運営委員を兼ねる12名の委員が上記17件の全ての論文を読み,言語資源賞にふさわしいと思われる4件の論文を選んで投票しました.ただし,選考委員が共著者である論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,2件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文2件への授賞が決まりました.


■2023年 言語資源賞 (2件)

●H1-1 日本語日常対話コーパスの構築
赤間怜奈 (東北大/理研), 磯部順子 (理研), 鈴木潤, 乾健太郎 (東北大/理研)

本論文は規範的な日本語で書かれた高品質な日常対話コーパスを構築しています.「日常生活」「学校」「旅行」「健康」「娯楽」の5つのトピックについて,作業者が対話を作文して,倫理的・道徳的に問題があるなど不適切な対話を除去し,さらに校正・校閲作業を行い表現を正規化してあります.その結果,5,261の対話,41,780の発話が収録されています.大規模であることに加え,雑談を収録した既存の対話コーパスと比べて,語彙的多様性,親密性,可読性をバランスよく兼ね備えています.同コーパスは2023年3月に公開を予定しています.実際の対話を収録したコーパスには人間によるリアルな言語表現が表出していますが,文法誤りやくだけた表現も多く,計算機で処理しにくい面もあります.これに対し,このコーパスにおける対話は高品質な日本語で書かれていることから,ノイズにわずらわされることなく対話技術の開発や評価を比較的容易に行うことができるため,価値の高い言語資源であると言えます.


A11-4 SlideVQA: 複数の文書画像に対する質問応答
田中涼太, 西田京介, 西田光甫, 長谷川拓, 斉藤いつみ, 齋藤邦子 (NTT)

SlideVQAはスライドデッキ(複数のスライドからなるプレゼン資料)に対する質問応答タスクのデータセットです.質問とスライドデッキが与えられたとき,質問に対する回答とその根拠となるスライドを返すタスクを想定し,それを解く際のマルチホップ推論(複数のスライドを参照して質問に回答すること)や数値推論を扱っています.SlideVQAには,2,619件のスライドデッキと,それに対するシングルホップ質問12,466件,マルチホップ質問2,018件とその回答が収録され,さらに890,945件のスライドの意味領域(タイトル,表など)や,数値推論が必要な質問に対しては算術式もアノテーションされています.既存の類似のデータセットと比べて規模が大きく,また算術式をアノテーションした初めてのデータセットです.複数の文書の内容を参照して理解する高度な自然言語処理技術・推論技術を要するチャレンジングなタスクのデータセットであり,これを用いた今後の研究の進展が期待されます.

■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (東京大学)*
今一 修 (日立製作所)*
大熊 智子 (旭化成)*
川田 拓也 (日本電気)*
黒田 由加 (三菱UFJリサーチ&コンサルティング)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
難波 英嗣 (中央大学)*
富士 秀 (富士通)*
藤田 早苗 (日本電信電話)*
山崎 誠 (国立国語研究所)*
吉川 和 (富士通)*
秋葉 友良 (豊橋技術科学大学)
石川 開 (日本電気)
柏野 和佳子 (国立国語研究所)
木下 聡 (日本特許情報機構)
木村 俊也 (メルカリ)
中村 誠 (新潟工科大学)
福本 文代 (山梨大学)
望月 源 (東京外国語大学)
大須賀 智子 (国立情報学研究所)