設立趣意書

1. 言語資源協会設立の趣旨

音声・自然言語処理技術の研究開発において,音声データ,レキシコン,テキストコーパス,ターミノロジー,各種ツール等の言語資源の重要性が近年とみに高まっている.特に最近の「コーパスに基づく音声・自然言語処理」の潮流にみられるように,大規模な実データ・コーパスを利用した確率・統計的手法が成果をあげている.

知識情報処理分野の基礎データとしての音声・言語データが情報通信産業の発展にとって重要であるにもかかわらず,大規模な音声・言語データの構築は膨大な労力・費用・年月を要することから,各個別の研究サイトにおいて開発するのは困難であるといわざるを得ない.データの利用を希望する研究サイトは,やむなく他所で開発されたデータを利用せざるを得ないのが現状である.一般に大規模な言語データは,音声・自然言語処理の研究開発を行なう機関とは業種を異にする出版社や新聞社で開発されたものが多く,また,本来そのような研究目的で開発されたものではない.

そのため,音声・言語データを含む言語資源を利用したいユーザは,個別に言語資源保有者と著作権交渉や価格交渉をすることを余儀なくされているのが現状である.一方,言語資源保有者においても,従来想定していなかった利用形態であるため,言語資源を提供することへの躊躇や戸惑いがみられる.また言語資源提供のための一般的ル ールも確立していない.このような状況が結果的にわが国の音声・自然言語処理技術の研究の発展の著しい阻害要因となっている.

従って,言語資源保有者,言語資源利用者の双方が納得できる形での言語資源提供,言語資源利用の仕組みを確立することは,言語資源の流通を促進し,ひいては,わが国の音声・自然言語処理の研究を促進し,音声・言語産業 (Speech and Language Industry)の発展に貢献することになるため,そのような仕組みを確立することが急務である.それはまた,音声・自然言語処理の分野だけでなく,広く言語学の分野の研究の発展にも貢献することになる.

一方欧米ではそのような仕組みの必要性は早くから認識されており,米国では LDC(Lingustic Data Consortium),欧州ではELRA(European Language Resources Association),という共に公的支援をベースにした会員制コンソーシアム が設立され,各所で開発された音声・言語資源を集積し,それらの利用を希望するユーザに配布するという仲介業務(言語資源保有者に代わって利用料を徴収し,一定のマージンを取る)を行なっている.これによりユーザは,簡単な手続きで必要な言語資源を入手し利用することが可能になっている.わが国にお いてもLDC,ELRAのような,言語資源の集積・配布を行なう組織の確立が望ま れる.

言語資源協会構想は,以上のような背景に基づき,音声・自然言語処理の研究開発に不可欠な言語資源の流通を促進することにより,わが国のこの分野の学術・学問の研究の推進に貢献する機関を目指すものである.また対象を日本国内の言語資源に限定せず,将来的にはアジア地域に拡張することにより,欧州・アメリカ・アジアの三大コンソーシアムの一翼を担い,自然言語処理技術,言語研究の国際貢献にもつながることが期待される.

2. 言語資源協会の意義

言語資源協会(略称:GSK)は,言語資源の流通を通じて, 言語資源保有者及び利用者双方に以下のようなメリットがあると考える.

2.1 言語資源保有者にとって

  • 従来想定していなかった新しい用途に供することにより, 新たな需要を喚起し,利益にもつなげることができ, また言語資源の迅速な改良も期待できる.
  • 将来的には以下の2つのメリットが考えられる.
    • 契約・配布業務をGSKが代行するので, 煩雑な契約手続きに手を煩わせることがない.
    • 著作権等の権利関係の扱いを明確に規定した契約のもとにデータを利用することとし, 不正使用や権利侵害を防止するのみ役立つ.

2. 2 言語資源利用者にとって

  • 大規模な言語資源を無償あるいは安価に利用できる.
  • 死蔵言語資源の有効活用をはかることができる.
  • 将来的には,契約・配布業務をGSKが代行するので, データ保有者と直接個別の交渉をすることなく, 簡単な手続きで言語資源を利用することができる.