言語資源データベース

GSKでは、公開されている言語資源の情報を集約し、「言語資源データベース」として公開します。

近年では、GitHub や hugging face などでコーパス・辞書・言語モデル・ツールなどが数多く公開されています。このような利用可能な言語資源の情報を網羅的に集めたデータベースは、言語処理の研究者にとって有用な情報です。GSKは、このようなデータベースを「言語資源データベース」と呼び、これを構築し、公開します。なお、言語資源データベースの構築・公開は言語資源協会と言語処理学会との共同事業です。

情報収集

主に以下の2つの方法で公開言語資源の情報を収集します。

  • 言語処理学会年次大会の発表申込ページ
  • 同大会にて発表する論文において、新しい言語資源を構築しそれを公開している、あるいは公開予定の場合、発表申込ページにその言語資源の情報を記入していただきます。この情報を言語資源データベースに掲載します。

  • 当ホームページの入力フォーム
  • 言語資源保有者の方は、GSKホームページに設置された入力フォームから、自身の言語資源の情報を言語資源データベースに登録できます。

GSKでは言語資源の情報を広く募集しています。小規模な言語資源やニッチな言語資源でも構いません。皆様からの情報提供をお待ちしています。

言語資源賞

言語資源データベースに掲載された言語資源の中から特に優れたものを選び、言語資源賞を授与します。

  • 表彰の対象となるのは以下の言語資源です。
    • 10月1日から翌年9月30日までに公開された言語資源(初回は2024年9月30日までに公開された言語資源)
    • 言語資源データベースに掲載された言語資源
    • 言語処理学会年次大会の発表論文もしくは雑誌「自然言語処理」に掲載された論文においてその内容が紹介されている言語資源
  • 言語資源賞の受賞者は、翌々年の言語処理学会年次大会のクロージングにて表彰します。(初回はNLP2025にて表彰します)

言語資源の登録

言語資源データベースに言語資源を登録したい方はこちらから入力してください。
言語資源データベース・登録フォーム

言語資源データベース

こちらから閲覧できます(外部ページに移動します)