未公開言語資源に関する調査

目的

言語資源協会(GSK)では、一般に公開されていない言語資源の情報を収集し、その情報を研究者の間で広く共有することによって、言語資源の有効活用を促進することを目的として、研究者の皆様が独自に作成・保持している言語資源の調査をおこなっています。調査対象とする言語資源は、大規模な言語資源のみならず、研究の過程で必要に応じて作成された比較的小規模な言語資源で、個人・研究室・研究所の内部のみで使用されているものを含みます。

期待される効果

収集した情報を共有することにより、例えば、自身の研究テーマと関連のある言語資源を他の研究者が持っていることがわかれば、言語資源を共同で開発・拡張するような共同研究を企画することができます。 また、先行研究の追試を同じデータで実施したい場合、そのデータが一般公開されていなくても特定の研究者間での利用なら可能かもしれません。

本調査へのご協力のお願い

独自に作成している言語資源(コーパス、辞書、ツール、評価用データなど)をお持ちで、当ページにおける「未公開言語資源データベース」としての情報公開に同意いただける方は、以下のリンクを辿ってアンケートにご回答下さい。

未公開言語資源に関するアンケート


未公開言語資源データベース

Last Update: 2017-09-19



名称 ブログ記事の引用箇所判定・極性判定の評価データ
種類 評価用データ
対象言語 日本語
説明 社会問題をトピックとした6つのクエリに対して検索されたブログ記事に対し、以下の情報を付与した評価データ。
(1)ブログ記事における他者のコメントの引用箇所。
(2)文の極性(システムが判定を行った文のみに付与)
(3)ブログ記事の極性
公開 公開する予定はない
アノテーションの基準が十分に吟味されていないこと、規模が小さいことなどから、他の方に利用していただける水準にありません。
関連論文 [使用例]
岡山有希, 白井清昭
他者のコメントの引用を考慮したオピニオンマイニング
言語処理学会第19回年次大会, 2013.
連絡先 白井清昭
kshirai (at) jaist.ac.jp

名称 話し言葉の照応関係タグ
種類 コーパス
対象言語 日本語
説明 日本語話し言葉コーパスに照応関係タグをつけたもの
公開 現在作成の途中だが、完了すれば公開したい
連絡くだされば送ります
関連論文 [紹介]
中川奈津子, 日本語話し言葉コーパスを用いた情報構造のタグ付けとその分析方法の提案. 言語処理学会第19回年次大会, 2013.
連絡先 中川奈津子
nakagawanatuko (at) gmail.com

名称 日本語の複単語表現(MWE)機械辞書_副詞性表現編 JDMWE_Adverbial v1.0
種類 辞書
対象言語 日本語
説明 日本語副単語表現(MWE)機械辞書における「起き抜けに」、「訳も分からずに」、
「取る物も取りあえず」などの副詞性(連用修飾)表現 16,000種を抜き出した辞書。
平仮名見出し、漢字・仮名混じり等の異表記形、構文機能、形態・構文構造、
内部修飾の可否情報、必須文脈情報などを記載。
公開 その他
契約により使用可能。
関連論文 [紹介]
首藤、田辺
日本語の複単語表現辞書:JDMWE
自然言語処理 17-5, 2010
Shudo K., Kurahone A., and Tanabe T.
A Comprehensive Dictionary of Multiword Expressions
Proceedings of the Annual Meeting of the ACL, Portland, 2011
首藤、田辺
日本語の副詞性複単語表現辞書
言語処理学会大18回年次大会 pp.629-632, 2012
連絡先 (非公開)

名称 モンゴル語形態素解析用文法
種類 文法
対象言語 モンゴル語
説明 キリル文字表記のモンゴル語を形態素解析するための文法。ChaSenを処理系にしている。grammar.cha、ctypes.cha、cforms.cha、connect.chaの4個のファイルから構成される。
公開 一般公開は難しいが、問い合わせがあれば個別に配布することは可能
関連論文 [紹介]
EHARA Terumasa, HAYATA Suzushi and KIMURA Nobuyuki : Mongolian to Japanese Machine Translation System, Jounal of Yamanashi Eiwa College, Vol.9, pp.27-40, Feb., 2011.
http://ci.nii.ac.jp/lognavi?name=nels&lang=jp&type=pdf&id=ART0009727564
連絡先 江原暉将
http://www.ne.jp/asahi/eharate/eharate/

名称 冗長な文とその改善文のデータ
種類 コーパス
対象言語 日本語
説明 冗長な文とその改善文の対のデータ
冗長な文のデータ

業者に発注して作ったものと、学生が独自に作ったものとある。
公開 公開の予定は決まっていないが、できれば公開したい
関連論文 [使用例]
都藤 俊輔, 村田真樹, 徳久雅人, 馬 青
冗長な文の機械的分析と機械的検出
言語処理学会第18回年次大会, P3-11, pp1114-1117, 2012.

都藤俊輔, 村田真樹, 徳久雅人, 馬青
パターンと機械学習による冗長な文の修正と修正のヒント出力
言語処理学会第19回年次大会, P3-5, pp.588-591, 2013
連絡先 (非公開)

名称 マルチメディア型日越話し言葉データベース
種類 コーパス
対象言語 ベトナム語,日本語
説明 対面映像付き日越話し言葉データベース
公開 公開の予定が決まっている
関連論文
連絡先 (非公開)