GSK2014-A 拡張固有表現タグ付きコーパス

Description: 「拡張固有表現タグ付きコーパス」は、 国立国語研究所『現代日本語書き言葉均衡コーパス』(BCCWJ)のコアデータ(約2,000文書)および、「CD-毎日新聞’95データ集」の新聞記事(約8,000記事)に対し、 関根の拡張固有表現階層 -7.1.0- を人手付与したコーパスである。BCCWJでは、異なり約43,000(のべ約100,000)個、新聞記事では異なり約60,000(のべ約240,000)個の固有表現にタグ付けした。 本データは付加情報のみを提供し、テキスト自体は含まれていない。本データを利用するためには、それぞれ、 『現代日本語書き言葉均衡コーパス DVD版 』(BCCWJ)Ver1以降「CD-毎日新聞’95データ集」を別途入手する必要がある。(テキストを含む完全なコーパスを復元するプログラムが付属するが、新聞記事については、Windowsには対応していない)
なお、本言語資源は、科研費特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(領域代表:前川喜久雄)の助成を受けたものである。

【更新履歴】(利用者には無料で最新版を配付する。希望者は事務局まで連絡のこと)
・2021/9/16 新聞記事のコーパスを復元するプログラムを更新した。
・2019/6/25 いくつかのタグに表記誤りがあったため、軽微な修正を行った。
Creator:東京工業大学
Price: GSK会員限定無料配布言語資源 会員は、年度中、会員限定無料配布言語資源の利用が一件目の場合に限り無料。年度中、会員限定無料配布言語資源の利用が二件目以上にあたる会員は、5,500円(税込み、送料3,300円別)。非会員は33,000円(税・送料込み)。
Date:2015.3
Format:1 CD-R
Format.encoding:
Language:Japanese
利用事例:言語情報処理ポータルのページに移動します
上記言語資源の入手にあたっては、利用申請書兼誓約書(拡張固有表現タグ付きコーパス) に必要事項をご記入いただき、メール、FAX、郵便等にて、事務局までお送り下さい。 有料の場合、折り返し、ご請求書をお送りしますので、宛名等ご指定のある場合は申請時にお知らせください。また、利用申請書兼誓約書の記入にあたっては「会員種別と利用種別の個人・団体について」をご確認下さい。