GSK2011-A GDAコーパスブラウザ

『GDAコーパスブラウザ』は、言語資源協会で配布している以下の2つのコーパスを閲覧するためのブラウザです。

これらはGlobal Document Annotation(GDA)が提唱するフォーマットでアノテーションされているコーパスです(ここでは「GDAコーパス」と呼びます)。

本ツールの主な機能は以下の通りです。

  • GDAコーパスの文書を見やすく表示します。
  • タグ付けされた形態素情報(品詞、活用形、読み、基本形、語義)を表示します。
  • タグ付けされた統語情報(構文木)を表示します。
  • タグ付けされた照応・共参照の情報を表示します。
  • 文字列検索(全文検索)を行います。
  • 単語の基本形、出現形をキーとした検索を行います。
  • 検索結果をKWIC(KeyWord In Context)形式で表示します。
  • 検索結果のソート、フィルタリングを行います。
  • 検索結果をタブ区切り形式のテキストファイルに出力します。
  • 複数のキーを一括して検索し、タブ区切り形式のテキストファイルに出力します。

デモビデオ

まずはデモビデオを御覧下さい。本ツールの主な機能や操作例を解説しています。

デモビデオのページ

本ツールに付属のマニュアルもこちらから御覧になれます。

利用条件

言語資源協会は、GDAコーパスの利用者の利便のために本ツールを無償で配布します。

本ツールの利用によって生じた損失や損害につきましては、言語資源協会では一切の責任を負いかねます。あらかじめご了承下さい。

本ツールの著作権は言語資源協会が有します。

本ツールは Apache License, Version 2.0 に基づいて配布します。

ダウンロード

GDAコーパスブラウザ(ver.1.00)   (120MB)

謝辞

本ツールは (社)電子情報技術産業協会 知識情報処理技術専門委員会 言語資源分科会 の協力によって作成されました。ここに感謝いたします。

統語構造タグ(構文木)表示モジュールの実装にあたっては、東京大学辻井研究室で開発された、HPSGに基づく英語パーザ「Enju」のGUI機能を参考にしました。Enju開発の中心人物でありGUI機能の開発者である、国立情報学研究所准教授の宮尾祐介氏に感謝いたします。

連絡先

本ツールに関するご質問、ご意見、ご要望がございましたら、下記のアドレスにメイルをお寄せ下さい。
gda_corpus_browser (at) gsk.or.jp

更新履歴

  • Ver. 1.00 をリリースしました (2012.4.10)
    構文木が表示できるようになりました。
  • Ver. 0.95 をリリースしました (2011.7.7)
    複数のウィンドウを開くことができるようにしました。複数のキーワードによる検索結果を並べて見比べることができます。
    簡易フィルタリングの機能を追加しました。検索結果のテーブル上でのクリック操作で簡単なフィルタリングができます。
    バグを修正しました。
  • 本ツールをリリースしました (2011.4.7)
    バージョンは 0.9 です。