GSK2011-A GDAコーパスブラウザ
『GDAコーパスブラウザ』は、言語資源協会で配布していた以下の2つのコーパスを閲覧するためのブラウザです。
これらはGlobal Document Annotation(GDA)が提唱するフォーマットでアノテーションされているコーパスです(ここでは「GDAコーパス」と呼びます)。
本ツールの主な機能は以下の通りです。
- GDAコーパスの文書を見やすく表示します。
- タグ付けされた形態素情報(品詞、活用形、読み、基本形、語義)を表示します。
- タグ付けされた統語情報(構文木)を表示します。
- タグ付けされた照応・共参照の情報を表示します。
- 文字列検索(全文検索)を行います。
- 単語の基本形、出現形をキーとした検索を行います。
- 検索結果をKWIC(KeyWord In Context)形式で表示します。
- 検索結果のソート、フィルタリングを行います。
- 検索結果をタブ区切り形式のテキストファイルに出力します。
- 複数のキーを一括して検索し、タブ区切り形式のテキストファイルに出力します。
デモビデオ
まずはデモビデオを御覧下さい。本ツールの主な機能や操作例を解説しています。
本ツールに付属のマニュアルもこちらから御覧になれます。
利用条件
言語資源協会は、GDAコーパスの利用者の利便のために本ツールを無償で配布します。
本ツールの利用によって生じた損失や損害につきましては、言語資源協会では一切の責任を負いかねます。あらかじめご了承下さい。
本ツールの著作権は言語資源協会が有します。
本ツールは Apache License, Version 2.0 に基づいて配布します。
ダウンロード
GDAコーパスブラウザ(ver.1.00) (120MB)
謝辞
本ツールは (社)電子情報技術産業協会 知識情報処理技術専門委員会 言語資源分科会 の協力によって作成されました。ここに感謝いたします。
統語構造タグ(構文木)表示モジュールの実装にあたっては、東京大学辻井研究室で開発された、HPSGに基づく英語パーザ「Enju」のGUI機能を参考にしました。Enju開発の中心人物でありGUI機能の開発者である、国立情報学研究所准教授の宮尾祐介氏に感謝いたします。
連絡先
本ツールに関するご質問、ご意見、ご要望がございましたら、下記のアドレスにメイルをお寄せ下さい。
gda_corpus_browser (at) gsk.or.jp
更新履歴
- Ver. 1.00 をリリースしました (2012.4.10)
構文木が表示できるようになりました。 - Ver. 0.95 をリリースしました (2011.7.7)
複数のウィンドウを開くことができるようにしました。複数のキーワードによる検索結果を並べて見比べることができます。
簡易フィルタリングの機能を追加しました。検索結果のテーブル上でのクリック操作で簡単なフィルタリングができます。
バグを修正しました。 - 本ツールをリリースしました (2011.4.7)
バージョンは 0.9 です。