ファイル閲覧ビューでは、GDAコーパスのファイルの内容を閲覧します。
GDAコーパスのファイル構成は以下の通りです。
- 新聞GDAコーパス
3000個のファイルから構成されています。
1つのファイルが1つの新聞記事に対応しています。
- 岩波GDAコーパス
60321個のファイルから構成されています。
1つのファイルが1つの辞書見出しに対応しています。
ファイルの内容は、本ツールではなく、お使いのパソコンのウェブブラウザ上に表示されます。ファイル閲覧ビューは、ウェブブラウザに表示させるファイルを選択するためのインターフェースです。
ウェブブラウザ上ではGDAコーパスにタグ付けされている以下の情報を閲覧することができます。
- テキストの構造
- 形態素情報
- 共参照の情報
- ゼロ照応(省略)もしくは二要素間の関係の情報
ウェブブラウザに表示される画面の見方については「GDAファイルの表示」を御覧下さい。
(クリックで原寸大の画像を表示します)
ファイル閲覧ビューの画面は以下のパーツから構成されています。パーツの名称をクリックすると、各パーツの詳細な説明を御覧になれます。
- 検索パネル[A]
閲覧するファイルを検索するための操作を行います。以下の要素から構成されています。
- ファイル一覧表示エリア[B]
GDAコーパスに含まれるファイルの一覧を表示します。
- 表示ボタン[C]
ファイル一覧表示エリアで選択されたファイルの内容をウェブブラウザで表示します。
ファイル閲覧ビューでは、中央のファイル一覧表示エリアからひとつファイルを選択し、そのファイルの内容をウェブブラウザ上で表示させます。また、検索パネルを用いてファイルを検索し、テーブルに表示するファイル数を絞り込むことができます。
閲覧するファイルを検索します。新聞GDAコーパスの場合、ファイルは新聞記事に対応するので、新聞記事を検索します。岩波GDAコーパスの場合、ファイルは辞書見出しに対応するので、辞書の見出しを検索します。
まず、検索キー種別選択ボックスで検索キーの種類を選択します。次に、検索キー入力フィールドに検索キーを入力します。最後に検索ボタンを押すと検索を実行し、ヒットしたファイルの一覧がファイル一覧表示エリア(中央のテーブル)に表示されます。
-
検索キー種別選択ボックス
[D]
検索キーの種別を選択します。選択可能な項目は以下の通りです。
- 新聞GDAコーパスのとき
-
- 検索キーの文字列を含む記事のタイトルを検索します。
-
- 検索キーと完全に一致する記事IDを検索します。記事IDは、検索ビューの検索結果として表示される「記事ID」、ならびにこのビューのファイル一覧表示エリアに表示される「ファイルID」に対応します。
- 岩波GDAコーパスのとき
-
- 検索キーの文字列を含む辞書見出しを検索します。ひらがな表記、漢字表記の両方が検索対象となります。
-
- 検索キーと完全に一致する辞書見出しを検索します。ひらがな表記のみが検索対象となります。ひらがな以外の検索キーではヒットしません。
-
- 検索キーとして指定された語義IDの語義を含む辞書見出しを検索します。語義IDは、検索ビューの検索結果として表示される「語義」(`iwa:'から始まる文字列)に対応します。
-
検索キー入力フィールド
[E]
検索キーを入力します。
-
検索ボタン
[F]
このボタンを押すと検索を実行します。検索結果はファイル一覧表示エリアに表示されます。
検索でヒットしたファイルの一覧が表示されるテーブルです。テーブルで表示される項目はコーパスの種類によって異なります。
内容を閲覧したいファイルを1つマウスで選択して下さい。選択されたファイルの行はハイライト表示されます。
表示ファイル数は、現在テーブルに表示されているファイルの数を表示しています。
全ファイルの一覧を表示というボタンをチェックすると、全てのファイルの一覧を表示します。新聞GDAコーパスの場合は3000個、岩波GDAコーパスの場合は60321個のファイルがテーブルに表示されます。チェックをはずすと検索でヒットしたファイルの一覧が表示されます。
このボタンを押すと、ファイル一覧表示エリアで選択されたファイルを表示します。ウェブブラウザが起動され、ファイルの内容が表示されます。また、ファイル一覧表示エリアの行をダブルクリックしても、同様にファイルが表示されます。
ウェブブラウザ上で表示されたGDAファイルの閲覧方法について説明します。以下の図Aは岩波GDAコーパスにおける「打つ」の見出しを表示させた画面の一部です。
(クリックで原寸大の画像を表示します)
図A
設定画面の「ファイル表示」の項目で、「文ごとに改行する」のボタンをチェックすると、ファイルを表示する際に一文ごとに改行します。例えば、上記図Aの「打つ」のファイルはこのように表示されます→(スナップショット)
テキストの簡単な構造が図示されます。
- 新聞GDAコーパスの場合
「記事情報」「タイトル」「本文」に分けて表示されます。
- 岩波GDAコーパスの場合
画面上の番号(図Aにおける1, 1.1, 1.2.1など)は語義の番号を表わします。1桁目が岩波国語辞典第五版における大分類、2桁目が中分類、3桁目が小分類に該当します。また、語義の階層構造は枠線で示されます。例えば、図Aでは1の下位の語義として1.1, 1.2, 1.3...が、1.2の下位の語義として1.2.1, 1.2.2, 1.2.3が定義されています。
岩波GDAコーパスでは岩波国語辞典第五版における語義立てを一部変更しています(詳細は岩波GDAコーパスのマニュアルを御覧下さい)。斜体で示された番号(図Aにおける1.1.1, 1.3.1など)は、語義立ての変更によって新しく作られた(オリジナルの岩波国語辞典にはない)語義であることを表わします。
GDAコーパスにタグ付けされている形態素情報を表示するためには、単語をマウスでクリックします。その単語にタグ付けされている品詞、活用形、基本形、読み、語義がポップアップウィンドウ上に表示されます。例えば、図Aの「打つ」の1.2.2の語義の中の「立ち」という単語をクリックすると、以下のように表示されます。
(クリックで原寸大の画像を表示します)
ポップアップウィンドウを移動するためには、ウィンドウ最上部の灰色のバーをマウスでドラッグします。
ポップアップウィンドウを消去するためには、水色の領域をマウスでクリックします。
なお、形態素情報がタグ付けされていない単語についてはクリックしても何も表示されません。
画面上に表示されている●や■は、共参照の情報がタグ付けされている位置を表わすマーカーです。これらのマーカーをマウスでクリックすると、共参照の関係にある要素がこのようにハイライト表示されます。
以下の図は、岩波GDAコーパス中の「えきせいかくめい」という見出しを表示させ、その中のマーカー●をクリックしたときの様子です。
(クリックで原寸大の画像を表示します)
この例では「天は得の高い者を天子として万民を治めさせ、子孫相継ぐ」と「その命」が同じ実体を指すことを示しています。
●または■をクリックすると、マーカーが指し示す要素に下線がつきます。さらに共参照の関係にある要素がハイライト表示されます。元の状態に戻すにはもう一度マーカーをクリックします。
●はeq属性が付与されている要素、■はid属性が付与されている要素を示します。eq属性は他の要素と等価な関係にあることを示すための属性、id属性は要素に対して識別子を与えるための属性です。上図の例は、GDAコーパス内では以下のようにタグ付けされています。
...
<vp id="osameru">天は徳の高い者を天子として万民を治めさせ、子孫相継ぐ</vp>
...
<np eq="osameru">その命</np>
...
画面上に表示されている▼は、ゼロ照応(省略)の情報がタグ付けされている位置を表わすマーカーです。ここでのゼロ照応は、統語構造で明示されていない(二要素間の)関係を広く指します。このマーカーをクリックすると、タグ付けされているゼロ照応の関係の種類がポップアップウィンドウで表示されます。例えば、以下の図は、岩波GDAコーパス中の「いろ」という見出しを表示させ、「含め(る)」の前にあるマーカー▼をクリックしたときの様子です。
(クリックで原寸大の画像を表示します)
ここでは2つの関係がタグ付けされています。1つは「含め(ない)」と「色」の間にある iob (間接目的語)いう関係、もう1つは「含め(ない)」と「白・黒」の間にある obj (目的語)という関係です。「色」「白・黒」ともに「含め(ない)」を含む句では省略されていると考えられます。これらの関係はGDAコーパスの中ではiob属性、obj属性を用いて以下のようにタグ付けされています。
...
<np id="bw">白・黒</np>を、<np id="id16-6">色</np>に含める場合も
<vp iob="id16-6" obj="bw">含め</vp>ない場合も
...
▼をクリックすると「含め」に下線が引かれ、関係を持つ要素の範囲を示します。ポップアップウィンドウの中の「iob」にマウスのカーソルをのせる(マウスオーバー)と、iobと色がハイライト表示され、「含め(ない)」と「色」の間に iob の関係があることを示します。一方、「obj」にマウスのカーソルをのせると、objと白・黒がハイライト表示され、「含め(ない)」と「白・黒」の間に obj の関係があることを示します。
ポップアップウィンドウを移動するためには、ウィンドウ最上部の灰色のバーをマウスでドラッグします。
ポップアップウィンドウを消去するためには、ウィンドウ最上部の灰色のバー以外の領域をマウスでクリックします。
GDAコーパスでは、他にも sbj (主語)、ctl (制御)、gol (最後の位置または状態)、tmx (期間)、loc (空間的位置) などの関係属性が用いられています。詳細はGDA日本語アノテーションマニュアルを御覧下さい。
ゼロ照応の指示対象が直示(文脈によって異なる事物を指すこと)の場合、関係を表示しているポップアップウィンドウの右または左に直示指標を表示します。例えば、以下の図は、岩波GDAコーパス中の「あみだ」という見出しを表示させ、「念じ」の前にあるマーカー▼をクリックしたときの様子です。
(クリックで原寸大の画像を表示します)
agtという関係にマウスをのせると、p0(一般人称)という直示指標が表示されます。この場合、「念じ(る)」と「一般的な人」の間に agt (agent;動作主)という関係がある(一般の人が念じるという動作の動作主である)ことを示しています。GDAコーパスでは以下のようにタグ付けされています。
... <v agt="p0">念じ</v> ...
GDAコーパスで用いられる直示指標には、他に p1i (受話者を含む一人称複数)、top (談話全体)、self (自分自身)などがあります。詳細はGDA日本語アノテーションマニュアルを御覧下さい。
直示指標のひとつに「mcn(minimal container noun)」があります。(これは正確な説明ではありませんが) mcn は、関係の指示対象が関係節の係り先となる名詞であることを表します。以下の例は、「立て(る)」と連体修飾先である「仏」の間に agt (動作主)という関係がある(仏が立てるという動作の動作主である)ことを示しています。
(クリックで原寸大の画像を表示します)