草稿 第 0.74 版 (2005 年 10 月 17 日)
橋田 浩一
初心者の方は、いきなりこのマニュアルを読むのではなく、 まずチュートリアルを読まれることをお勧めします。 また、どの程度詳しくアノテーションすべきかについてはアノテーションの手引きをごらん下さい。 このマニュアルに関するご意見や間違いの指摘は メイル ()でお寄せ下さい。
目次 |
このマニュアルは、Netscape Navigator 6.0 または Opera 6.0 以降でスタイルシートを使う設定にすると正しく表示できる。 Internet Explorer ではページ内の検索ができない場合がある。 タグ、属性名および属性値は太字で示す。 なお、初出の術語、属性名および属性値は赤い太字で示す。 その際に * 付きの術語は一般的な用語ではなく、本マニュアルだけで通用する。 緑色のタイプライタ書体はアノテーションの例である。 見やすさのために空白と改行を例に挿入することがあるが、実際にはこうした挿入は行なわない。 また、通常のアノテーション作業は作業ごとに一定の詳細度において行なわれるが、以下の例においてはアノテーションの詳細度は不定である。 |
GDA のタグ集合は XML (eXtensible Markup Language) の規格に基づく。 XML とは、WWW ページの記述言語である HTML を一般化したようなもので、XML 形式の各ファイルは エレメント (element) の集まりからなる。 エレメントとは、開始タグ (begin tag) から対応する終了タグ (end tag) までの文字列である。 開始タグとは <タグ名 属性1 … 属性n> の形の文字列、 終了タグとは </タグ名> の形の文字列である。 ひとつのエレメントの開始タグと終了タグは同じタグ名を持たねばならない。 空タグ (empty tag) とは<タグ名 属性1 … 属性n/> の形の文字列である。 空タグは単独でひとつのエレメントであり、これを空エレメント (empty element) と言う。
異なるエレメントの間の位置関係は、一方が他方を完全に含む入れ子 (nesting) の関係か、まったく重ならないかのいずれかである。 たとえば、
<vp>恐れ<placename>入</vp>谷</placename>の鬼子母神のようなアノテーションは誤りである (この例は後述の複合エレメントなどによってアノテーションできる)。 また、
<np> <adp><adp>つぶらな</adp>目の</adp> <ajp>背が高い</ajp> <n>女の子</n> </np>は全体がひとつのエレメントであり、 <adp><adp>つぶらな</adp>目の</adp> や <adp>つぶらな</adp> もまたエレメントである。 しかし、 <adp>つぶらな</adp>目の</adp><adp>背が高い</ajp> はエレメントではない。 最初の <adp> と対応する終了タグは 「背が高い」の後の </ajp> ではなく 「つぶらな」の直後の </adp> だからである。
エレメント A に含まれてエレメント B を含むようなエレメントがなく、 かつ A が B を含むとき、A を B の親エレメント (parent element)、 B を A の子エレメント (child element) と言う。 また、ひとつのエレメントの 2 つの異なる子エレメント同士を互いの兄弟エレメント (sibling element) と言う。 たとえば上の例では、全体の子エレメントは <adp><adp>つぶらな</adp>目の</adp> と <ajp>背が高い</adp> と <n>女の子</n> だけであり、これらは互いに兄弟である。 また、エレメント A の *子 (child) とは、A の子エレメント、または、A に含まれ A の子エレメントやタグと重ならない連続した文字列のこととする。 たとえば上の例では、「目」や「目の」や <adp>つぶらな</adp> は <adp><adp>つぶらな</adp>目の</adp> の子だが、「つぶらな」はそうではない。 ひとつのエレメントの 2 つの異なる子同士を互いの兄弟 (sibling) と言う。
タグを含まず、空白文字 (スペース、改行、タブなど) 以外の文字を含む極大な文字列を *極大テキスト (maximal text) と呼ぶ。 たとえば下の例では、「つぶらな」と「目の」が極大テキストである。
<adp><adp>つぶらな</adp>目の</adp>
文および文内のエレメント (正確には、エレメントからタグを除いた文字列) は、多くの場合、構成素 (constituent) である。 構成素とは意味的にまとまった文字列である。 たとえば、上の「つぶらな目の背の高い女の子」の例に含まれるエレメントはすべて構成素である。 エレメントの場合と同じく、異なる構成素の間の位置関係は、入れ子かまったく重ならないかのいずれかである。 「つぶらな目の背が高い女の子」では、「つぶらな目」や「背が高い」が構成素(「つぶらな目」はエレメントではないが構造成ではある) なので、「目の」や「高い女」は構成素でない。 構成素をエレメントによって表わすことができるのはこのような事情による。
意味を持つ極小な (それより小さいものがない) 構成素を形態素 (morpheme) と言う。 たとえば、「女の子」の「女」と「の」と「子」は形態素である。 形態素はいわゆる単語であることが多いが、そうでないこともある。 たとえば単語「大食い」は 2 つの形態素「大」と「食い」からなる。
構成素の間の関係で最も多いのは依存関係 (dependency) である。 依存関係を係り受け関係とも言う。 依存関係においては、2 つの構成素の一方が他方に係る (依存する; depend) ことにより、受ける (統率する; govern) 側の構成素を中心としてひとまとまりの意味を持つ大きな構成素を作る。 受ける側の構成素をその大きな構成素の主辞 (head) と言い、 係り側の構成素の統率子 (governor) と言う。 また、大きな構成素をその主辞の投射 (projection) と言う。 たとえば「赤い車」と「車」は「私の赤い車」の主辞である。 「車」は「赤い車」の主辞であり、「赤い」の統率子である。 また、「私の赤い車」は「車」と「赤い車」の投射であり、「赤い車」は「車」の投射である。 依存関係の例として、主語が用言に係る、副詞が用言に係る、名詞句が助詞に係るなどの関係がある。 ある構成素が別の構成素に係るとき、意味的には前者は後者の主辞に係ることになる。 これは、構成素の意味的な中心が主辞だからである。
日本語では、「反体制」のような特殊な語構成や、「何だ、それは」のような倒置の場合を除き、係り側が主辞に先行する。 たとえば、「肉を食べる」が意味するのは食べる行為の一種なので、ここでは「肉を」が「食べる」に係ることがわかる。 また、「焼肉定食」は焼肉の一種ではなく定食の一種なので、「焼肉定食」においては「焼肉」が「定食」に係る。 「反体制」は体制の一種ではなく反することの一種なので、この場合は「体制」が「反」に係る。 名詞句や動詞句や形容詞句に助詞や助動詞が続く場合には、前者が後者に係ると考える。 たとえば「車を」では「車」が「を」に係り、「動かない」では「動か」が「ない」に係る。 これは、「車を」は車の一種ではなく車が何らかの行為に対象として関わる仕方であり、「動かない」は動くことの一種ではなくものごとが起こらないことの一種であると考えればよい。
主辞でない構成素 (隣接する他の構成素を受けていない構成素) を最大投射 (maximal projection) または 句 (phrase) と言う。 たとえば、「健が美味い餃子を作った」の「餃子」は「美味い」を受けているので主辞であり、「美味い餃子」は何も受けないので最大投射である。 「優秀な彼は学生です」の「学生」は、「優秀な」を受けるとしても「彼は」を受けないならば、最大投射である。
助詞、助動詞、補助用言 (「食べ始める」の「始める」、「死んでしまう」の「しまう」など)、接尾語、接頭語に隣から係る語句を *隣接項 (adjacent argument) と呼ぶ。 たとえば「そうでない」の「そうで」は「ない」の隣接項であり、「食べられる」の「食べ」は「られる」の隣接項であり、「死にそこなう」の「死に」は「そこなう」の隣接項であり、「田中さん」の「田中」は「さん」の隣接項である。 「顔を洗う」の「顔」は「を」の隣接項だが、「顔を」は「洗う」の隣接項でない。
文内の構成素を表わすタグを *文内タグ (intrasentential tag) と言う。 文内タグの中には、エレメントが主辞になれることを示す *主辞タグ (head tag) と、最大投射であることを示す *句タグ (phrasal tag) とがある。 主辞タグを持つエレメントを *主辞エレメント (head element)、句タグを持つエレメントを *句エレメント (phrasal element) と言う。 主辞エレメントは主辞であっても最大投射であってもよい。 句エレメントは最大投射である (文内では主辞ではない)。
文や段落や節などの文の外のまとまりを *談話的な構成素と呼ぶ。 それらの間に *談話的な依存関係が成り立ち、 文や段落が主辞になることがあるとする。
各属性 (attribute) は、属性名="属性値" の形の文字列である (XMLでは属性値を必ずダブルクォートで囲む)。 next または prev という属性で結び付けられた不連続な複数個のエレメントをまとめて*複合エレメントと言う。 属性のデフォルト値 (default value) とは、その属性が明示的に指定されていない場合の値である。 たとえば、多くの文内タグにおける syn 属性のデフォルト値は d なので、<su> は <su syn="d"> と等価である。
ID 属性 とは、ファイルの中でエレメントを同定するような名前を値とする属性である。 つまり、ある属性が ID 属性ならば、ひとつのファイルの中の異なるエレメントがその属性に関して同じ値を持つことはない。 GDA タグ集合における ID 属性は後記の id だけである。 ID 属性の値はローマアルファベットで始まり、ローマアルファベット、数字、ハイフン、およびピリオドを含むことができる。
ある属性があるエレメントを指す (refer) とは、その属性の値がそのエレメントの ID 属性の値を含むことである。 あるエレメントが他のエレメントを指すとは、前者の中のある属性が後者を指すことである。 下の例では「帰っ」が「太郎」を指している。
<persnamep id="T">太郎</persnamep>が来た。でもすぐに<v agt="T">帰っ</v>た。
*発話者 (addressor) は、書き手だけでなく、思考者や手話やジェスチャの主体など、アノテーションの対象となる広い意味での発話の発信者とする。 同様に、*受話者 (addressee) は広い意味での発話の受信者とする。 文書全体の発話者はその著者、受話者は読者だが、 文書の一部として埋め込まれた発話の発話者と受話者はそうでない可能性がある。
*指示指標 (referential index) とは物事を指し示す名前である。 原則として指示指標は何らかのエレメントの id 属性の値である。 そうでない指示指標を *直示指標 (deictic index) と言う。 直示指標とは、文脈によって異なる事物を指す識別子である。 直示指標には、p0、p1、p1p、p1i、p1x、p2、p2p、nil、top、self、fwd、bwd、 mcn という 13 個がある。 p0 は一般人称、p1 は一人称単数、p1p は一人称複数、p1i は受話者を含む一人称複数、p1x は受話者を含まない一人称複数、p2 は二人称単数、p2p は二人称複数を意味する。 nil は指示物の不在、top は談話全体、self はそのエレメント自身、fwd は前方、bwd は後方を意味する。 mcn (minimal container noun) は当該のエレメントを含む最小の名詞エレメントを指し、主として関係節の構造を記述するのに用いる。 ここで「統率+」は「統率」の推移閉包である。 つまり、ある語句 x が他の語句 y を *統率+ (govern+) するとは、 x が y または y を含む構成素を統率することである。 つまり、x の係り先またはその係り先または … またはその係り先が y であることである。 つまり、x が y に依存+するとは y が x を統率+することである。 たとえば、「私の母の友人が昨日来た」では、 「私の母の友人が昨日」の中のすべての構成素 (「私」や「昨日」) が「来た」に依存+する。
ひとつのエレメントが複数個の事物を表わすことがある。 たとえば、「健が飼っている犬を奈緒美も飼っている」という文が「健が飼っている犬と同じ種類の犬を奈緒美も飼っている」という意味だとすると、「健が飼っている犬」は
言語表現の *指示対象 (referent) とは、それが文脈において表わす事物のうちで最も一般的なものまたは最も基本的なものである。 たとえば上の例文の「健が飼っている犬」の指示対象は 3 (2 匹の犬に共通の品種)、「健の母校」の指示対象は 2 (組織)、「自分の車」の指示対象も 2 (3 台の車) である。
*概念識別子 (concept identifer) とは、何らかのオントロジー (辞書) における概念の識別子または何らかの自然言語の語句である。 前者は id または ont:id、後者は lang:term という形をしている。 id の形の概念識別子は、 GDAタグ集合の中で定義される、後述の関係子などである。 ont は、先行する <ontology> タグ (これについては以下では述べない) によって指定されたオントロジーの識別子であり、lang は ISO 639-2 に基づく言語の識別子である。 自然言語の語句を表わす概念識別子としては、 "eng.make fool of" などがある。
文法機能、主題役割、修辞関係、他の発話への応答の関係などを現わす識別子を
*関係子 (relation identifier) と呼ぶ。
関係子は、二項関係を表わすような概念識別子である。
2 つの事物 x と y と関係子 R に対し、x
から見た y との関係が R であることを x R y
と書くことにする (これは説明用の書き方であり、アノテーションの仕方ではない)。
ここで、x と y をそれぞれ R
の第 1 項および第 2 項と呼ぶ。
たとえば x agt y は、x から見て
y が行為の主体 (agent) であることを意味する。
関係子がアノテーションに用いられる場合、その第 1 項および第
2 項は何らかの語句の指示対象であることが多い。
2. 導入: 意味構造への写像
GDA タグによって、 任意のテキストを任意の意味ネットワークに変換することができる。 その意味ネットワークは、各エレメントの sem 属性と opr 属性、およびエレメントの間の結合の仕方によって定まる。
一般に、各エレメントは、下図のような意味ネットワークに写像される。
sem 属性と opr 属性の値は*概念列である。 概念列は意味ネットワーク中の有向経路 (directed path) を表現する。 各言語的エレメント X の自己節点 self(X) とは opr 属性が表わす有向経路 (矢印で表わされる辺の向きが揃った経路) の先頭 (失印の先) の節点であり、 これは X の sem 属性が表わす有向経路の末尾の節点に等しい。 X の統率節点 gov(X) とは X の opr の値が表現する有向経路の最初の節点である。 X が Y の主辞であるか、 X が Y に統語的に依存する (係る) ならば、 gov(X) = self(Y) である。
sem 属性と opr 属性は、 当該のエレメントのプレインテキストの部分の意味構造を部分的に記述する。 したがって、
<adp opr="agt"><np>これ</np><ad>が</ad></adp>は間違ったアノテーションであり、以下が正しい。
<adp><np>これ</np><ad opr="agt">が</ad></adp>
<adp opr="agt"><np>これ</np>が</adp>最後の例に示すように、主辞である単語はプレインテキストとし、 その意味を sem または opr によって記述するのが簡単で良い。
下記の属性はすべての GDA タグに現われることができる。 後述の opr 属性と関係属性も <gda> 以外のすべてのタグに現われうるが、これらについては 6 節で述べる。
<vp dtp="sc">「籍を入れ」</vp>た
教祖が手をかざしたりする<np dtp="sc">「治療」</np>を信者に施していた
そいつは<v dtp="qt">「やっつけた」</v>とのこと
<aj dtp="mt">「長い」</aj>は2文字の単語だ。
<su id="X"><n eq.mt="X">この文</n>は短い。</su>
<n eq.mt="top">この記事</n>には図が付いている
<n>しがっこ<np opr="mt.eq">(つららの秋田方言)</np></n>まつり翻訳の場合、言及されている語句はそのままにすべきことが多い。 たとえば「『長い』は2文字の単語だ」を `Long' is a two-letter word. と訳すのは間違いで、 `長い' (long) is a two-letter word. などとすべきである。
<su dtp="so">ドン。</su>
<seg dtp="so">ドン</seg>と落ちる
<seg dtp="so">ドン</seg><fo opr="cnt">という</fo>音
ああ悲しい、<ij dtp="so">しくしく</ij>。(「しくしく」と発話している場合)
<adp dtp="mn">のろのろ</adp>歩く
それはすばらしい<ij dtp="vi">:-)</ij>
車<fo dtp="op">(の中)</fo>から
それが<np dtp="em">「常識」</np>だ
<q id="q1" who="Taro" next="q2">「<su id="s1" next="s2">きっと</su>」</q> <persnamep id="Taro">太郎</persnamep>は言った <q id="q2" prev="q1">「<su id="s2" prev="s1">うまく行くよ</su>」</q>
<q>「<su>そ<su dep="top">(笑い)</su>れは面白いね。</su>」</q>
<q dep="SAY" who="Taro"> 「<su>きっと」 <su dep="top"> <persnamep id="Taro">太郎</persnamep>は<v id="SAY">言っ</v>た </su> 「うまく行くよ</su>」 </q>
<su sbu="alt0">太郎は<anchor id="a0"/><ad>自転車で</ad> <anchor id="a1"/>逃げる花子を<anchor id="a2"/>追いかけた<anchor id="a3"/>。</su> <alt id="alt0" content="a0 a3" targets="v1 v3">この例では、文全体のエレメントの子は、<ad> エレメント「自転車で」と、alt0 という id の値を持つ <alt> エレメントである。 後者は見かけ上は空だが、仮想的には「自転車で逃げる花子を追いかけた」の部分を占める。 より完全な例は後掲。
<q> <su> きみがそれを<v>つ<bspan id="u0">くっ</bspan></v><v>た</v><ad> <espan>ん</espan></ad>だろう </su> </q> <q><su cocu="u0">まさか</su></q>
<vp><adp>わざと</adp><adp>それを</adp><v>言わ</v><v>ない</v></vp>では、「それを」は意味的な事情により「言わ」に係らねばならず、 「言わ」は「ない」に係らねばならないが、 「わざと」は「言わ」に係る可能性と「ない」に係る可能性がある。
また、syn の値が d であるエレメントにおいては、 空である子エレメントや子エレメントの dep 属性が省略されている可能性がある。 たとえば下の例は「助け」を指す dep 属性が「太郎を」のタグにおいて省略されている可能性があるので、 不完全ではあるが正しいアノテーションになっている。
<vp><adp>太郎を</adp><adp>花子が</adp><adp>助けて</adp><v>もらう</v></vp>また、たとえ区切り記号以外の子が句エレメントと 1 個の主辞エレメントだけの場合でも、 それらの間の依存関係を一通りに指定したことにならない。 たとえば
<ajp><np>そこ</np><aj>だめ</aj></ajp>では、「そこ」の後に「に座っちゃ」などが省略されている可能性があるので、「そこ」が「だめ」に係るとは言い切れない。
このように、依存関係をただ一通りに限定しない部分的なアノテーションが d によってできる。 そのような部分的なアノテーションは、 他のタグ集合によってアノテーションされたデータを曖昧性を保って GDA の形式に変換する際にも有用である。
E の区切り記号以外の子がいずれも句エレメントである場合は、 それらはすべて省略された兄弟に係ると考える。 たとえば下の例では、「を受賞した」のような表現が最後に省略されていると考える。
<su><adp opr="tim">1987年に</adp><np opr="obj">文化勲章</np>。</su>一方、いわゆるサ変動詞や形容動詞の語幹は主語や目的語を受けると考えて、たとえば「99年に就任」や「とても静か」では「99年に」が「就任」に、「とても」が「静か」に係ると考える。
<su><adp>とても</adp><aj>静か</aj>。</su>
下の例では「です」や「だ」などの繋辞が省略されている。
<su><adp opr="obj">私は</adp><np opr="in">カモメ</np></su>下の例では「にいる」などの表現が省略されている。
<su><adp opr="obj">お母さんは</adp><np opr="loc">台所</np>。</su>下の例では「がいる」などの表現が省略されている。
<su><adp opr="loc">後方に</adp><np opr="obj">敵機</np>!</su>
syn="f" を持つエレメントの子が区切り記号とエレメントだけならば、 子エレメントの間の依存関係は唯一に定まる。 たとえば
<su syn="f"><adp>それは</adp><vp>何です</vp><v>か</v>。</su>では、「それは」と「何です」が「か」に係ることが指定される。 また、
<su syn="f"><n>何</n><v>です</v><v>か</v>、<adp>それは</adp>。</su>では、「何」が「です」に係り、 「です」と「それは」が「か」に係ることが指定される。 「か」の右側には句エレメント「それは」しかないので「か」の係り先はない。
電話番号や住所も syn="f" とする。
<np syn="f"><n>03</n>-<n>3581</n>-<n>0031</n></np>
<addr syn="f"> <placename>東京都</placename> <placename>千代田区</placename> <placename>霞ケ関</placename> <n>1</n>-</n>1</n> <addr>
<n syn="c"><aj>青い</aj>車か<aj>赤い</aj>車</n>は、対等項でない「青い」と「赤い」が子エレメントになっているので誤りである。 以下のアノテーションは正しい。
<n syn="c">青い車か赤い車</n>
<n syn="c"><n>青い車</n>か<n>赤い車</n></n>
<n syn="c">青い車<io>か</io>赤い車</n>
<n syn="c"><n>青い車</n><io>か</io><n>赤い車</n></n>
syn="c" を持つエレメントの子である対等項が関係子を持たない場合、エレメント全体は対等項の指示対象の和を表わす。 下の例は、「2 時間半」が 2 時間と 30 分の和を意味することを示す。
<np syn="c"><n>2時間</n><n>半</n></np>ちなみに、日付や時刻には syn="c" ではなく syn="d" または syn="f" を用いる。
<timep><time>2時</time><time>半</time></timep>
syn="c" を持つエレメントの子エレメントである対等項が関係子を持つ場合には、それらの対等項の統率節点とエレメント全体の統率節点が一致する。???
<adp syn="c"> <adp opr="int">東京から</adp> <adp opr="fin">大阪まで</adp> </adp> <ad opr="eq">の</ad>道のり
<np> 春節 <np syn="c"> ( <np opr="pron">チュンチェ</np> ; <np opr="eq">旧正月</np> ) </np> </np>「東京から大阪まで行く」は syn="c" を使わずたとえば以下のようにアノテーションする。
<su> <adp opr="src">東京から</adp> <adp opr="gol">大阪まで</adp> 行く </su>
等位構造は作用域を持つ (他の語句を分配する) ことがある。 たとえば「兄と弟が喧嘩した」は、「兄が誰かと喧嘩し、弟が他の誰かと喧嘩した」または 「兄と弟が互いを相手に喧嘩した」のいずれかの意味になるが、 前者の場合には「兄と弟」「が喧嘩した」を分配している。 前者の読みを明示するには下のように sce 属性を用いて「兄と弟」の作用域が文全体であることを示す。
<su sce="B"><np id="B" syn="c">兄と弟</np>が喧嘩した。</su>男と女が互いを相手に喧嘩したという意味だとすれば、 「男と女」は「が喧嘩した」を分配しないが「私が会った」を分配する。 このことは下のように sce 属性を用いて明示できる。
<su> <vp sce="X">私が<v obj="mcn">会っ</v>た</vp> <n sce="X" id="X" syn="c">男と女</n>が喧嘩した。 </su>逆に、等位構造が係り元を分配せず係り先を分配することもある。 たとえば、「遠く離れた東京と京都に行く」が、 東京と京都が互いに遠く離れているのに東京にも京都にも行く、 という意味だとすれば、「東京と京都」は「に行く」を分配するが、 「遠く離れた」を分配しない。 これも下のように sce 属性を用いて明示できる。
<su sce="TK"> 遠く<v obj.rcp="mcn" sce="top">離れ</v>た <np id="TK" syn="c">東京と京都</np>に行く </su>
<np syn="r"><np>な</np>、<np>な</np>、<np>なに</np></np>
<np syn="r"><np>おど</np>、<fo>じゃない</fo><np>おとうさん</np></np>
<su syn="r"> <vp cp="X P"><adp sb="N">健が</adp></vp>、 <io>いや</io> <vp id="X"> <adp id="P">ことによると</adp> <adp id="N">奈緒美も</adp> 来る </vp> </su>前述のように、一見して構成素でない単位の修複は、等位構造と同様に sb 属性を用いてアノテーションすることができる。 また、修複されない間違いは、syn="r" ではなく、後述の orth 属性を用いてアノテーションする。
<np syn="e"><np orth="なに">な</np>、<np>な</np>、<np>な</np></np>
以下の属性はすべての文内タグに含まれ得る。
<su><adp>健が</adp><v id="come">来る</v>。</su> <su><adp>宏も</adp><v cp="come"/>。</su>コピー先とコピー元は共参照してはならない。 したがって下記の例では cp ではなく eq を用いる。
「あっ<v id="come">来た</v>。ほら、見て。」「えっ誰が<v eq="come"/>?」
<su id="s"><adp id="t">田中が</adp>さっき来たみたいだ。</su> <su><q><su cp="s"><adp sb="t">山田が</adp></su></q>、でしょ。</su>この例では、「田中がさっき来た」と「山田が」が対応する対等項であり、「山田が」が sb で「田中が」を指しているので、 2 番目の文は「山田がさっき来た、でしょ」のように補われる。 (句読点などの区切り記号はコピーされない。)
エレメント E のcp 属性の値に含まれる ID 値 X と nc 属性の値に含まれる ID 値 Y に対し、X が指すエレメントが Y が指すエレメントを含むとき、前者から後者を除いたもののコピーを作り、 かつそこに含まれる Y が指すエレメントの係り先のコピーと共参照するエレメントを作り、それで E を置換する。 たとえば、
<su id="S"> <persname id="K">健</persname><ad opr="topic.dwn.agt">は</ad> <adp syn="f"> <vp id="NN"> <vp cp="S" nc="NN"><persname sb="K">奈緒美</persname></vp> より大きいかも知れない </vp>会社で </adp> 働いている。 </su>では、「健」を「奈緒美」で置換しつつ「健は会社で働いている」をコピーして「奈緒美は会社で働いている」を作り、 後者の「会社」と共参照する「その会社」 (他の表現でもよい) で原文の「奈緒美」を置換して、 「健はその会社より大きいかも知れない会社で働いている」を得る。 結局、原文に代わって「奈緒美は会社1で働いている」と 「健は会社1より大きいかも知れない会社で働いている」ができたことになる。 これら 2 つの文はひとつの線形のテキストに属しているわけではなく、 前後関係等はない。
cp によるコピーの範囲はコピー先から見て抽象化されており、 作用域を作っていると解釈される。 たとえば下の例では、「妻」がその作用域の外にあるため、 第 2 文は「宏も健の妻を愛している」という意味になる。
<su id="KenLoves"> <adp id="K">健は</adp> <np arg="K" sce="top">妻</np>を愛している。 </su> <su cp="KenLoves"> <adp sb="K">宏<ad opr="also.dwn.agt">も</ad></adp> そうだ。 </su>下記の例の第 2 文は「宏も宏の妻を愛している」という意味になる。
<su id="KenLoves"> <adp id="K">健は</adp> <np arg="K" sce="KenLoves">妻</np>を愛している。 </su> <su cp="KenLoves"><adp sb="K">宏も</adp>そうだ。</su>他の例も参照。
<su>あれは<v ed=":">何だ</v>?</su>
<n orth="コミュニケーション">コミニュケーション</n>
<orgname expan="電子技術総合研究所" abbr="acronym">電総研</orgname>
<n prn="みわ">実は</n>
タグ名とそのタグに付随できる (上記以外の) 属性を以下に列挙する。 <gda> から <q> までのタグにおいては syn 属性のデフォルト値は u である。
<byline> <docAuthor syn="b"> <persname>橋田 浩一</persnamep> <persnamep lang="eng" opr="eq">HASIDA, Koiti</persnamep> </docAuthor> ( <addr syn="a"> <orgnamep>産業技術総合研究所</orgname> <orgnamep>AIST</orgname> </addr> ) </byline>
<su> <persnamep opr="agt">太郎</persnamep> <adp>(笑いながら)</adp> <q>「<su>うん。</su>」</q> </su>
<q type="spoken">「東京には空がない」</q>と言う。
<q type="written">YES</q>のボタンを押して下さい。
<su><q type="written">初めに言葉ありき</q> <namep opr="who">(旧約聖書 創世記)</namep></su>
<q>百人一首では<cit>しのぶれど色に出にけり</cit>が好きだ</q>と健が言った
以下で述べるタグは文の中の構造を表わすものであり、文内タグと言う。 文内タグのうち、 <np> や <vp> のように名前の最後に p の付くものと <bibref>、<ij>、<fbo>、および <bfo> を句タグと呼び、それによってアノテーションされたエレメントを句エレメントと呼ぶ。 句エレメントは句レベルの構成素、すなわち最大投射であり、 (dep 属性で明示した場合を除き) 他の語句を受けない。 句タグでない文内タグ (<n> や <v> など) を主辞タグ、それによってアノテーションされたエレメントを主辞エレメントと呼ぶ。 主辞エレメントは主辞になれる。 つまり、他の語句を受けることができる。 後に見るように、句タグを用いる目的は、統語構造のアノテーションにおけるエレメントの個数や入れ子の深さを抑制することである。 これにより、アノテーションされた文書の構造が簡単化され、 人間にとって見やすくなる。
この<n>困難</n>を乗り切るのは<aj>困難</aj>だ
<v>する</v><v>よう</v><v>だ</v>形容詞や繋辞を否定するものも含めて、否定の「ない」は助動詞と考えて <v> とする。 不在の「ない」は形容詞とする。
<v>わかん</v><v>ない</v>
<v>変わら</v><v>なく</v><ad>ちゃ</ad>
<aj>美味しく</aj><v>なかっ</v><ad>た</ad>
<ad>そう</ad><v>じゃ</v><v>ない</v><v>よ</v>
<v>聞い</v><ad>て</ad><v>なけれ</v><ad>ば</ad>
<v>言わ</v><v>ん</v><ad>こっちゃ</ad><v>ない</v>
そんなことは<aj>ない</aj>
<aj><adp>お</adp><aj>美しい</aj></aj>
<su><adp>ここは<adp><aj>静か</aj><v>か</v></su>
<adp><np>健</np><ad>は</ad></adp>終助詞で終わるが文末にはない「それがさ」、「実はですね」などは <adp> とする。
<su><ij>はい</ij>。</su>下の例では「はい」が「そうです」に係る。
<su><ij>はい</ij>、<v>そうです</v>。</su>
<date value="1998-06-04">1998年6月4日</date>
<date value="1997">'97</date>
<date value="1999">平成11年</date>
<periodp opr="tmx.msr" value="1994-04-01/P2Y">四月一日から二年間</periodp>
<name>「<su>誰がために鐘は鳴る</su>」</name>
<np><adp>あの</adp><persname>田中</persname>さん</np>
<name>「<persname>後鳥羽上皇</persname>」</name>書籍や映画などのタイトルの両側の括弧は <name> または <namep> エレメントに含める。 タイトルを <q> エレメントにする必要はない。
<name>「</su>風と共に去りぬ</su>」</name>
<num value="21">二十一</num>
<num type="pc" value="10">10%</num>
<num type="real" value="0.32">3割2分</num>
<num type="ordinal" value="2"> <num value="2">ふたつ</num> <n>め</n> </num>
<num syn="f" type="fraction" value="1/3"> <num value="3">三</num> <fo>分の</fo> <num value="1">一</num> </num>分数を表わすための「分の」は <fo> とする。
<n syn="c"> <nump value="1/10">十</nump> <io>から</io> <nump value="1/20"> <nump>二十</nump> <fo>分の</fo> <num>一</num> </nump> </num>value 属性で意味が明示できればタグによる構造化は不要。
<n> <nump syn="c"> <nump value="10000000000" opr="int">100</nump> ― <nump value="20000000000" opr="fin">200億</nump> </nump> 光年 </n>
<np>不完全性定理 <bibref>(Goedel, 1931)</bibref></np>
<fo> を使う必要があるのは、syn の値が c、a、r であるエレメントにおいて等位演算子や同格の演算子をエレメントにするときと、構成素でないものに sem 属性または opr 属性を付けるときの 2 通りである。 以下の <fbo>、<bo>、および <bfo> に関しても同様である。
syn の値が c、a、r のエレメントの子エレメントである <fo> エレメントは等位、同格、修復の演算子である。 それ以外の <fo> エレメントはその他の演算子である。 opr 属性によって意味的関係をアノテーションすると、その意味的関係を表わす演算子の位置が不明確になる可能性があるが、下のように演算子をエレメントにして sem 属性または opr 属性を付ければその問題は生じない。
<adp>本件<fo opr="sbm">に関して</fo></adp>
<np><adp><vp>雨が降る</vp><fo opr="cnt">という</fo></adp>予報</np>「に関して」や「という」は助詞として登録されているので、 構成素と見なし、<ad> エレメントとすることができる。 しかし、構成素でないものを演算子と見なして sem 属性または opr 属性を付けるには、 <fo> エレメントにする必要がある。 たとえば、「閣下におかれましては」の「におかれましては」は構成素でないので、たとえば opr 属性 (opr="uba" など) を付けるためには、<fo> エレメントにする。
<np syn="r">上、<io>いや</io>、下</np>
以上のうち、<span>、<bspan>、および <espan> を *任意領域タグ、<p> 以降のタグを *区間内タグ と言う。 <q> および <cit> を引用タグ と言う。 また、区間内タグのうち <segs> 以降のタグが文内タグである。 下の表にタグの種類 (左) とそれを持つエレメントが直接の子供として含むことのできるエレメントのタグ (右) を示す。
|
<su>健は<q><su>帰る</su></q>と言った。</su>
以下に述べるタグは曖昧性を表現するためのものであり、コンピュータによる自動的な解析の際の入出力に含まれることを想定している。 これらのタグで表現された曖昧性を人間が解消することは考えられるが、 人間がそうしたタグを付けることは想定していない。 これらのタグのエレメントはすべて空であり、文書中のどこに現われてもよい。
<su sbu="alt0"> 太郎は<anchor id="a0"/> <adp>自転車で</adp><anchor id="a1"/> 逃げる花子を<anchor id="a2"/> 追いかけた<anchor id="a3"/>。 </su> <alt id="alt0" content="a0 a3" targets="v1 v3"/> <v id="v1" sbu="ad1 v2"/> <ad id="ad1" content="a0 a1"/> <v id="v2" content="a1 a3"/> <v id="v3" sbu="ad2 v4"/> <ad id="ad2" content="a0 a2"/> <v id="v4" content="a2 a3"/>この例では、<alt/> エレメントは 2 つの <v/> エレメントを指しており、これらは「自転車で逃げる花子を追いかけた」の構造の 2 つの可能性を表わしている。
ここでは、主に 2 節の「一般的属性」と3 節の「タグ」の内容を言語現象ごとにまとめ、それらのアノテーションについて述べる。 ここで扱う言語現象は、統語構造 (syntactic structure) とその他の現象からなる。 統語構造とは文中の語句 (構成素) の間の依存 (dependency; 係り受け)、等位 (coordination)、同格 (apposition)、および修正 (repair) という 4 種類の関係からなる構造である (同格の一部は依存関係の一種として扱う)。 依存構造は、syn 属性の値が d、f、または b であるエレメントとしてアノテーションされ、主辞である子 (syn の値が d の場合、明示されていない空エレメントのこともある) をただひとつ持つ。 syn 属性の値が n、c、a、r、 または e であるエレメントにおいては、主辞である子がないか、複数個存在する。 syn="a" を持つエレメントは、主辞を複数個持つという意味で真の同格構造である。
原則として、統語的関係はエレメントの兄弟の間でのみ成立する。 そうでない (つまり、ひとつのエレメントの内外にわたる) 統語関係は、 dep 属性によって示される依存関係と、<fo>、 <fbo>、<bo>、 または <bfo> エレメントの左端あるいは右端と交差する依存関係だけである。
各構成素の統語的な係り先は 1 個以下である。 (「大きな目と口」の「大きな」は「目」と「口」に係るとも言えるが、「目と口」に係ると考えれば「大きな」の係り先はちょうど 1 個となる。) dep 属性を持たない構成素の係り先はその兄弟 (エレメントまたはテキスト) であり、syn 属性の値によって規定される。 ある語句 x が他のエレメント y に係るとき、y が <fo> または <bo> エレメントの場合を除き、x は y の主辞に係ると考える。 たとえば、「私は高い本を買う」では「高い」は「本を」ではなく「本」に係るので、下の第 1 のアノテーションは間違いであり、第 2 のアノテーションが正しい。
<su>私は高い<ad>本を</ad>買う</su>
<su>私は<adp>高い本を</adp>買う</su>
日本語では、依存関係のほとんどは前向きなので、実際の自動解析においては、各エレメントの中での統語的関係は前向きの依存関係と仮定できる。 たとえば
<su>健と<v>ゆっくり逃げる</v>奈緒美を追う</su>においては、「ゆっくり逃げる」がエレメントになっているので「ゆっくり」が「逃げる」に係ることを示唆しているが、「健と」が「ゆっくり逃げる」に係るか「追う」に係るかについては何も言っていない。
syn="d" はこのような曖昧性を許容するので、文節係り受け構造を出力するパーサの解析結果を、曖昧性を保存してそのまま GDA タグ付きテキストに自動変換できる。 たとえば
<su><adp>今日は</adp><adp>学校に</adp>行かない</su>は、「今日は」と「学校に」が「行かない」のどこかに係るという依存関係を含むが、それらが「行か」に係るか「ない」に係るかについては何も言っていない。
人手修正では、依存構造を示すため、 syn="f" (forward chain) を用いることが望ましい。 syn="d" よりも syn="f" の方が構造の可能性を強く限定する。 特に、形態素解析の曖昧性がなければ、 syn="f" は依存関係を唯一に決定する。 たとえば
<su syn="f">健と<v>ゆっくり逃げる</v>奈緒美を追う</su>は、「健と」が「ゆっくり逃げる」に係ることを意味する。 これに対し、syn="d" であるエレメントにおいては、上の「今日は学校に行かない」の例のように、エレメントの係り先が決定されない。
syn="d" または syn="f" (特に後者) を使うことによって、アノテーションを大幅に簡略化できる。 たとえば、「検討を始めたばかりのころは」に関しては、
<adp syn="f"> <n>検討</n> <ad>を</ad> <v>始め</v> <v>た</v> <ad>ばかり</ad> <ad>の</ad> <n>ころ</n> <ad>は</ad> </adp>は以下のアノテーションと等価である。
<adp> <np> <adp> <adp> <vp> <vp> <adp> <np>検討</np> <ad>を</ad> </adp> <v>始め</v> </vp> <v>た</v> </vp> <ad>ばかり</ad> </adp> <ad>の</ad> </adp> <n>ころ</n> </np> <ad>は</ad> </adp>
また、句エレメントが主辞にならないことを使えば、下のように、複数個の語句が同じ 1 個の語句に係る構造を、タグの入れ子なしで表現できる。
<su syn="f"> <adp>僕は</adp> <np>今日</np> <adp>君と</adp> <adp>車で</adp> <adp>東京へ</adp> <adp>2時間で</adp> <adp>ゆっくり</adp> <v>行く</v>。 </su>
否定や推量の表現がある場合には、依存関係の微妙な差によって意味が異なる可能性がある。 そのようなときは、依存関係が明確になるようにアノテーションする必要がある。 たとえば、「わざと言わない」の意味は 2 通りに解釈できる。 まず、「わざと」が「言わ」に係る場合は全体の意味は「わざと言う」の否定になるが、これは、下のようなアノテーションによって明示できる。
<su syn="f">わざと言わない</su>一方、「わざと」が「言わ」に係らず「ない」 (または「言わない」) に係る場合は「わざと黙る」の意味だが、これは下のようなアノテーションによって明示できる。
<su>わざと<vp>言わ</vp>ない</su>
<su>わざと<v>言わない</v></su>これらのうち、エレメントが小さい第一のアノテーションの方が望ましい。 また、「けがで作業ができず」の通常の解釈は、これは「けがで」が「ず」に係るということであり、それを明示するには下のようにアノテーションすればよい。
<vp syn="f">けがで<vp syn="f">作業ができ</vp>ず</vp>下記の例では、「先生にお渡しして」を句エレメントとすることにより、「先生に」が「お渡しして」に係ることと「鈴木さんに」が「いただいた」に係ることを明示している。
<su> <adp>鈴木さんに</adp> <vp>先生にお渡しして</vp> いただいた </su>
複合語が他の語句を受ける場合にも、依存関係を明確にするためには複合語をエレメントにする。 たとえば下のような場合である。
<adp syn="f"> 抜本的な <n>財政構造改革</n> に関する検討を始めたばかりのころは </adp>ここでは、「抜本的な」が「財政構造改革」に係り、それが「に」に係り、「に関する検討を始めたばかりのころは」の中では各語がその右隣の語に係ることになる。 単に全体をひとつのエレメントとしたのでは「抜本的な」が「財政」に係ることになってしまう。 「数十年」、「山田さん」なども他の語句を受ける場合にはそれぞれエレメントにする必要がある。
dep 属性は、他の依存関係と交差するような依存関係を明示するために用いる。 dep 属性を持つエレメントはその値によって示されるエレメントのみに係る。 たとえば「そんなものでは私はないと思う」において、「私」が思う内容は「そんなものではない」ということであるとしよう。 すると、「そんなものでは」は「ない」に係り、「私は」は「思う」に係る。 これを示すためには下のようにすればよい。
<su> <adp dep="n1">そんなものでは</adp> <adp>私は</adp> <adp><v id="n1">ない</v>と</adp> 思う </su>dep 属性の指す係り先は、もちろんエレメントでなければならない。 たとえば上で、「そんなものでは」の係り先は「ない」なので、文節「ないと」を分割して「ない」をエレメントとしていることに注意されたい。
syn 属性に応じて決まる依存関係において係り側の関係子が受け側と合わない場合は、係り側は受け側が依存+する最も近い語句に係るとする。 たとえば下の例では「太郎は」と「先生に」は実は「れ」に係り、 「太郎」と「先生」はそれぞれ「叱ら」の意味上の目的語と主語になる。
<su syn="f"> 太郎<ad opr="ctl.obj">は</ad> <adp>先生<ad opr="ctl.agt">に</ad></adp> 叱られた </su>下の例では、「太郎に」は見かけ上は「読ま」に係るが、「太郎に」は関係子 ctl.agt を持つため「読ま」には係れず、実際には「せる」に係る。 「本を」が「読ま」に係るので、ここで依存関係が交差しているが、このように同一文節内の係り先への依存関係が交差していても dep 属性を使わずに済むことが多い。
<su syn="f"> 本<ad opr="obj">を</ad> <adp>太郎<ad opr="ctl.agt">に</ad></adp> 読ませる </su>
依存構造以外の統語構造に関する説明の準備として、抽象化 (abstraction) とその具現化 (instantiation) の際の置換 (substitution) について述べておく。
工事中
<v syn="c"> <v syn="f"> <adp syn="f"> <n in="SS">成獣</n><ad opr="arg">の</ad> <np sit="mcn">平均</np><n>体長</n><ad opr="obj">は</ad> </adp> <adp id="xx"><n>オス</n><ad opr="uba">で</ad></adp> <np id="yy" opr="eq"> <n syn="c"> <num value="5" opr="int">5</num>―<num value="7" opr="fin">7</num> </n> <n>メートル</n> </np> </v> <v syn="f"> <adp sb="xx"><n>メス</n><ad opr="uba">で</ad></adp> <np sb="yy" opr="eq"> <n syn="c"> <num value="4" opr="int">4</num>―<num value="5" opr="fin">5</num> </n> <n>メートル</n> </np> </v> </v>
等位関係は、異なる指示対象を持つ複数個の構成素の間の対等な関係である。 たとえば、「水と油」は水の一種でも油の一種でもなく、水と油をひっくるめたものなので、ここでは「水」と「油」は等位関係にあり、「と」が等位関係の種類を表わす演算子である。 この例の「水」と「油」のようなものを対等項 (peer term) と言う。
「東京と京都と」や「量ではなく質」などの等位構造は syn="c" を用いて下のようにアノテーションする。
<np syn="c"><np>東京</np>と<np>京都</np>と</np>を比べる
<np syn="c"><np>量</np>ではなく<np>質</np></np>
等位・同格・修正構造 (syn の値が c、a、r、e のエレメント) は、対等項 (「東京と京都」の場合は「東京」と「京都」) と演算子 (対等項の間の関係を表わす語句; 「東京と京都」の場合は「と」) からなる。 等位・同格・修正構造のエレメントの子のうち <fo>、 <bo>、および <io> エレメントは演算子であり、それ以外のエレメントは対等項である。 たとえば下の例は正しいアノテーションだが、ここで「だけではなく」をエレメントにせずに「なく」をエレメントにしたり、「質が良い」をエレメントにせずに「質が」をエレメントにしたり、あるいは「質が良いだけではなく」をエレメントにしたりするのは誤りである。
<ajp syn="c"> <ajp>質が良い</ajp> <fo>だけではなく</fo> <ajp>量が多い</ajp> </ajp><fo> と <bo> エレメントにおける syn 属性のデフォルト値はそれぞれ f と b である。 <fo> エレメントの子のうち最左の主辞はエレメントの左外の構成素を受けることができる。 たとえば上の例の「だけではなく」の「の」は「質が良い」を受けている。 同様に <bo> エレメントの子のうち最右の主辞はエレメントの右外の構成素を受けることができる。
ギャッピングを含む対等項は、対応する対等項から内容を補って読むべきことをアノテーションで示す。 たとえば「おじいさんは山へ柴刈りに、おばあさんは川へ洗濯に行きました。」を下のようにアノテーションすれば、「おじいさんは山へ柴刈りに 行き まし た。 おばあさんは川へ洗濯に行きました。」のように補うべきことを意味する。 「柴刈りに」の後の「行き」と「まし」と「た」はもとのテキストにはなく、 ed 属性を用いて補ったものである。 「おじいさんは」は補われた「た」に係り、「山へ」と「柴刈りに」は補われた「行き」に係るので、「行きました」をひとつのエレメントとして補うことはできず、下のように「行き」と「まし」と「た」を別々のエレメントにする必要がある。
<su syn="c"> <vp> <adp>おじいさんは</adp> <vp> <adp>山へ</adp> <adp>柴刈りに</adp> <v ed=":">行き</v> <v ed=":">まし</v> </vp> <v ed=":">た</v> </vp> 、 <vp> <adp>おばあさんは</adp> <vp> <adp>川へ</adp> <adp>洗濯に</adp> 行きまし </vp> た </vp>。 </su>
下記は「健の息子は太郎の部屋を訪ね、健の妹は奈緒美の部屋を訪ねた」という読みを表わす。
<su syn="c"> <vp> <adp>健の息子は</adp> <vp>太郎の<n ed=":">部屋</n><ad ed=":">を</ad><v ed=":">訪ね</v></vp> <v ed=":">た</v> </vp> <vp> <adp><adp ed=":">健の</adp>妹は</adp> <vp>奈緒美の部屋を訪ね</vp> た </vp>。 </su>
以上の例は下記のように sb 属性によってアノテーションすることもできる。
<su syn="c"> <vp> <adp sb="O">おじいさんは</adp> <adp sb="K">山へ</adp> <adp sb="S">柴刈りに</adp> </vp> 、 <vp> <adp id="O">おばあさんは</adp> <vp> <adp id="K">川へ</adp> <adp id="S">洗濯に</adp> 行きまし </vp> た </vp>。 </su>
<su syn="c"> <vp> <adp sb="sister"><persnamep id="K">健</persnamep>の息子は</adp> <adp sb="naomi">太郎の</adp> </vp> <vp> <adp id="sister"><n arg="K">妹</n>は</adp> <vp><adp id="naomi">奈緒美の</adp>部屋を訪ね</vp> た </vp>。 </su>
sb (substitute) は置換を表わす。 つまり、対等項の下位エレメントの間に sb による対応関係がある場合、対応関係から洩れる部分が対等項の間で共有される。 上の例では、「私の兄の息子は太郎の」と「妹は奈緒美の部屋を訪ねた」という 2 個の対等項の下位エレメントである「私の兄の息子は」と「妹は」、および「太郎の」と「奈緒美の」が対応しているので、「私の兄の息子は太郎の」に対して「部屋を訪ねた」が補われる (これは Penn TreeBank におけるギャッピング (gapping) の扱いに基づく)。 下にもうひとつ例を挙げる。
<su> <np id="X">赤字国債</np><fo opr="uba">に関して</fo>、 <v syn="c"> <v syn="f"> <adp><n id="G"><q>「<su id="good" obj="X">良い</su>」</q>と答えた者</n>は</adp> <nump id="T">20%</nump>、 </v> <v syn="f"> <n cp="G">「<su sb="good" obj="X">悪い</su>」</n>が <nump>23%</nump>だった </v> <v>。 </su>
対等項の下位エレメントに対応するものが他の対等項の中にない場合は、sb="nil" をそのエレメントに持たせる。 たとえば下記の例は「国家間の争いを生んだ、かつ、国内には政情不安を生んだ」という解釈を示すが、ここで対等項「国内には政情不安を生んだ」の下位エレメント「国内には」はもう 1 個の対等項「国家間の争い」の中に対応するエレメントを持たない。
<su syn="c"> <vp> <n>国家間の争い</n> <ad ed=":">を</ad> <v ed=":">生ん</v> <v ed=":">だ</v> </vp> と <vp> <adp>国内には</adp> <vp>政情不安を生ん</vp> だ </vp> </su>
<su syn="c"> <vp> <np sb="X">国家間の争い</np> </vp> と <vp> <adp sb="nil">国内には</adp> <vp><np id="X">政情不安</np>を生ん</vp> だ </vp> </su>
複数個の構成素が主辞となるような真の同格構造は syn="a" で示す。 ギャッピングを含む同格構造のアノテーションは上の等位構造の例と同様にする。
<su syn="a"> <vp> <adp>妻が</adp> <adp>夫の<n ed=":">車</n><ad ed=":">に</ad></adp> <v ed=":">乗る</v> </vp> <io>つまり</io> <vp> <adp>たとえば</adp> <adp>奈緒美が</adp> <adp>健の車に</adp> 乗る </vp> </su>
<su syn="a"> <vp> <adp sb="naomi">妻が</adp> <adp sb="ken">夫の</adp> </vp> <io>つまり</io> <vp> <adp sb="nil">たとえば</adp> <adp id="naomi">奈緒美が</adp> <adp><adp id="ken">健の</adp>車に</adp> 乗る </vp> </su>
syn="a" を持つエレメントの子の対等項の中で sb 属性によって対応するエレメントは共参照する。
上の例では、「妻が」と「奈緒美が」共参照し、「夫の」と「健の」が共参照する。
したがって「妻」と「奈緒美」、および「夫」と「健」が共参照する。
5.6. 修復
修復 (言い直し) は syn="r" で示す。 構成素でない単位の修複は、等位構造と同様に sb や fil などの属性を用いてアノテーションする。
<su syn="r"> <vp> <adp sb="k">健が</adp> <adp sb="n">奈緒美を</adp> </vp>、 <io>いや</io>、 <vp> <adp id="k">健を</adp> <adp id="n">奈緒美が</adp> 殴った </vp> </su>
関係節とそれを統率する名詞との意味的関係を示すには、 後述の関係属性を用いる。 下の例では、「もの」が「好きな」の意味上の目的語であり、「人」が「好きな」の経験者と「食べ」の意味上の主語である。
<ajp exp="X" obj="mcn">好きな</ajp>ものしか<vp agt="mcn">食べ</vp>ない <n id="X">人</n>
関係節を統率する名詞と直接の意味的関係を持つ関係節中の語句が依存+ する他の名詞が関係節中になければ、その id 値の代わりに直示指標 mcn (minimal container noun) を用いることができる。 上の例では、「好きな」が名詞「もの」に係るので、「人」が「好きな」の経験者を表わすことは mcn では示せず、exp="X" で示してある。
よく<v agt="mcn">来る</v><n>人</n>
<np arg="mcn">鼻</np>が長い<n>象</n>ここで agt="mcn" は「人」が「来る」の動作主を表わすことを示し、 arg="mcn" は「鼻」が象の鼻であることを示す。
連体詞や「の」が主辞の関係節もある。
<adp><np arg="x">腹</np>が<adp>三段の<n id="x">おじさん</n>
<np arg="mcn">気</np>の小さな<n>人</n>
<v obj="B">建設</v>中の<n id="B">ビル</n>
複合名詞の内部にも関係節がありうる。 下の例では「ガン抑制」が関係節であり、「遺伝子」が「抑制」の意味上の主語である。
<np syn="f"><np opr="obj">ガン</np><n cap="mcn">抑制</n><n>遺伝子</n></np>
名詞に係り opr="mod" を持つ節は関係節である。 関係節の係り先の名詞との関係を関係属性によって明示しない (することが難しい) 場合には、関係節に opr="mod" を持たせる。
<vp opr="mod">太らない</vp>お菓子ただし、実はこの例は下のように「太る」と「お菓子」の関係を明示できる。
<vp cau="mcn">太ら</vp>ないお菓子
「は」、「も」、「こそ」、「さえ」、「すら」、 「まで」等の係り助詞や副助詞に係る名詞句等は、 その助詞の係り先の最大投射の内部と、 その助詞で示される以外の意味的関係を持ちうる。 つまり、topic (主題) や uba (unbouded argument) などの関係子の第 2 項は、その第 1 項の最大投射の内部と意味的関係を持ちうる。 たとえば、
<su> <n id="Z">象</n><ad opr="topic">は</ad> <adp><np arg="Z">鼻</np><ad opr="obj">が</ad></adp> 長い </su>の opr="topic" は、「象」と「鼻が長い」の間に topic の関係があり、またそれ以外の関係もあることを示す。 それは、「鼻」が象の鼻であるという関係であり、 「鼻」に arg="Z" を付けて示されている。
「は」や「も」を主辞とする助詞句が係り先の述語と直接の意味的関係を持つ場合は下のように fit を用いてアノテーションする:
<su><adp>この人<ad opr="topic.fit.sbj">は</ad></adp><adp>よく</adp>来る</su>
<su><adp>この人<ad opr="topic.fit.obj">は</ad></adp><adp>よく</adp>見かける</su>
「君をも」、「それについては」、 「東京からは」のように格助詞 (または格助詞に相当する語句) が係助詞に先行する場合は、それによって意味的関係が決まるので、格助詞をその意味的関係で、「は」や「も」を opr="uba" でマークし、意味的な係り先の関係子として X.plg の形のものまたは plg を用いる (「東京からは」のアノテーションに関しては 6.3 節を参照)。 下の例では、「行く」の表わす事象と東京との間の関係は src となる。
<su> 東京<fo id="fromtokyo" opr="uba.src">からは</fo> <adp><vp sbj="mcn" plg="fromtokyo">行く</vp><n>人</n>が</adp> 多い。 </su>係り先と直接の意味的関係が成り立つ場合にはもちろん uba は要らない:
<vp>東京<fo opr="obj">をも</fo>凌ぐ</vp>
比較とは、ある対象を基準 (他の事物) と比べることである。 比較の対象と比較の基準とを結ぶ関係子は、 cmp (comparison)、mot (more than)、let (less than)、pst (postcedence)、pre (precedence)、rpl (replace)、sim (similarity) であり、このうち cmp 以外のものは比較の述語を含む。 これらを意味する語句を比較演算子 (comparison operator) と呼ぶ。 比較演算子の意味が cmp の場合、比較の対象は比較の述語の主語か目的語の指示対象 (obj または obj の特殊化の関係にあるもの) である。 比較演算子の意味が cmp でない場合、 比較の対象は比較演算子の係り先の指示対象である。 いずれの場合も、比較の基準は比較演算子の補語の指示対象だが、比較演算子の補語は一部が省略されていることがあり、その場合には省略を補う必要がある。
比較の基準は、比較演算子の補語 (「奈緒美より」や「奈緒美と」の「奈緒美」など) の指示対象と関係する何らかの事物である。 下記に示すいくつかの例のように、最も単純な形の比較構文では、 比較の対象は比較の意味を含む述語 (「賢い」、「似ている」、「越える」など) の主語の指示対象 (健) であり、 比較の基準は比較演算子の補語の指示対象 (奈緒美) であり、 比較の関係子は cmp である。
<su><adp>健が</adp><adp>奈緒美<ad opr="cmp">より</ad></adp>賢い。</su>
<su><adp>健が</adp><adp>奈緒美<ad opr="cmp">に</ad></adp>似ている。</su>
<su><adp>健が</adp><adp>奈緒美<ad opr="cmp">を</ad></adp>越える。</su>
<su><adp>健を</adp><adp>奈緒美<ad opr="cmp">に</ad></adp>優先する。</su>
cmp 以外の比較の関係子を用いる場合には、 比較演算子の補語の一部が省略されているのが普通である。 比較の対象の側の表現を部分的にコピーすることによってその省略を補うことができることが多い。 たとえば、「健は奈緒美ぐらい食べる」では、比較の基準は「奈緒美が食べる」 (の指示対象である事象) だが、 比較演算子「より」の補語「奈緒美」においては「が食べる」が省略されている。 この省略を補うため、この文は下のようにアノテーションする。 ここで sim-agt の - は、「ぐらい」の係り先である「食べる」のコピーを表わす。 sim-agt は、「食べる」に対して agt に当たる対象 (健) を奈緒美で置換したものが比較の基準であることを意味する。
<su> <adp>健<ad opr="topic.fit.agt">は</ad></adp> <adp>奈緒美<ad opr="sim-agt">ぐらい</ad></adp> 食べる。 </su>
cmp を用いる場合でも、比較演算子の補語における省略がありうる。 たとえば、「健は奈緒美よりは大きな家に住んでいる」において、 健が住んでいる家が比較の対象、奈緒美が住んでいる家が比較の基準と考え、 前者が後者より大きいというのが文全体の意味だと解釈することができる。 奈緒美が住んでいる家は「奈緒美は家に住んでいる」の中の「家」の指示対象であり、 「奈緒美は家に住んでいる」という表現は、「健は奈緒美より大きな家に住んでいる」から「奈緒美よりは大きな」を除き、「健」を「奈緒美」で置換することによって得られる。 これは次のようなアノテーションで表わされる。
<su id="s0"> <persnamep id="K">健</persnamep>は <adp sb="nil"> <vp cp="s0"><persnamep sb="K">奈緒美<persnamep></vp> <ad opr="cmp">より</ad>は 大きな </adp> 家に住んでいる </su>この文は、「健が大きな家に住んでいる」の「大きな」(比較の対象) を「奈緒美が大きな家に住んでいる」の「大きな」(比較の基準) と比べて、前者の程度が後者のそれよりはなはだしい (more than) という意味に解釈することもできる。 この解釈は mot を用いた以下のようなアノテーションで表わされる。
<su id="s0"> <persnamep id="K">健</persnamep>は <adp sb="nil"> <vp cp="s0"><persnamep sb="K">奈緒美<persnamep></vp> <ad opr="mot">より</ad>は </adp> 大きな家に住んでいる </su>下の例は、「健が馬鹿だ」(比較の対象) を「奈緒美が馬鹿だ」 (比較の基準) と比較して両者が同程度でないことを意味する。
<su syn="f"> <adp><persnamep id="K">健</persnamep><ad opr="topic">は</ad></adp> <adp syn="f"> <adp cp="X"><persnamep sb="K">奈緒美</persnamep></adp> <fo opr="sim">ほどに</fo> <ad opr="topic.dwn">は</ad> </adp> <adp aen="K" id="X">馬鹿じゃ</adp> <v>ない</v>。 </su>
syn によって表わせない構成を持つ語句は、 ある種の複合語の他、3 章の <date> から <addrp> までに該当する名詞 (句) である。
なお、句読点や括弧などの区切り記号、空白、改行などは単独ではエレメントにならず、語句に係ったり語句を受けたりできない。 段落の初めの空白は段落 (<p> エレメント) に含めるが、段落の中のエレメントには含めない。
エレメントになり、係り受けなどの統語的関係に関われる区切り記号は、「すなわち」の意味のコロン (:) など、単独で意味を持つものだけとする。 句点 (。や.) はその前の文に含める。
対応する開き括弧と閉じ括弧の一方だけがひとつのエレメントに含まれてはならない。 たとえば、<np>「侵攻</np>」 や 左 (<np>または右)</np> は間違いであり、正しくは下のようにする。
<np>「侵攻」</np>
左 (<np>または右</np>)
左 <np>(または右)</np><q> などのタグまたは dtp="sc"、dtp="mt" などの属性や eq、ela、sum、eg などの関係子を持つエレメントは、対応する開き括弧と閉じ括弧を以下のように両端に含むようにする。
<np dtp="sc">「侵攻」</np>を始めた
GDA <name opr="eq">(Global Document Annotation)</name>
関係子は、sem および opr 属性の値となる。
sem 属性の値は 1 個以上の概念識別子の列であり、
opr 属性の値は 1 個以上の関係子の列である。
また、関係子はそのまま IDREFS 属性としても用いられる。
これを *関係属性 (relational attribute) と言う。
関係属性の値は何らかのエレメントの id の値である。
それぞれの場合の関係子の第 1 項と第 2 項は、下の表に示す語句の指示対象である。
|
関係子が opr の値として使われている例を下に示す。
車<ad opr="obj">を</ad>買う
うちの子<ad opr="agt">は</ad>帰った第 1 の例の obj の第 1 項は、「を」の最大投射「車を」の係り先である「買う」の指示対象であり、第 2 項は、「を」の隣接項である「車」の指示対象である。 つまり、「車を買う」が表わす事象において、「車」の指示対象が被動作対象であることが示されている。 同様に、第 2 の例の agt の第 1 項は、「は」の最大投射「うちの子は」の係り先である「帰った」の指示対象であり、第 2 項は、「は」の隣接項である「うちの子」の指示対象である。 行為の主体という意味は「は」からではなく文脈から導かれると考えるのが普通だが、 「は」に opr="agt" を持たせることによって上の表に示した仕様が満たされ、agt の第 2 項が「うちの子」の指示対象であることが明示できる。
<adp opr="obj">車を</adp>買う
<adp opr="agt">うちの子は</adp>帰ったこれらは上の例と同じ意味を示す。 これら 2 つの例においては、関係子の第 2 項は opr 属性を持つエレメントの中の隣接項の指示対象である。 sem と opr を用いたアノテーションのうち、sem を用いた方が、 関係子 obj や agt の第 2 項が「車」や「うちの子」の指示対象であることを明示しているので望ましい。
sem および opr の値は、 そのエレメントの子のプレインテキストによって担われていなければならない。 たとえば
<np opr="obj">車</np>持ってる?
<np opr="tim">昨日</np>来た
<adp opr="agt">花子が</adp>帰ったは 3 つとも正しいアノテーションだが、下記は「が」がエレメントになっていて agt の意味を持つので誤りである。
<adp opr="agt">花子<ad>が</ad></adp>帰った下のアノテーションは正しい。
<adp>花子<ad opr="agt">が</ad></adp>帰った
あるエレメントとその主辞の関係子は等しい。 たとえば下の例では、「そんなこと」とその主辞「こと」の関係子は、いずれも「こと」の opr の値である obj となる。
そんな<n opr="obj">こと<n>言うな
原則として、文内の各依存関係の係り側には関係子を (sem または opr の値として) 付ける。 ただし、繋辞以外の語の隣接項と副詞には付けない。 繋辞の主語の関係子は aen とする。 繋辞の隣接項には、繋辞の主語 (繋辞に対して aen の関係にあるもの) の指示対象を第 1 項とする関係子を opr の値として付ける。 引用の助詞の「と」や終助詞の「か」が繋辞を含むと考えられる場合には、 それらの隣接項は繋辞の隣接項と同様に扱う。
花子<ad opr="aen">が</ad>太郎の<np opr="eq">母親</np>だ
<np opr="aen">君</np>、<np opr="in">学生</np>か
あの子<ad opr="aen">は</ad>きれいな<n opr="spx.sub">目</n>ですね(spx.sub のような複合的な関係子に関しては後記参照。) また、関係節の係り先の名詞の関係節における役割を関係属性によって明示しない場合は、関係節 (の主辞) に opr="mod" を付ける。
関係属性としての関係子の用例を下に示す。
<su><persname id="K">健</persname>は<n arg="K">母</n>が嫌いだ。</su>
<su gol="p2">あげる</su>
<su><placenamep id="T">東京</placenamep>は <aj><v gol="T">行っ</v>てもしょうがない</aj>。</su>
<vp obj="mcn">成功</vp>しても<adp>誰も</adp>喜ばない<n>計画</n>第 1 の例では、「あげる」という行為の受益者が聞き手 (p2) になる。 第 2 の例は、行くという行為の到達点が東京だという意味になる。
関係子 eq、sub、sup、met の第 1 項と第 2 項は、上の表に示した 2 つの語句の指示対象そのものである。 その他の関係子の 2 つの項は、それら 2 個の指示対象と eq、sub、sup または met によって関係付けられる 2 つの事物である。
たとえば下の例の「シェークスピア」は、「読む」の目的語としては作家本人ではなくその著書を表わしている。 つまり obj は、読む行為から見てシェークスピアの著書が何であるかを表わしている。
シェークスピア<ad opr="obj">を</ad>読むここで、シェークスピアとその著書との間の関係は met (metonymy) によって捉えることができる。 上のアノテーションではこのことが明示されていないが、それを明示すると下のようになる (ただし、人間とその著書という関係だということまではもちろん明示していない)。
シェークスピア<ad opr="obj.met">を</ad>読む次の例の「健の母校」は、「甲子園に近い」の主語としては物理的な対象を表わし、「甲子園に出た」の主語としては組織の一部である野球部を表わす。 2 番目の「甲子園」は施設ではなくそこで催される行事を表わす。 met はこれら 2 つの「甲子園」の関係を示す。
<su> <adp id="B" opr="uba">健の母校は</adp> <np id="K">甲子園</np>に<aj obj="B">近い</aj>のに <np met="K">甲子園</np>に<v sbj="B">出</v>たことがない </su>前の例と同様にもっと明示的にアノテーションすると下のようになる。
<su> <adp id="B" opr="uba">健の母校は</adp> <np id="K">甲子園</np>に<aj obj.met="B">近い</aj>のに <np met="K">甲子園</np>に<v sbj.sit="B">出</v>たことがない </su>ここで、野球部と母校との関係を表わすのに sit を用いている点にも注意。 また、
<su sce="KN"><np syn="c" id="KN">健と奈緒美</np><ad opr="sbj">が</ad>逃げた</su>の sbj は、
<su sce="S"><np id="S">顧客約20,000人</np><ad opr="gol">に</ad>メールを送る</su>の gol は、約20,000人の顧客のそれぞれ s について、 s にメールを送るという事象において s が受領者であることを表わす。
たとえば、「健が飼った犬を奈緒美も飼った」は下のようにアノテーションできる。
<su> <adp opr="obj"> 健が<v obj="mcn">飼っ</v>た</n>犬</n>を </adp> 奈緒美も飼った </su>これは二通りの読みを含む。 それらの読みをそれを明示するアノテーションとともに下に示す。
<su> 健が<v obj.eq="mcn">飼っ</v>た<n>犬</n><ad opr="obj.eq">を</ad> 奈緒美も飼った </su>
<su> 健が<v obj.in="mcn">飼っ</v>た<n>犬</n><ad opr="obj.in">を</ad> 奈緒美も飼った </su>
後に列挙する *基本的な関係子から 2 通りの演算によって*複合的な関係子が合成できる。 すなわち、A と B が関係子のとき、A.B および A-B も関係子となる。
x A.B z (x と z の間に関係 A.B が成り立つ) ということは、x A y かつ y B z が成り立つような y が存在するということである。
昼<ad opr="tmx.fin">まで</ad>寝る
魚を頭<ad opr="obj.int">から</ad>食べる
<np opr="tmx.msr">1時間</np>寝る
<np opr="spx.msr">2km</np>泳ぐ「魚を頭から食べる」の場合は、「食べる」から見て obj の関係にあるものが「魚」であり、その int が「頭」となる。 事象の終了時刻は tim.fin ではなく fin で表わす。 tim は tmx.sup と等価なので、 tim.fin は tmx.sup.fin と等価となり、事象の終了時刻よりも後になってしまう。
a-b は a.b とほぼ同じ意味だが、- は関係子 a の第 1 項のコピーを表わす。 たとえば、「健は奈緒美より背が高い」における比較の基準は「奈緒美は背が高い」の表わす事象だが、「奈緒美は背が高い」は、「健は背が高い」(cmp の第 1 項) の「健は」を「奈緒美は」で置き換えることによって得られる。 そこで「健は奈緒美より背が高い」の「より」は opr="cmp-uba" とする (「健は」が opr="uba" を持つか「は」が opr="uba" を持つとする)。 cmp-uba は、uba に対応する「健は」の指示対象を cmp-uba の第 2 項で置換したコピーが cmp の第 2 項 (比較の基準) を作ることを示す。 また、「太郎は宏を尊敬しているより健を尊敬している」という意味での「太郎は宏より健を尊敬している」における「を」の意味を obj とすると、「より」の意味は cmp-obj である。 同様に、「太郎は宏に似ているより健に似ている」という意味での「太郎は宏より健に似ている」における「に」の意味を cmp とすると、「より」の意味は cmp-cmp となる。
演算子 - は、cmp (比較の基準)、pre (先行)、pst (後続) などの比較の意味を含む関係子と rpl (代替) の右側に付く。
健は浩<ad opr="cmp-sbj">より</ad>太郎を気に入っている。= 浩が太郎を気に入っているより健は太郎を気に入っている。
健は浩<fo opr="pst-sbj">より前に</fo>太郎を見付けた。= 浩が太郎を見付ける前に健は太郎を見付けた。
健は浩<fo opr="rpl-sbj">の代わりに</fo>太郎を見付けた。= 浩が太郎を見付ける代わりに健が太郎を見付けた。
また、複数個の関係子をを空白で区切って並べた列は関係子 (の表わす 2 項関係) の共通集合 (である 2 項関係) を表わす。 以下の例では、とかすという事象において舌が場所でも手段でもあることを示す。
飴を舌<ad opr="loc mns">で</ad>とかす
topic (主題)、only (限定) など、 2 つの作用域を持つ関係子を作用域関係子と呼ぶ。 2 つの作用域を前件 (antecedent) と後件 (consequent)と言う。 前件は作用域関係子の第 2 項を含み、後件は第 1 項を含む。 下の例において、topic の前件は太郎が行為者であること、 後件は働いたということである。 作用域関係子の直後に fit、dwn、または dwn2 がある場合は、その作用域関係子の第 2 項はその fit、dwn、または dwn2 の第 2 項に等しい。
<su><adp opr="topic.dwn.agt">太郎は</adp><vp>働い</vp><v>た</v></su>次節では作用域関係子には (SR) を付して示す。
以下に基本的な関係子を何種かに分類して列挙する。
文法機能
文法機能と主辞の辞書項目から具体的な意味関係を特定できる場合には文法機能を用いることができる。
私<ad opr="arg">の</ad>弟
部屋<ad opr="arg">の</ad>中
<np syn="c" opr="arg">右と左</np>どちら
会社<ad opr="arg">の</ad>総務部
<aj sbj="p2">うれしい</aj>か
<np opr="sbj">私</np>、帰る
太郎<ad opr="sbj">が</ad>頭を殴られた
波<ad opr="sbj">が</ad>岩を削る
石<ad opr="obj">を</ad>蹴る
<np><np opr="obj">面</np>食い</np>
ドア<ad opr="obj">が</ad>開く
健<ad opr="obj">が</ad>ころぶ
私<ad opr="exp">は</ad>オムレツ<ad opr="obj">が</ad>嫌いだ
車<ad opr="obj">が</ad>停まっている
誰<ad opr="iob">に</ad>言ったの?
私<ad opr="iob">は</ad>娘<ad opr="obj">が</ad>ある
先生<ad opr="ctl.agt">に</ad>叱られる
太郎<ad opr="ctl.agt">に</ad>行かせる
妻<ad opr="ctl.obj">を</ad>死なせる
妻<ad opr="ctl.sbj">に</ad>死なせる
太郎<ad opr="ctl.obj">が</ad>先生に叱られる
昔のこと<ad opr="ctl.obj">が</ad>偲ばれる
奈緒美<ad opr="ctl.iob">が</ad>金を渡される
<vp obj="mcn" opr="nr">宏がナンパした</vp><n>その女の子</n>
<vp opr="nr">あらゆる物語の原型である</vp><n>貴種流離譚</n>
<adp id="K" opr="uba.src">健からは</adp><aj><v plg="K">聞い</v>たことがない</aj>
<adp id="K">健<ad opr="src">から</ad></adp><ad opr="topic">は</ad> <aj><v eq="K">聞い</v>たことがない</aj>
<su><adp opr="topic.fit.aen">太郎は</adp><adp>とても</adp><aj>偉い</aj></su>
<su> <adp><np opr="aen">太郎</np><ad opr="topic.fit">は</ad></adp> <adp>とても</adp><aj>偉い</aj> </su>下記では aen の第 1 項が topic の第 2 項となるので間違い。
<su> <adp><np opr="fit.aen">太郎</np><ad opr="topic">は</ad></adp> <adp>とても</adp><aj>偉い</aj> </su>
<su> <adp opr="topic.dwn.agt">太郎は</adp> <vp>働い</vp><v>た</v> </su>ここで「た」は「働い」を隣接統率している。 また、「太郎はよく働く」において、「働く」は「よく」を隣接統率しており、 「太郎は」を隣接しているが、隣接統率していない。
<su> <adp opr="topic.dwn2.agt">太郎は</adp> <adp><v>働い</v><ad>て</ad></adp> <v>いる</v> </su>
<su> <adp opr="topic.dwn3.agt">太郎は</adp> <vp><v>働い</v><ad>て</ad><v>い</v></vp> <v>ない</v> </su>
<adp id="adp1">ゆっくり</adp><v>歩き</v>ながら<v ppa="adp1">話す</v>
太郎<ad opr="agt">が</adp>来た
健<ad opr="agt">が</ad>わざところぶ
健<ad opr="agt">が</ad>決心する
花火<ad opr="cap">が</ad>夜空を彩る
黄金<ad opr="cap">が</ad>文明を彩る
事件<ad opr="cap">が</ad>問題を示唆する
足<ad opr="aen">が</ad>長い
太郎<ad opr="aen">が</ad>悪い
太郎<ad opr="aen">が</ad><np>学生</np>だ
太郎<ad opr="agt.rpt">と</ad>喧嘩する
水<ad opr="obj.rpt">と</ad>混ぜる
太郎と花子<ad opr="agt.rcp">が</ad>結婚する
水とアルコール<ad opr="obj.rcp">を</ad>混ぜる
双方<ad opr="obj.rcp">の</ad>バランス
健<ad opr="src">から</ad>聞く
本部<fo opr="src">からの</fo>使者
東京<ad opr="src">から</ad>来る
誰<ad opr="src">に</ad>もらったの
<np opr="src">全国</np>世論調査
東京<ad opr="gol">に</ad>着く
健<ad opr="gol">に</ad>やる
太郎<ad opr="gol">に</ad>話す
ゴミ<ad opr="gol">に</ad>なる
茶<ad opr="res">を</ad>沸かす
家<ad opr="res">を</ad>建てる
米<ad opr="mat">で</ad>作る
石<ad opr="mat">で<adp opr="res">家を</adp>建てる
木<ad opr="mat">の</ad>箱
粘土<ad opr="mat">で</ad>作る
麦<ad opr="mat">から</ad>できた
5人<ad opr="mat">で</ad>構成する委員会
彼<fo opr="ben">のために</fo>君<fo opr="gol">に</fo>教える
家族<fo opr="ben">のために</fo>働く
私<fo opr="exp">には</fo>そう思われる。
私<ad opr="exp">は</ad>それ<ad opr="obj">が</ad>嬉しい
子供<ad opr="obj">が</ad><aj exp="mcn">好きな</aj>おじさん
太郎<ad opr="exp">に</ad>できる
犯人<ad opr="exp">が</adp>通行人<ad opr="ctl.exp">に</ad>顔を見られた
太郎<ad opr="exp">が</ad>頭を殴られたただし下記に注意。
犯人<ad opr="ctl.obj">が</adp>通行人<ad opr="ctl.exp">に</ad><vp>見ら</vp>れた
太郎<ad opr="ctl.obj">が</ad><vp>殴ら</vp>れた
君<ad opr="agt.jnt">と</ad>行く
健は浩<fo opr="obj.jnt">とともに</fo>太郎をいじめた= 健は浩をいじめ、太郎をもいじめた
健<fo opr="iob.jnt">とともに</fo>奈緒美に言う= 健に言うとともに奈緒美に言う
私<ad opr="pos">の</ad>車
<ss syn="b"><su>健がいない。</su><su opr="ela">逃げたんだ。</su></ss>
メルセデス<fo opr="eg">のような</fo><n>高級車</n>
旅行<ad opr="cnt">の</ad>計画
投票<ad opr="cnt">を</ad>求める
面白い<ad opr="cnt">と</ad>思う
<np opr="cnt">破壊</np>活動
太郎<fo opr="cnt">という</fo>名前形容詞と形容動詞の連用形はほとんどの場合 opr="mod" を持つが、 opr="cnt" を持つこともある。 たとえば「愛しく思う」の「愛しく」や「かわいそうに感じる」の「かわいそうに」は opr="cnt" を持つ (「に」が opr="cnt" を持つ)。
思う<ad opr="tnc">に</ad>これは間違いだろう
<ss><su opr="cau">健が来た。</su><su>奈緒美は驚いた。</su></ss>
眠かった<ad opr="cau">ので</ad>家に帰った
癌<ad opr="cau">で</ad>死ぬ
何<ad opr="cau">を</ad>さわいでるの
彼女に会い<ad opr="pur">に</ad>行った
<su>健が来<ad opr="cnd">たら</ad>奈緒美も来る。</su>
<ss><su opr="cnc">健が来た。</su><su>奈緒美は驚かなかった。</su></ss>
雨<fo opr="cnc">にも関わらず</fo>出かける
<ss syn="b"><su>健が来た。</su> <su opr="cntrst">しかし、浩は来なかった。</su></ss>
<persnamep id="T">太郎</persnamep>は<n sub="T">家族</n>で旅行したことを忘れている。
<np id="ie">家<np>に帰ると<np sup="ie">ドア</np>が開いていた。
会議<fo opr="tmx.eq">の間中</fo>寝ていたcf.
会議<fo opr="tim">中に</fo>寝た
1958年<ad opr="tim">に</ad>生まれた
健が来<fo opr="pre">てから</fo>奈緒美が来た
健<fo opr="pst-agt">の前に</fo>奈緒美が来た
テレビを見<ad opr="coc">ながら</ad>勉強する
断層は2キロメートル<ad opr="spx">に</ad>わたる
東京<ad opr="loc">に</ad>住む
棒<ad opr="ilc">に</ad>巻き付ける
前髪が額<ad opr="ilc">に</ad>掛かる
真中<ad opr="ilc">で</ad>切る
窓<ad opr="via">から</ad>出る
穴<ad opr="via">を</ad>くぐる
山道<ad opr="via">を</ad>登る
橋<ad opr="via">を</ad>渡る
北<ad opr="dir">へ</ad>歩く
上<ad opr="dir">を</ad>向く
敵<ad opr="opp">から</ad>身を守る
親<ad opr="opp">から</ad>離れる
戦災<ad opr="opp">を</ad>免れる
<np>成田<fo opr="spx.int">からの</fo>航路</np>
<vp>初め<ad opr="tmx.int">から</ad>いる</vp>
<vp>朝<ad opr="tmx.fin">まで</ad>飲む</vp>
<vp>骨<ad opr="obj.fin">まで</ad>しゃぶる</vp>
<n>駅</n><ad opr="tmx.int">から</ad><period value="PT10M">10分</period> <ad opr="loc.nif">の</ad><n>所</n>
肝心なところ<ad opr="sit">で</ad>しくじる
前半<ad opr="sit">を</ad>リードする
<np opr="sit">大学</np>病院
犬は<np opr="in">動物</np>だ
彼の作品<fo opr="obj.in">には</fo>「ゲルニカ」がある。
これは<np opr="in">酒</np>だ
五年生<ad opr="in">の</ad>女の子
上司<ad opr="in">の</adp>兄最後の 2 つの例は「五年生である女の子」と「上司である兄」という意味。
<np id="taro">太郎</np>は<vp sbj="taro" obj="mcn">可愛がっている</vp> <n id="pet">ペット</n>を散歩に連れ出した。 白い<n eq="pet">ポメラニアン</n>は優しい<n eq="taro">飼い主</n>に従った。
<np>魂<np lang="deu" opr="eq">(Geist)</np></np>
兄<ad opr="eq">の</ad>太郎
<n syn="c">東京<io opr="and">と</io>大阪</n>に行く
<n syn="c">東京<io opr="or">か</io>大阪</n>に行く
<ss><su>駆け込み乗車はやめろ。</su><su opr="or">ドアにはさまれるぞ。</su></ss>
<n syn="c">服従<io opr="xor">か</io>反乱</n>を選ぶ
本<ad opr="obj">を</ad><np opr="loc">手</np><ad opr="ccm">に</ad>出かける
失敗<ad opr="obj">を</ad><np opr="eq">教訓</np><fo opr="ccm">として</fo>がんばる
一番<aj aen.eq="mcn">高い</aj>ハムサンドイッチ<ad opr="agt.met">は</ad>もう帰った他の具体的な関係で表わせる場合はそうする。 たとえば、全体部分関係は sub と sup で、所有関係は pos で表わせるのでそのような場合は met を使わない。
<adp opr="cmp-agt">浩より</adp>たくさん食べた
<adp opr="cmp">浩と</adp>違う
前日までの雨が嘘<fo opr="sim">のように</fo>晴れた
法律<fo opr="bas">に従って</fo>裁く
数値<fo opr="bas">で</fo>評価するく
この帽子は僕<fo opr="cev">にとっては</fo>大きい
太郎<fo opr="cev">には</fo>過ぎた女房
この道はバス<fo opr="cev">には</fo>狭すぎる
先生<ad opr="cev">に</ad>失礼だ
「健が〜と言った」の「健が」に opr="who" を付けるのは間違い。 正しくは以下のように使う。
<su><np opr="who">(健)</np> <q><su><n eq="p1">僕</n>はいやだ。</su></q></su>
<q who="KEN"><su><n eq="p1">僕</n>はいやだ。</su></q>
警察<fo opr="who">によれば</fo>犯人は逃走中だ
上位の文脈を指す (たとえば値が top である) 場合、そのレベルの話者 (top の場合には文書全体の著者) による補注であることを表わす。
<q>「<su><adp who="top">(計画は)</adp>中止だ。</su>」</q>
<q>「<su>そ<su who="top">(笑い)</su>れは面白いね。</su>」</q>
<adp opr="mns">草を食べて</adp>生き延びる
<adp opr="mns">車で</adp>通勤する
<vp mns="mcn">頭が良くなる</vp>薬
<np opr="msr">2キログラム</np>重い
<adp opr="sbj">男が</adp><np opr="agt.msr">3人</np>家を建てた
<adp opr="msr"><np><np>ジョッキ</np>2杯</np>の</adp>ビール
<np><adp opr="msr">一部の</adp>学生</np>
<n opr="mob">学生<n><n>3人</n><ad opr="agt">が</ad>来た
<n opr="mob">自宅</n><n>30坪</n>が全焼した
嫁<ad opr="ql">に</ad>もらう
健は父親<ad opr="agt.ql">として</ad>浩を心配している。= 健は浩の父親であり、それに応じて浩を心配している。
公害都市<fo opr="ql">として</fo>世界一
社会間題<fo opr="sbm">について</fo>議論する
タオルの<n opr="sbm">生産高</n>世界一
<np><n opr="mob">研修生</n>一人<fo opr="uni">当たりの</fo>自己資金
雨が降る<fo opr="rpl">代わりに</fo>風が吹く
太郎<fo opr="rpl-agt">の代わりに</fo>行く
マイヨール<ad opr="mkr">の</ad>彫刻
<np> <name>「失われた時を求めて」</name> <persnamep opr="mkr">(プルースト)</persnamep> </np>
東京<ad opr="adr">の</ad>山本さん
<np> <persname>木田伸雄<persname> (<addrp opr="adr">千葉県松戸市</addrp>; <nump opr="age">38</num>) </np>
三つ<ad opr="age">の</ad>子
「とても楽しいですよ」<ad opr="utr">と</ad>笑顔を見せた
<np> <persname>金正日</persname> <persnamep opr="pron">(キムジョンイル)</persnamep> </np>
犬<ad opr="otr">の</ad>鎖
太郎<ad opr="topic">は</ad>来た。
太郎<ad opr="even">まで</ad>来た。
以下の関係子は他の発話に対する応答 (backward-looking function) であるような発語内行為を表わす。
照応 (anaphora) とは、照応詞 (anaphor) の指示対象が文脈中の他の語句 (先行詞) 等に媒介されて定まることである。 照応詞には、「これ」や「そう」や「あの人」等の代用表現や定記述 (definite description) がある。 「私」や「昨日」、および目前の人を指して発話された「この人」など、非言語的な文脈によって指示対象が定まる場合 (直示; deixis) もある。 共参照 (coreference) とは、複数個の語句が同一の指示対象を持つことである。 以下では、特に断らない限り、共参照は形のある (省略でない) 語句の間の共参照とする。 照応と共参照には重なりがある。 つまり、照応でもあり共参照でもあるような場合がある。
照応と共参照は、関係属性 で他のエレメントを参照する (そのエレメントの id 属性の値を関係属性の値とする) ことによって明示する。 照応は、照応詞のエレメントの関係属性で先行詞を参照することによって明示する。 後述のように照応詞が先行詞より先に現われること (後方照応) もある。
共参照は、照応であるか否かによらず、関係属性 eq によって明示する。
<persnamep id="K">健</persnamep>は<np eq="K">自分</np>が好きだ。
<persnamep id="ken">健</persnamep>は<np eq="ken">彼</np>の母親が嫌いだ。
<np eq="K">自分</np>が優秀であることを<persnamep id="K">健</persnamep>は知らない。
<su id="G">金をくれ。</su> 話は<np eq="G">それ</np>からだ。
<np id="C">車</np>が止まった。<adp eq="C">その</adp>ドアが開いた。
<np id="X">ある人</np>に助けてもらったので<np eq="X">その人</np>に会ってお礼を言いたい。上の例は照応でもあるような共参照である。 第 3 の例において、「自分」が「健」に先行するが、「自分」の指示対象は「健」を介して定まるという意味で「自分」の先行詞は「健」であるから、「健」の id 属値の値を「自分」の eq 属性で参照してある。 第 4 の例の「その」は代名詞ではなく連体詞であるが「車」と共参照することに注意。
これに対し、下の共参照の例は、いずれの「健」も他の語句を介することなく健を指しているので、照応ではない。
<persnamep id="ken">健</persnamep>は<np eq="ken">健</np>の母親が嫌いだ。
ゼロ照応 (省略) は eq 以外の関係属性を用いて下のようにアノテーションする。
<np id="K">健</persnamep>が来た。<vp agt="K">笑っ</vp>ていた。
<adp><np id="B">本</np>を買っても</adp><v obj="B">読ま</v>ない。
<np id="papa" arg="naomi">父親</np>が<persnamep id="naomi">奈緒美</persnamep>を訪ねた。 プレゼントを<v agt="papa" gol="naomi">渡し</v>た。最後の例の第 1 文は「奈緒美の父親が奈緒美を訪ねた」という意味で、第 2 文は「奈緒美の父親が奈緒美にプレゼントを渡した」という意味になる。
下のように名詞や接続詞や副詞もゼロ照応を含むことがあるので注意を要する。
<np id="C">車</np>が止まった。<np arg="C">ドア</np>が開いた。
<np id="T">太郎</np>が<np arg="T">家族</np>と旅行に行く。
<np id="M">会合</np>を予定しているので <np arg="M">事前</np>に<np gol="M">参加</np>を呼びかける。
本校には<np id="ST">500人の生徒</np>がいるが、今日は<np mob="ST">20%</np>が欠席した。
<su id="S1">今日は天気が良い。</su> <adp arg="S1">だから</adp>外で遊ぼう。
<su id="S">天気は良いですか?</su> <su arg="S">はい。</su>以下のように接続詞が明示されていない場合もゼロ照応の一種として扱う。
<su id="W">今日は天気が良い。</su> <su cau="W">外で遊ぼう。</su>
<su id="S2"><np id="W">天気</np>はどう?</su> <su rp="S2"><ajp aen="W">いい</ajp>よ。</su>
照応と共参照のうち、アノテーションによって明示すべきものは、統語構造によって捉えられていない関係である。 たとえば「健は自分が好きだ」においては、統語構造 (この場合は依存関係) が唯一に決まっても「自分」が「健」と共参照する場合としない (典型的には「自分」が話者を指す) 場合とがある。 つまり、「健」と「自分」の共参照関係は、統語構造によっては捉えられないので、上記のように明示する。 また、「車が止まった。そのドアが開いた。」では「車」と「その」とは別の文に属しており、両者の間に統語的な関係はないので、これの共参照関係が成立するならば前記のようにそれを明示することが望ましい。 「健が来た。笑っていた。」でも同様である。 「本を買っても読まない」において「本を」が「買っ」に係るとすれば、読むという行為の対象は統語的には示されていないので、上記のようにゼロ照応として明示することが望ましい。
これに対し、「このクラスの委員長は健だ」という文において、 「このクラスの委員長」と「健」との間の共参照関係は、この文によって捉えられているので、アノテーションによって明示すべきものではない。 下のように syn="a" によって同格であることが明示されている場合も、共参照のアノテーションを付加しない。
<np syn="a"><np>ここ</np><placenamep>東京</placenamep></np>
3 つの事物 (A、B、C とする) のうちA と B、B と C がそれぞれ直接関係付けられているとき、それらの関係から導かれる A と C の間の関係は明示しない。 たとえば下の例では、「健」と「家族」の間の関係は、「健」と「自分」、「自分」 と「家族」の関係から導かれるので、「健」と「家族」を関係属性で直接結び付ける必要はない。
<persnamep id="K">健</persnamep>は<np eq="K">自分</np>の家族と旅行に行く。
同一のものが複数回参照される場合は、それを明示するために id 属性がひとつ必要になる。 下の例で、複数回参照される同一のものは、君が買った車と僕が買った車に共通の車種であるので、それに id 値を与えれば良い。
君は<np id="c1">車</np>を買った。僕も<np eq="c1">その車</np>を買った。これは、君が買った車と僕が買った車は同じ車種だが別の車だという解釈を表わす。
関係属性の値である id 値はその id 属性を持つエレメントの指示対象を表わすので、 id 属性の値による参照は、参照されるエレメントの関係属性と sem 属性を含む。 たとえば、下の例の 2 番目の「顔」の eq="face" は arg="X" を含めて 1 番目の「顔」を参照する。 したがって 2 番目の「顔」に arg="X" を付ける必要はない。
<n arg="X" id="face">顔</n>知ってる? いや、<n eq="face">顔</n>はわからない。
アノテーションの目的が意味構造を得ることだけならば、先行する語句と同じ意味構造を持ち指示対象の等しい語句は、内部をアノテーションする必要がない。 全体を 1 個のエレメントとして eq 属性によって前者と結べばよい。 たとえば下の例で「自民自由連立政権」の「自民」をエレメントにして eq="LDP" を付けたりする必要はない。
<np id="adm"><orgnamep id="LDP">自民党</orgnamep>と <orgnamep id="LP">自由党</orgnamep>の連立政権</np>ができた。 しかし、<np eq="adm">この自民自由連立政権</np>は長続きしないだろう。
各エレメントは、そのエレメントの投射 (それを主辞とする語句) よりも抽象的な事物を表わす。 たとえば、下の例の X よりも Y の方が抽象的な事物を表わす。 つまり、X が太郎が持つ特定の 1 台の車またはその車種を、Y は車一般などを表わす。
<n id="X">太郎の<n id="Y">車</n></n>下の例では「1〜3月期」は2001年の1〜3月期ではなく、 年を限定しない1〜3月期一般を指し、「同期」はこれと共参照する。
2001年の<period id="Jan2Mar">1〜3月期</period>の売り上げは10億円だったが、 2002年の<period eq="Jan2Mar">同期</period>には12億円になった。
あるエレメントが他のエレメントをただひとつの子とするとき、 前者は後者の投射であると考える。 したがって、下記の A より B の方が抽象的な事物を表わす。 たとえば A が特定の 1 台の高い車、B が高い車のクラスを表わす場合等がありうる。
<np id="A"><np id="B">高い車</np></np>
複数個のエレメントの指示対象をまとめて参照するには、それらのエレメントの id 属性の値を空白で区切って連ねたものを関係属性の値として用いる。
<np id="f">父</np>が<np id="m">母</np>を連れ出した。 <vp agt="f m">映画でも見に行っ</vp>たのだろう。 <np eq="f m">ふたり</np>で出かけるのは久しぶりだし。
今日、山田電機は<np id="Y5000">5000円</np>を付けるだろう。 昨日の終わり値は<np id="Y4000">4000円</np>だったから、 <np arg="Y5000 Y4000">差額</np>の1000円で諸かりそうだ。
空エレメントはなるべく使わないことが望ましいが、下のように複数個の id 値が必要な場合には使わざるを得ない。
健は<np id="car">あの車</np>を買った。
奈緒美も<np opr="obj" id="car1" in="car"/>買った。
でもすぐに<v obj="car1">壊れ</v>てしまった。
しかしよく<v obj="car">売れ</v>ているらしい。
また、下の 3 番目の文は「バクは鼻が長く耳が大きいわけではない」の意味である。
<su id="long">
<np id="z">象</np>は
<np id="N" arg="z">鼻</np>が
長い。
</su>
<su id="big"><np id="E" arg="z">耳</np>も大きい。</su>
<su>
<np id="b">バク</np>は
<aj cp="long big" sloppy="N E"><np eq="b" sb="z"/>そう</aj>でもない。
</su>
上の「そう」の意味は 1 番目の文のタイプと
2 番目の文のタイプの集合積 (「鼻が長く耳が大きい」の意) である。
下の例では、6 年連続で 10,000 人を越えたのは一年の死者だが、それは「昨年の死者」で「昨年の」を抽象化することによって得られる。
<su><np id="X"><adp id="Y">昨年の</adp>死者</np>は10,000人。</su> <su><np cp="X"><np sb="Y"/></np>6年連続で10,000を越えた。</su>下の第 2 文では、ばれていた内容は「君はなぜ帰った」ことではなく「君が帰った」ことである。
「<su>君はなぜ<v id="X" agt="p2">帰った</v>?</su>」 「<su><vp opr="cnt" eq="X"/>ばれてた?</su>」
一、二人称の対象は直示指標 p1、p1p、p1i、p1x、p2、p2p で表わす。
そんなの<aj exp="p2p">嫌</aj>でしょ?
<np eq="p1">僕</np>は<np eq="p1">自分</np>を天才だと思う。
健は「<aj exp="p1">嫌</aj>だ」と言った。
先行詞が言及されていることを示すには、下のように関係属性の末尾に .mt を付ける。
<persnamep id="K">健</persnamep>は<np eq.mt="K">自分の名前</np>が嫌いだ。
発話機能を働き掛け (forward-looking function) とそれに対する応答とに分類する。 働き掛けは 1 項演算子であり、以下のものを含む。
工事中
9. 作用域
「3人の学生」などの複数表現、「健と奈緒美」などの等位構造、 「すべて」などの量化詞、希望を意味する「たい」などの様相演算子 (modal operator) は作用域 (scope) を持つ。 sce (scoping element) 属性は、そのエレメントの主辞が属する最小の作用域を持つエレメントを指す。 sce 属性を持つエレメント (の主辞) が属する最小の作用域よりもその先祖のエレメント (の主辞) が属する最小の作用域の方が大きい。
等位構造の作用域とは、それが分配 (distribute) する範囲である。 たとえば、「私は東京と京都に行った」という文は、「東京と京都」と呼ばれるひとつの場所があってそこに行ったという意味ではなく、「私は東京に行った、かつ、私は京都に行った」という意味である。 つまり「東京と京都」の作用域は文全体である (正確に言えば「私」は含まない)。 たとえば「私は東京と京都に行った」は下のようにアノテーションすればよい。
<su sce="TK"> <adp>私は</adp> <adp><np id="TK" syn="c">東京と京都</np>に</adp> 行った </su> <su> <adp>私は</adp> <adp><np id="TK" syn="c">東京と京都</np>に</adp> <v sce="TK">行っ</v>た </su>「私は東京か京都に行った」も「私は東京に行った、または、私は京都に行った」という意味であり、「東京か京都」の作用域も文全体である。
sce は「それぞれ」や「みな」などの量化表現を指してもよいが、量化表現は関係子によって指されることがないので、量化表現以外のものを指した方が良い。
<su sce="KN"> <np syn="c" id="KN">健と奈緒美</np>が <adp opr="sbj.msr">それぞれ</adp> <adp>意見を</adp> 述べた。 </su>
係り先に対して作用域を持たない集合的 (collective) な等位構造や複数表現は sce="self" で示す。 たとえば「東京と京都は違う」は、「東京は (何かと) 違う、かつ、京都は (何かと) 違う」の他に、「東京と京都は互いに違う」という読みを持つが、後者の読みは下のようにアノテーションすればよい。
<su><np syn="c" sce="self">東京と京都</np>は違う。</su>
それぞれが複数個の事物からなる複数個の集合の間に要素ごとの一対一の対応関係が成り立つことを pco (parallel correspondence) 属性によって表わす。
<su sce="kn"> <np syn="c" id="kn">健と奈緒美</np>を <adp obj.rcp="mcn">別の</adp><n pco="kn">部屋</n>に 案内する。 </su>
<su sce="kn"> <np syn="c" id="kn">健と奈緒美</np>が <adp opr="agt.msr">それぞれ</adp> <adp><np syn="c" pco="kn">次郎と花子</np>を</adp> 連れて来た。 </su>2 番目の例は「健が次郎を連れて来た。奈緒美が花子を連れて来た。」または「健が花子を連れて来た。奈緒美が次郎を連れて来た。」という意味になりうるが、実用上は前者の解釈を採る。
工事中
10. 語義
工事中
11. その他
工事中