GSK2014-A 拡張固有表現タグ付きコーパス
Description: |
「拡張固有表現タグ付きコーパス」は、 国立国語研究所『現代日本語書き言葉均衡コーパス』(BCCWJ)のコアデータ(約2,000文書)および、「CD-毎日新聞’95データ集」の新聞記事(約8,000記事)に対し、 関根の拡張固有表現階層 -7.1.0- を人手付与したコーパスである。BCCWJでは、異なり約43,000(のべ約100,000)個、新聞記事では異なり約60,000(のべ約240,000)個の固有表現にタグ付けした。
本データは付加情報のみを提供し、テキスト自体は含まれていない。本データを利用するためには、それぞれ、 『現代日本語書き言葉均衡コーパス DVD版 』(BCCWJ)Ver1以降、「CD-毎日新聞’95データ集」を別途入手する必要がある。(テキストを含む完全なコーパスを復元するプログラムが付属するが、新聞記事については、Windowsには対応していない) なお、本言語資源は、科研費特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(領域代表:前川喜久雄)の助成を受けたものである。 【更新履歴】(利用者には無料で最新版を配付する。希望者は事務局まで連絡のこと) ・2021/9/16 新聞記事のコーパスを復元するプログラムを更新した。 ・2019/6/25 いくつかのタグに表記誤りがあったため、軽微な修正を行った。 |
---|---|
Creator: | 東京工業大学 |
Price: | GSK会員限定無料配布言語資源 会員は、年度中、会員限定無料配布言語資源の利用が一件目の場合に限り無料。年度中、会員限定無料配布言語資源の利用が二件目以上にあたる会員は、5,500円(税込み、送料3,300円別)。非会員は33,000円(税・送料込み)。 |
Date: | 2015.3 |
Format: | 1 CD-R |
Format.encoding: | – |
Language: | Japanese |
利用事例: | 言語情報処理ポータルのページに移動します |