GSK2020-C 「国語研日本語ウェブコーパス」n-gram データ・頻度表

Description: 「国語研日本語ウェブコーパス」n-gramデータ・頻度表は、国立国語研究所コーパス開発センター超大規模コーパスプロジェクト(2011-2015年度)で整備された258億語規模のウェブテキストコーパス (2014年第4四半期データ) のn-gram 頻度表である。形態素解析は、MeCab-0.996 と UniDic-2.1.2による。文字 1-gram~3-gram、単語 1-gram~6-gram、形態論情報つき 1-gram からなる。

【更新履歴】
(2021.1.27)配付再開。利用中の方へは、連絡後、修正版を送付する。
(2020.12.8)データに不備が見つかったため、配付停止。

Creator: 人間文化研究機構 国立国語研究所 コーパス開発センター
Price: 会員・個人利用11,000円、会員・団体(非営利)利用22,000円、会員・団体(営利)利用44,000円。。
非会員・個人利用22,000円、非会員・団体(非営利)利用33,000円、非会員・団体(営利)利用66,000円。。
別途、送料3,300円。
Date:2020.9, 2021.1
Format:1 USB flash drive (20.36GB)
Format.encoding:UTF-8
Language:Japanese
Relation: GSK2020-D 「国語研日本語ウェブコーパス」NWJC2vec
GSK2020-E 「国語研日本語ウェブコーパス」NWJC-BERT
上記言語資源の入手にあたっては、利用申請書兼誓約書(「国語研日本語ウェブコーパス」n-gram データ・頻度表) に必要事項をご記入いただき、メール、FAX、郵便等にて、事務局までお送り下さい。 折り返し、ご請求書をお送りしますので、宛名等ご指定のある場合は申請時にお知らせください。また、利用申請書兼誓約書の記入にあたっては「会員種別と利用種別の個人・団体について」をご確認下さい。