言語資源データベース
GSKでは、公開されている言語資源の情報を集約し、「言語資源データベース」として公開します。
近年では、GitHub や hugging face などでコーパス・辞書・言語モデル・ツールなどが数多く公開されています。このような利用可能な言語資源の情報を網羅的に集めたデータベースは、言語処理の研究者にとって有用な情報です。GSKは、このようなデータベースを「言語資源データベース」と呼び、これを構築し、公開します。なお、言語資源データベースの構築・公開は言語資源協会と言語処理学会との共同事業です。
情報収集
主に以下の2つの方法で公開言語資源の情報を収集します。
- 言語処理学会年次大会の発表申込ページ
- 同大会にて発表する論文において、新しい言語資源を構築しそれを公開している、あるいは公開予定の場合、発表申込ページにその言語資源の情報を記入していただきます。この情報を言語資源データベースに掲載します。
- 当ホームページの入力フォーム
- 言語資源保有者の方は、GSKホームページに設置された入力フォームから、自身の言語資源の情報を言語資源データベースに登録できます。
GSKでは言語資源の情報を広く募集しています。小規模な言語資源やニッチな言語資源でも構いません。皆様からの情報提供をお待ちしています。
言語資源賞
言語資源データベースに掲載された言語資源の中から特に優れたものを選び、言語資源賞を授与します。
- 表彰の対象となるのは以下の要件を全て満たしている言語資源です。
- 言語資源データベースに掲載された言語資源
- 9月30日までに公開された言語資源(初回は2024年9月30日までに公開された言語資源)
- 過去に言語資源賞の選考対象になっていない言語資源
- 言語処理学会年次大会の発表論文もしくは雑誌「自然言語処理」に掲載された論文においてその内容が紹介されている言語資源
- 言語資源賞の受賞者は、翌年の言語処理学会年次大会のクロージングにて表彰します。(初回はNLP2025にて表彰します)
言語資源の登録
言語資源データベースに言語資源を登録したい方はこちらから入力してください。
言語資源データベース・登録フォーム