NLP2025 言語資源賞

■2025年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語資源データベースに掲載された言語資源の中から,特に優れていると認められるものに授与される賞です.言語資源データベースの公開ならびに言語資源賞の授与は言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる言語資源は,言語資源データベースに掲載され,かつ2023年10月1日から2024年9月30日までの間に公開された言語資源です.今回は42件の言語資源が対象となりました.12名の委員からなる選考委員会を組織し,一次選考と二次選考の二段階で選考を行いました.

一次選考では,各言語資源に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,作成コスト,品質などの観点から言語資源を評価し,1〜5点の総合評価点をつけました.評価の高い上位9件の言語資源を選定し,二次選考の対象言語資源としました.

二次選考では,選考委員が上記9件の全ての言語資源を精査し,言語資源賞にふさわしいと思われる3件の言語資源を選んで投票しました.ただし,選考委員がその開発に深く関わった言語資源には投票できないものとしました.投票結果ならびに選考委員による討議の結果,1件の言語資源を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦言語資源への授賞が決まりました.


■2025年 言語資源賞

●Swallow LLM
藤井一喜, 中村泰士, Mengsay Loem, 飯田大貴, 大井聖也, 服部翔, 平井翔太, 水木栄, 横田理央, 岡崎直観

Swallow LLM は日本語を主とする大規模ウェブコーパスを用いて Llama 2 に対して継続事前学習を行った大規模言語モデルです.日本語と英語が9:1の割合で構成されているおよそ1千億トークンからなるコーパスが継続事前学習に用いられています.分散並列学習によりモデルの効率的な学習を実現しました.llm-jp-eval を始めとする様々なデータセットを用いた実験では,日本国内で開発されたモデルの中で最高性能を達成し,日本語の処理能力が強化されていることが示されています.現在は後継の Llama 3 に対して継続事前学習を行ったモデルが公開されています.大規模言語モデルの事前学習は膨大な計算リソースを必要とすることから,誰もが実施できるわけではありません.日本語処理に優れた大規模言語モデルの公開は,日本の研究コミュニティ全体に大きく貢献するものであり,価値の高い言語資源であると言えます.


■言語資源賞 選考委員

橋田 浩一 (理化学研究所)
今一 修 (日立製作所)
大熊 智子 (旭化成)
柏野 和佳子 (国立国語研究所)
川田 拓也 (日本電気)
黒田 由加 (三菱UFJリサーチ&コンサルティング)
白井 清昭 (北陸先端科学技術大学院大学)
徳永 健伸 (東京科学大学)
難波 英嗣 (中央大学)
富士 秀 (富士通)
藤田 早苗 (日本電信電話)
吉川 和 (富士通)