NLP2022 言語資源賞
■2022年 言語資源賞の選考について
言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.
言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は92件の論文が対象となりました.19名の委員からなる選考委員会を組織し,授賞件数は2件を目安として,一次選考と二次選考の二段階で選考を行いました.
一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.評価の高い上位12件の論文を選定し,二次選考の対象論文としました.
二次選考では,選考委員のうちGSKの運営委員を兼ねる10名の委員が上記12件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.ただし,選考委員が共著者である論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,2件の論文を言語資源賞に推薦することとしました.
言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文2件への授賞が決まりました.
■2022年 言語資源賞 (2件)
●E8-1 『日本語日常会話コーパス』の設計と特徴
小磯花絵, 天谷晴香, 石本祐一, 居關友里子, 臼田泰如, 柏野和佳子, 川端良子, 田中弥生 (国語研), 伝康晴 (千葉大), 西川賢哉, 渡邊友香 (国語研)
本論文は「日本語日常会話コーパス」を構築しています.このコーパスは,日常における様々な場面について,年齢・性別をバランスさせた40名の話者による会話を収録しています.コーパスの規模も大きく,会話時間は200時間,会話数は577,のべ話者数は1675名となっています.会話の音声データ,転記テキストに加え,会話の様子を撮影した映像データを含む点に特徴があります.転記テキストには,人手修正された短単位の形態素情報と自動付与された長単位の形態素情報がタグ付けされています.また,全体のうち20時間分の会話を抜粋したコアデータについては,人手修正された長単位の形態素,文節間の係り受け関係,談話行為,韻律の情報が付与されています.同コーパスは2022年3月に一般公開されます.日本語の日常会話を収録した豊富なアノテーションを含む大規模なコーパスであり,対話の研究に幅広く利用できる価値の高い言語資源であると言えます.
●E8-4 JGLUE: 日本語言語理解ベンチマーク
栗原健太郎, 河原大輔 (早大), 柴田知秀 (ヤフー)
本論文は,英語の GLUE にならい,複数のデータセットからなる日本語の言語理解処理のベンチマーク JGLUE を構築しています.文書分類タスクについては,日本語の商品レビューに positive, negative の二値のラベルを付与した「MARC-ja」と,日本語容認性判断データセット「JCoLA」を含みます.文ペア分類タスクについては,2つの文の意味がどの程度等しいかを表す0~5の実数値を付与した「JSTS」と,2つの文に対して含意,矛盾,中立の三値のラベルを付与した「JNLI」を含みます.質問応答タスクについては,機械読解タスクのデータセット「JSQuAD」と,常識推論能力を評価するための5択問題のデータセット「JCommonsenseQA」を含みます.既存の英語のデータセットを日本語に翻訳するのではなく,クラウドソーシングを用いて一から構築されています.JGLUE v1 は2022年3月に公開される予定です.日本語の言語理解のための標準的なベンチマークとして利用され,研究分野全体の発展に貢献することが期待されます.
■言語資源賞 選考委員
(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
今一 修 (日立製作所)*
川田 拓也 (日本電気)*
黒田 由加 (三菱UFJリサーチ&コンサルティング)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
難波 英嗣 (中央大学)*
西野 文人 (国立情報学研究所)*
山崎 誠 (国立国語研究所)*
吉川 和 (富士通)*
秋葉 友良 (豊橋技術科学大学)
石川 開 (日本電気)
柏野 和佳子 (国立国語研究所)
木下 聡 (日本特許情報機構)
木村 俊也 (メルカリ)
中村 誠 (新潟工科大学)
福本 文代 (山梨大学)
望月 源 (東京外国語大学)
大須賀 智子 (国立情報学研究所)