NLP2020 言語資源賞

■2020年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は85件の論文が対象となりました.18名の委員からなる選考委員会を組織し,授賞件数は2件を目安として,一次選考と二次選考の二段階で選考を行いました.

一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.評価の高い上位15件の論文を選定し,二次選考の対象論文としました.

二次選考では,選考委員のうちGSKの運営委員を兼ねる10名の委員が上記15件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.ただし,選考委員が共著者の論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,3件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文3件への授賞が決まりました.


■2020年 言語資源賞 (3件)

●A4-1 小規模リソースにおける生成型要約のためのスタイル転移
人見雄太, 田口雄哉, 田森秀明 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大)

本論文は,記述スタイルおよび規模が異なる2種類の要約データを用い,高品質な要約器を構築する手法を提案しています.本研究の技術的なポイントは,訓練用と評価用テキストの記述スタイルの違いを転移学習により解決している点にあります.現在の生成型要約の研究では,何百万事例という規模の大量の訓練データが必要とされる一方,このようなデータが利用できるドメインは少なく,さらに日本語に関するものは非常に限定されています.筆者らが整備,公開したデータは,(1)新聞記事の先頭3文と見出しの組1,828,231件から構成されるJapanese News Corpus (JNC)と,(2)ひとつの記事につき最大で5種類の見出し・要約が付与された30,656件のデータから構成されるJAMUL2020の2種類で,非常に規模が大きい点が評価できます.今後,生成型要約の研究に利用されることが期待されます.


●P2-2 機械読解システムの推論過程のベンチマークの構築
井之上直也 (東北大/理研), Pontus Stenetorp (UCL/理研), 乾健太郎 (東北大/理研)

本論文は,近年QAをはじめとする機械読解に関する多くのデータセットが公開される一方で,システムの性能が必ずしも言語理解力に依拠していないという課題設定の下で,正確な言語理解を必要とする新たな機械読解タスクを定義し,クラウドソーシングを用いて大規模なベンチマークのためのデータセットを構築したうえで,定量的にそのタスクの正当性を評価したものです.具体的には,本論文はまず,質問への回答に加えて,予測の根拠となる推論の途中経過も含めて出力することを要求するタスク(R4C; Right for the Right Reasons RC)を定義します.その上でデータセットをクラウドソーシングを用いて構築するためのインターフェースを開発.綿密な品質管理を施したうえで,約4,700の質問回答ペアに加え,約14,000の推論過程に関する情報を付与したデータセットを構築し,一般公開しています.さらに評価実験により,本タスクが,システムの正確な言語理解を要求するタスクであることを実証しています.R4Cという新たな機械読解タスクの枠組を提唱し,その上でベンチマークのための大規模かつ高品質なデータセットの構築と一般公開を行ったことで,今後の機械読解タスクの発展が見込める点が評価できます.


●P2-5 BERTed-BCCWJ: 多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ
浅原正幸, 加藤祥 (国語研)

本論文は,『現代日本語書き言葉均衡コーパス』(BCCWJ)に,『国語研日本語ウェブコーパス』(NWJC)12.8億文から訓練したBERTモデルによる多層文脈化単語埋め込み情報を付与した,BERTed-BCCWJについて報告しています.単語埋め込みの評価では,分類語彙表の現在・過去・未来の言語情報に,ベクトル空間上で異なるベクトルが付与されることが確認できています.多層文脈化単語埋め込み情報を付与したデータは,研究基盤として,工学・言語学・脳科学などの学際領域への活用が期待されます.


■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
石川 開 (日本電気)*
今一 修 (日立製作所)*
川田 拓也 (日本電気)*
木下 聡 (日本特許情報機構)*
黒田 由加 (三菱UFJリサーチ&コンサルティング)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
難波 英嗣 (中央大学)*
西野 文人 (富士通研究所)*
秋葉 友良 (豊橋技術科学大学)
岡 照晃 (国立国語研究所)
柏野 和佳子 (国立国語研究所)
木村 俊也 (メルカリ)
熊野 正 (NKH放送技術研究所)
望月 源 (東京外国語大学)
大久保 佳子 (日本システムアプリケーション)
大須賀 智子 (国立情報学研究所)