NLP2019 言語資源賞

■2019年 言語資源賞の選考について

言語資源賞 選考委員長 橋田浩一

言語資源賞は,言語処理学会年次大会にて発表された論文の中から,優れた言語資源を作成したと認められるものに授与される賞です.言語処理学会と言語資源協会(GSK)との共同事業です.

言語資源賞の選考対象となる論文は,言語資源(コーパス,辞書,ツールなど)に関するものであり,著者が発表申込時に言語資源賞の審査を希望すると表明した論文です.今回は85件の論文が対象となりました.17名の委員からなる選考委員会を組織し,授賞件数は2件を目安として,一次選考と二次選考の二段階で選考を行いました.

一次選考では,言語資源に関する記述のない論文を事前に除外した後,各論文に対し,利益相反を考慮して2名の選考委員を割り当てました.各委員は,独自性,応用可能性,公開可能性,作成コスト,品質などの観点から論文を評価し,1~5点の総合評価点をつけました.評価の高い上位16件の論文を選定し,二次選考の対象論文としました.

二次選考では,選考委員のうちGSKの運営委員を兼ねる7名の委員が上記16件の全ての論文を読み,言語資源賞にふさわしいと思われる3件の論文を選んで投票しました.ただし,選考委員が共著者の論文には投票できないものとしました.投票結果ならびに選考委員による討議の結果,3件の論文を言語資源賞に推薦することとしました.言語処理学会の理事会ならびにGSKの理事会の承認を得て,推薦論文3件への授賞が決まりました.


■2019年 言語資源賞 (3件)

●C1-4 クラウドソーシングによる単語親密度の推定
浅原正幸 (国語研)

本論文は『分類語彙表』の約10万の見出し語に対して単語親密度を付与したデータを構築しています.対象単語に対し,「知っている」「書く」「読む」「話す」「聞く」の5つの観点について,16名以上のクラウドワーカから回答された親密度を収集しました.例えば「書く」の場合,作業者はその単語がどのくらい普段書くものに出現するかを5段階で回答します.これらの観点は,書記言語と音声言語(「書く」「読む」vs.「話す」「聞く」),生産過程と受容過程(「書く」「話す」vs.「読む」「聞く」)の2軸で単語の親密度の違いを分析できるように設計されています.さらに,クラウドワーカ間のバイアスを軽減するために,ベイジアン線形混合モデルにより単語ごとの評定値を推定することも試みています.単語親密度を付与した辞書はこれまでにも存在しますが,クラウドソーシングによって多数の被験者の単語親密度を調査している点,また5つの観点で単語親密度を測っている点に特長があります.


●E1-2 Wikipedia構造化プロジェクト「森羅2018」
関根聡, 小林暁雄 (理研), 安藤まや (ランゲージ・クラフト)

本論文は,Wikipediaの説明文やインフォボックスから固有表現の属性値を抽出することでWikipediaの構造化データを作成するプロジェクト「森羅2018」について報告しています.Resource by Collaborative Contribution (RbCC) の考えに基づき,著者らは属性値抽出の評価型ワークショップを開催し,訓練データ・テストデータを提供する一方,参加者には訓練・テストデータ以外の全項目を構造化することを依頼し,その結果を共有することを約束してもらいました.そして,複数のシステムの結果を利用したアンサンブル学習の手法を用いて,より信頼できるリソースを自動的に構築しました.8団体から15システムが参加し,全参加システムのアンサンブル学習によりF値が11%ポイント以上向上するという望ましい結果が得られました.RbCCという言語資源構築の新しい枠組を提唱し,それに基づいて大規模なWikipedia構造化データを構築した点が評価できます.


●P1-1 解説文生成研究のためのライティング技術解説付き学習者コーパス
永田亮 (甲南大/さきがけ/理研AIP), 石川慎一郎 (神戸大), 乾健太郎 (東北大/理研AIP)

本論文は,既存の2種類の英語学習者コーパスに対し,書き手のライティング能力の向上につながるヒントや説明(解説)を人手で付与しています.書き手のレベルにとって最重要と思われる項目についての「一般解説文」と,前置詞の用法の誤りについての「前置詞解説文」の二種類の解説を付与しました.予備的なアノテーション作業を二度実施し,解説付与のガイドラインを制定し,およそ3300文書(9000文書まで拡張される予定)に対して解説を付与しました.一般解説文の付与は14名,前置詞解説文は2名の専門家がアノテーションを行いました.一般解説文付与作業の自由度は高いと考えられますが,明確なガイドラインによって,2名の作業者によって付与された解説の内容はある程度一致することが示されています.ライティング技術に関する解説を付与したコーパスはこれまで例がなく,独自性の高い言語資源を構築している点が評価できます.今後,解説文生成の研究に利用されることが期待されます.


■言語資源賞 選考委員

(*は二次選考にも携わった選考委員)
橋田 浩一 (委員長,東京大学)*
石川 開 (日本電気)*
今一 修 (日立製作所)*
木下 聡 (日本特許情報機構)*
白井 清昭 (北陸先端科学技術大学院大学)*
徳永 健伸 (東京工業大学)*
西野 文人 (富士通研究所)*
秋葉 友良 (豊橋技術科学大学)
岡 照晃 (国立国語研究所)
柏野 和佳子 (国立国語研究所)
木村 俊也 (メルカリ)
熊野 正 (NKH放送技術研究所)
中村 誠 (新潟工科大学)
福本 文代 (山梨大学)
望月 源 (東京外国語大学)
大久保 佳子 (日本システムアプリケーション)
大須賀 智子 (国立情報学研究所)