GSK2017-A 文アライメントソフトウエア

Description:

2つのテキストファイルを入力として、文のアライメントを出力するツールです。典型的には、異なる言語(A語とB語とする)で書かれた2つのファイルをもとに片方の言語(A語)のファイルを他方の言語(B語)に機械翻訳し、その結果のファイルと元々B語で書かれたファイルを入力として、文アライメントを求め、その結果をもとに異なる言語で書かれた2つのファイルに対して文アライメントを作成します。アルゴリズムは、文間の絶対距離を文を構成する単語の差異から求め、動的計画法によってアラインするものです。

使用方法は、
  e_align_w_s.pl in_file_1 in_file_2 > out_file
です。in_file_1は1番目の入力ファイル、in_file_2は2番目の入力ファイル、out_fileはアライメントの出力ファイルです。

例を示します。同包のデモファイルを用いて
  e_align_w_s.pl in_file_1_demo in_file_2_demo > out_file_demo
を実行した結果です。

《in_file_1_demo》
 今日 は 晴れ です 。
 明日 は 雨 です 。
 あさって は 曇り です 。
 しあさって は 雪 です 。
 やのあさって は 霙 です 。

《in_file_2_demo》
 今日 は 雨 です 。
 明日 は 曇り です 。

《out_file_demo》
 0   0    5.00   0.6667
 1   0    —-   —-
 2   1    2.00   0.8000
 3   NULL  4.90   0.0200
 4   NULL  4.90   0.0200

出力ファイルの各列の意味は以下のとおりです。
第1列 1番目の入力ファイルの文番号(NULLは文対応がないことを示す)
第2列 2番目の入力ファイルの文番号(NULLは文対応がないことを示す)
第3列 対応の絶対距離(0以上。—-は、片方のファイルの文が複数文対応であることを示す)
第4列 対応の相対スコア(0以上、1以下。—-は、片方のファイルの文が複数文対応であることを示す)

入力ファイルのコードはUTF-8 (BOMなし)です。単語をスペースで区切る必要があります。

Creator: 江原自然言語処理研究室(江原暉将)
Price:

GSK会員限定無料配布言語資源 会員は、年度中、会員限定無料配布言語資源の利用が一件目の場合に限り無料。年度中、会員限定無料配布言語資源の利用が二件目以上にあたる会員は、5,500円(税込み、送料3,300円別)。非会員は33,000円(税・送料込み)。

Date:2017.4
Format:1ファイル (4KB, zipで圧縮済み)
Format.encoding:UTF-8
Language:Japanese

教育・研究・開発(非営利)目的利用の場合、上記言語資源の入手にあたっては、「利用申請書兼誓約書(文アライメントソフトウエア)」 に必要事項をご記入いただき、メール添付にて(やむを得ない場合はFAX、郵便も可)、事務局までお送り下さい。 本言語資源はメール添付で送信します。有料の場合、CD-Rでの送付も可能です。有料の場合、折り返し、ご請求書をお送りしますので、宛名等ご指定のある場合は申請時にお知らせください。また、利用申請書兼誓約書の記入にあたっては 「会員種別と利用種別の個人・団体について」をご確認下さい。
営利目的での利用を希望する場合、事務局までご連絡ください。