RcppJaggerはJaggerのラッパーのため、まずJaggerをインストールします。公式サイトに従ってインストールしていきます。
Step 1:
ターミナルを開いて適当なフォルダに移動します。特定のフォルダに移動する場合は、cd
コマンドを使用します。ここでは例としてDownloads
フォルダに移動する場合を示します。
$ cd ~/Downloads/
Step 2: 公式サイトのコマンドを実行し、Jaggerをダウンロードします。
$ wget http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/jagger-latest.tar.gz
$ tar zxvf jagger-latest.tar.gz
$ cd jagger-YYYY-MM-DD
3行目のjagger-YYYY-MM-DD
は、最新版のJaggerのフォルダ名に置き換えてください。
2023年5月29日現在では、jagger-2023-02-18
となっています。
Step 3:
mecab-jumandic形式の辞書を用意します。公式サイトにある通り、こちらからダウンロードしてください。
mecab-jumandic-7.0-20130310.tar.gz
というファイル名になっています。
また、助詞の文字化けを修正するためにこちらからmecab-jumandic-7.0-20130310.patch
をダウンロードします
(リンクを右クリックして保存)。
ダウンロードした2つのファイルをjagger-YYYY-MM-DD
フォルダに移動し、以下のコマンドを実行します。
$ tar zxvf mecab-jumandic-7.0-20130310.tar.gz
$ patch -p0 < mecab-jumandic-7.0-20130310.patch
Step 4: 京都大学ウェブ文書リード文コーパスを用意します。
$ git clone https://github.com/ku-nlp/KWDLC
$ ./configure
Step 5: モデルの学習とインストールを行います。
$ make model-benchmark && sudo make install
Step 6:
RcppJaggerでモデルを利用するために、モデルがあるパスを確認します。
src/Makefile
をテキストエディタで開き、以下の2つの行を探します。
prefix = /usr/local
[...] JAGGER_CPPFLAGS = -DJAGGER_DEFAULT_MODEL=\"${exec_prefix}/lib/jagger/model/kwdlc\"
これらから、モデルが/usr/local/lib/jagger/model/kwdlc
にあるとわかります。
Jaggerはmecab-jumandic形式の辞書を利用するため、mecab-ipadic-NEologdが利用できます。
mecab-ipadic-NEologdをインストールした後にできる、build/
フォルダ中の.csv
ファイルの一部又は全部を、Jaggerをインストールする際に作ったmecab-jumandic-7.0-20130310
フォルダに移動し、Step
5のモデルの学習とインストールを再度行います。