読者です 読者をやめる 読者になる 読者になる

cdif v2.6 --mecab オプション

Unicode 対応した cdif では、漢字・平仮名・片仮名の連続を1つのトークンとして処理し、その diff をとっています。 このトークン化に形態素解析ツールの mecab を使えるようにしてみました。

cdif --mecab

のように使います。

今のところ、外部コマンドとして mecab を起動しているので、効率的にはあまりよろしくはありません。

以下は、sdif と組み合わせて使っている例。 違う人の文章だから、違いが多すぎてあんまり参考にはならないか。

f:id:uta46:20140207155012j:plain

変更点

  • --mecab オプションの追加
    • Unicode 対応の mecab コマンドがインストールされている必要があります
    • mecab コマンドの仕様により、空白だけの行が無視されます
    • 日本語以外の部分のトークン化が影響を受けます
      • 具体的には、連続する記号が1つのトークンにされることがあります
  • --textcolor をデフォルトにした
    • diff -u の出力を見るのにはやはり未修整部分にも色が付いていた方がいい感じです