付録 A. バージョンごとの主な変更点

目次

バージョン4.0 から 4.1 への変更点
バージョン 3.5.3 から 4.0 への変更点
バージョン 3.5 から 3.5.3 への変更点
バージョン 3.4.2 から 3.5 への変更点

Julius の主要なリリース間の主な変更点を以下にまとめる.リリースごとの詳細な変更点については,配布アーカイブ内の変更履歴一覧 Release-ja.txt を参照のこと.

バージョン4.0 から 4.1 への変更点

  • プラグインのサポート

  • 音響モデルにおけるマルチストリームのサポート

  • MSD-HMM 音響モデルのサポート

  • CVN, VTLN のサポート (-cvn, -vtln)

  • -fallback1pass オプションの追加: バージョン 4 では,第2パス失敗時には認識失敗(出力無し)となっている. このオプションを指定することで,3.x と同様に,失敗時は第1パスの結果を最終結果とするようになる.

  • Linux のオーディオAPIのデフォルトを OSS から ALSA に変更

  • Linux で音声入力デバイスとして ALSA, OSS, ESounD が実行時に選択可能になった:-input alsa, oss, esd

  • バグ修正:-multigramout,jconf内での環境変数展開,-record,その他多くの細かい修正と特定条件における動作の改善.

  • MFCC 計算でエネルギー項にパワーを使うオプション追加:-usepower

  • この文書(The JuliusBook)の作成

バージョン 3.5.3 から 4.0 への変更点

互換性に関する変更点:

  • Julian が Julius に統合された.使用方法に変更点は無く, これまで Julian に与えていたものと同じオプションを与えればほぼ等価に動作する.

  • 単語グラフ出力が実行時オプションになった (-lattice)

  • ショートポーズセグメンテーションが実行時オプションになった (-spsegment).また,ポーズに対応する音響モデルのリストを指定可能に (-pausemodels)

  • マルチパスモードが実行時オプションになった (-multipath). また,音響モデルの型を判別して自動的にマルチパスモードに切り替えるようになった.

  • モジュールモードの拡張:出力に <STARTRECOG>, <ENDRECOG> を追加,入力に GRAMINFO および認識処理プロセス制御関連を追加.

  • 辞書において,第2項(出力文字列)の省略が可能になった.省略した場合,出力文字列は第1項目と同じとみなされる.これでほぼ HTKと同じ仕様になった.

  • 辞書の第1カラムでダブルクォートが使えるようになった.

新機能:

  • 複数モデル認識 (-AM, -LM, -SR, -AM_GMM, -inactive

  • 認識結果を入力ファイルごとに保存 (-outfile)

  • ログをファイルに出力 / ログ出力を止める (-logfile / -nolog)

  • jconf 内で環境変数を利用可能($VARNAME

  • 48kHz 取り込みし 16kHz へダウンサンプリングしながら認識 (-48)

  • マイク入力における遅延幅の調整:環境変数 LATENCY_MSEC

  • ALSA 入力で録音デバイスを変更:環境変数 ALSADEV

  • 平均パワーによる入力棄却 (-powerthres, --enable-power-reject

  • GMMベースのVAD (--enable-gmm-vad, -gmmmargin, -gmmup, -gmmdown)

  • デコーダベース VAD (--enable-decoder-vad -spdelay)

  • ショートポーズセグメンテーションにおいて無音に対応する音響モデルのリストの指定 (-pausemodels)

  • 4-gram 以上の N-gram サポート

  • 前向き・逆向きどちらかのN-gramのみでも動作

  • ユーザ定義言語制約 (-userlm および関数定義)

  • 辞書のみによる孤立単語認識のサポート (-w, -wlist, -wsil)

  • Confusion network 出力 (-confnet)

バージョン 3.5 から 3.5.3 への変更点

  • 性能改善:20%〜40%の高速化,メモリ管理の大幅な改善,Windowsでの動作改善

  • 文法ツールの拡充:dfa_minimize, dfa_determinizeの追加, HTK SLF からの文法変換ツールslf2dfaの公開

  • 特徴量抽出の拡大:設定パラメータの大幅追加,MAP-CMN実装,およびオンラインでのエネルギー項正規化のサポート

  • 特徴量パラメータの HTK Config からの読み込みとバイナリファイル埋め込み機能

バージョン 3.4.2 から 3.5 への変更点

  • GMM による入力棄却

  • 単語グラフ出力

  • 複数文法認識の正式サポート:-multigramout, -gram, -gramlist

  • 文字コード変換:-charconv

  • Linux (OSS) で入力デバイス変更:環境変数 AUDIODEV

  • 圧縮ファイルの展開に zlib を使用

  • 全派生版のソース統合,mingwサポート

  • Doxygen によるソースコードドキュメント対応