Julius の主要なリリース間の主な変更点を以下にまとめる.リリースごとの詳細な変更点については,配布アーカイブ内の変更履歴一覧
Release-ja.txt
を参照のこと.
プラグインのサポート
音響モデルにおけるマルチストリームのサポート
MSD-HMM 音響モデルのサポート
CVN, VTLN のサポート (-cvn
, -vtln
)
-fallback1pass
オプションの追加:
バージョン 4 では,第2パス失敗時には認識失敗(出力無し)となっている.
このオプションを指定することで,3.x と同様に,失敗時は第1パスの結果を最終結果とするようになる.
Linux のオーディオAPIのデフォルトを OSS から ALSA に変更
Linux で音声入力デバイスとして ALSA, OSS, ESounD が実行時に選択可能になった:-input
alsa
,
oss
, esd
バグ修正:-multigramout
,jconf内での環境変数展開,-record
,その他多くの細かい修正と特定条件における動作の改善.
MFCC 計算でエネルギー項にパワーを使うオプション追加:-usepower
この文書(The JuliusBook)の作成
互換性に関する変更点:
Julian が Julius に統合された.使用方法に変更点は無く, これまで Julian に与えていたものと同じオプションを与えればほぼ等価に動作する.
単語グラフ出力が実行時オプションになった (-lattice
)
ショートポーズセグメンテーションが実行時オプションになった (-spsegment
).また,ポーズに対応する音響モデルのリストを指定可能に (-pausemodels
)
マルチパスモードが実行時オプションになった (-multipath
).
また,音響モデルの型を判別して自動的にマルチパスモードに切り替えるようになった.
モジュールモードの拡張:出力に <STARTRECOG>
, <ENDRECOG>
を追加,入力に GRAMINFO
および認識処理プロセス制御関連を追加.
辞書において,第2項(出力文字列)の省略が可能になった.省略した場合,出力文字列は第1項目と同じとみなされる.これでほぼ HTKと同じ仕様になった.
辞書の第1カラムでダブルクォートが使えるようになった.
新機能:
複数モデル認識 (-AM
, -LM
, -SR
, -AM_GMM
, -inactive
)
認識結果を入力ファイルごとに保存 (-outfile
)
ログをファイルに出力 / ログ出力を止める (-logfile
/ -nolog
)
jconf 内で環境変数を利用可能($VARNAME
)
48kHz 取り込みし 16kHz へダウンサンプリングしながら認識 (-48
)
マイク入力における遅延幅の調整:環境変数 LATENCY_MSEC
ALSA 入力で録音デバイスを変更:環境変数 ALSADEV
平均パワーによる入力棄却 (-powerthres
, --enable-power-reject
GMMベースのVAD (--enable-gmm-vad
, -gmmmargin
, -gmmup
, -gmmdown
)
デコーダベース VAD (--enable-decoder-vad
-spdelay
)
ショートポーズセグメンテーションにおいて無音に対応する音響モデルのリストの指定 (-pausemodels
)
4-gram 以上の N-gram サポート
前向き・逆向きどちらかのN-gramのみでも動作
ユーザ定義言語制約 (-userlm
および関数定義)
辞書のみによる孤立単語認識のサポート (-w
, -wlist
, -wsil
)
Confusion network 出力 (-confnet
)
性能改善:20%〜40%の高速化,メモリ管理の大幅な改善,Windowsでの動作改善
文法ツールの拡充:dfa_minimize, dfa_determinizeの追加, HTK SLF からの文法変換ツールslf2dfaの公開
特徴量抽出の拡大:設定パラメータの大幅追加,MAP-CMN実装,およびオンラインでのエネルギー項正規化のサポート
特徴量パラメータの HTK Config からの読み込みとバイナリファイル埋め込み機能