自作linear-chain CRFで,Chinese word segmentationやってますが,いままで, regularization のパラメータを, regularization が効く方向にふっていたのですが,ほとんど効かない方向に変えてみました.具体的には,重みベクトルのL2ノルムをσ^2で割るとして,σを0.1から10.0にしました.収束は非常に遅くなりました.
ところが,自作CRFの何の工夫もなしバージョンで,cityuについては, 0.941 0.945 0.943 0.074 0.683 0.962 というような結果が.SIGHANのWebページでは,closedのほうの第一位が, 0.941 0.946 0.943 0.074 0.698 0.961 なので,2005年時点でのトップにほぼ並ぶ結果が出ました. ・・・というわけで,Chinese word segmentationについては,L2ノルムのregularizationのパラメータは,非常に大事ですよ,という話です. [追記] msrもベースラインの性能が出ました。 0.957 0.961 0.959 0.026 0.646 0.965 SIGHANのトップは 0.962 0.966 0.964 0.026 0.717 0.968 で、及ばず。上から五番目に入るくらい。 pkuは 0.923 0.943 0.932 0.058 0.602 0.942 で,上から12番目くらい. 一番時間のかかるasは 0.951 0.938 0.944 0.043 0.638 0.965 で,上から5番目くらい.以上,ベースラインでした.
by tmasada2
| 2009-01-21 19:06
| らららルルル
|
カテゴリ
以前の記事
2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 09月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 2005年 08月 2005年 07月 2005年 06月 2005年 05月 2005年 03月 2005年 02月 2005年 01月 2004年 12月 その他のジャンル
検索
ファン
記事ランキング
ブログジャンル
画像一覧
|
ファン申請 |
||