■ FXシステムトレード奮闘記: 具体的な最適化手法（２）堅牢なパラメータ値の選択

さて前回は、パラメータ値の最適化やシステム評価（≒パフォーマンス評価）の具体的な計算方法について書きました。　　今回は、パラメータ値の最適化で、その評価値を元に、堅牢なパラメータ値を機械的に選ぶ工夫について書いてみたいと思います。

やりたい事自体は、色んなシストレの本で書いてある事と同じなのですが、今回記事の特徴は、機械的に計算するための工夫、といったところです。　　前回記事の様に、「これだ！」とスッキリしている訳ではなく、もっと良い方法があるんじゃないか、とも思いながら、最近思いついた最善策、といったところでしょうか。　　今はこの方法で、定期的な最適化をしています。

１．やりたい事

最適化の目的関数（年率オプティマルｆレシオなど）の評価値が最大になる、パラメータ値の組み合わせを見つけたい、という事です。　ただ、単純に評価値が最大になる組み合わせを選ぶのではなく、「堅牢」なパラメータ値の組み合わせを「機械的」に求めたいわけです。

たとえば、単一パラメータ変数と評価値の関係が、以下の様なグラフであった場合、高い値の方がいいのはいいのですが、多少パラメータ値を変更しても、評価値への影響が少ない方の値を選びたいわけです。

もちろん、パラメータの値そのものに意味があって、それを狙った戦略なのであれば、最適化などせず、そのパラメータ値固定でトレードするのがいいと思います。

２．サンプル・データ

これから使う、説明用のサンプル・データの説明です。　パラメータがＡとＢの2種類あり、パラメータ値の組み合わせと、評価値（年率オプティマルｆレシオ）の関係が、以下の表の通りだったとします。　

図１．サンプルデータ１

色が付いているマス目の値は、評価値で、値が大きい順に、「緑→黄色→赤」という風に色分けされています。　（エクセルで、表を選択状態にして、「条件付き書式」→「カラースケール」で簡単にできます）

この中では、評価値が最大になるのは、パラメータＡ＝１２、Ｂ＝１２０の評価値１７４ですが、赤丸がついている、Ａ＝２２、Ｂ＝２４０を、機械的に選びたい、という事です。（多少パラメータ値が前後しても、高い評価値を維持できるので）

ちなみに、わざとパラメータＡ＝１２の列、パラメータＢ＝１２０の行も高い値になる様なデータにしています。

３．選択手順

人が目で見て選ぶ、というやり方も当然ありますし、機械的に選んだら、何か特別なものが選ばれる、という訳でもありません。

ただ、機械的に選べたほうが、曖昧さが無いですし、プログラミングが可能になるので、自動化ができるのが良い、という事です。

具体的な手順は以下の通りです。

手順１．パラメータ毎に、評価値の中央値をとる

例えば、パラメータＡ＝２２の列について中央値をとる場合は、パラメータＡ＝２２における、パラメータＢが１００～２８０の評価値の、中央値をとります。

手順２．パラメータ毎の中央値を、前後のパラメータ値で平均する

例えば、パラメータＡ＝２２の中央値は１５３ですが、前後のパラメータ値については、Ａ＝２０の場合は１５０、Ａ＝２４だと１５０になり、それら３つの値の平均します。　具体的には、Ａ＝２２における、平均値は（１５３＋１５０＋１５０）÷３＝１５１　です。

手順３．「手順２」で求めた平均値が最大のパラメータ値を選ぶ

この場合、パラメータＡの各値について実際にやってみると、以下の様になり、パラメータＡ＝２２が選ばれます。

図２．パラメータＡ集計結果

「中央値」だとＡ＝１２が最大だったのが、前後の平均値をとる事で、Ａ＝２２という、期待したとおりのパラメータ値を選ぶ事ができました。

手順４．他のパラメータ変数も同様。　選ばれた値の組み合わせが「最適化結果」

全てのパラメータ変数（この場合はＢ）にたいして、前述「手順１」～「手順３」を計算し、パラメータ変数毎の最適なパラメータ値を選ぶ。　　選ばれたパラメータ値の組み合わせが、機械的に選んだ最適化結果のパラメータ・セットです。

パラメータＢについて同様にすると、以下の様になり、Ｂ＝２４０が選ばれます。

従って、パラメータＡ＝２２、Ｂ＝２４０が最適化結果になり、当初選びたかったパラメータ値が選ばれました。

説明しやすい様に、ある程度作為的にデータを作成した事もあって、期待通りの結果になりましたが、単純に最大値を選んだ時との違いを、イメージできましたでしょうか？

４．簡単な実験

ここまでは、わりと滑らかなサンプル・データを使ってきました。　実際にはノイズも加わると思うので、このサンプル・データの「評価値」に、ノイズを加えたらどうなるか、実験してみました。

■　ノイズの加え方

全評価値に、－２σ～＋２σの乱数の値を足します。　擬似的な外れ値として、評価値が最大となっているＡ＝１２、Ｂ＝１２０の値を、「固定：平均＋４σ」と「固定：２倍」にした２パターンで実施しました。

１０パターンのノイズを生成し、期待したパラメータ値の組み合わせ（Ａ＝１２、Ｂ＝２４０）の周囲１マス以内が選ばれれば、成功とみなしました。　　

（つまり、Ａ＝２０～２４かつ、Ｂ＝２２０～２４０であれば成功）

ついでに、４パターンのパラメータ値の選択方法も比較してみました。　表内の数値は、前述の基準で「成功」と判断されたパターン数です。　つまり１０パターンのうち、どの程度成功したか、という表です。

以下「④中央値　前後平均」が今回紹介した方法です。

今回の手法だと、ノイズを加えても、ある程度成功している事がわかります。　　「②平均　前後平均」も割りといい感じですが、やはり極大な外れ値には弱い、という事かもしれません。　また、「前後平均」は、「平均値」と「中央値」の両方で、効果があった様に見えます。

５．考察

今回、実験につかったサンプル・データは１種類だけとはいい、まぁ、いい結果じゃないかな、と思います。　すでにこの手法での最適化を行って運用開始していますが、この記事でやった検証はしていなくて、今回初めてでです（笑）

今回の手順のミソは、パラメータ変数毎の集計、「中央値」で集計、前後の値を平均してから評価、の３点です。　前後の値を平均してから評価する手法は、「アルゴリズムトレーディング入門」で紹介されていました。

補足ですが、「平均値」よりも「中央値」を使う事で、外れ値の影響を抑えることができる様です。　これは１０個の乱数の値を使って１００回中９５回、「中央値」を使った方が「平均値」を使った時よりも良い結果になりました。

具体的には、１０個の乱数に「平均＋３σ」のデータ１つを追加した時、それぞれの値の影響が小さく済んだ、という事で確認しました。　　　実際、前述「４．簡単な実験」でも、「平均値」を使うよりも「中央値」を使った方が良い結果になっています。

６．さいごに

ここまで３回の記事にわたって、パラメータ値の最適化について書いてきました。　今まで悶々としていた最適化ですが、割と自分的にはスッキリしました。　　最大化したい事と配慮したい事を分けて考える事で、スッキリしたのだと思います。

もちろん今後、もっといい方法が見つかると嬉しいですけどね♪　そんな事も期待して、最近「機械学習」の本を読み始めました（笑）

あと、手前味噌ですが、今回の一連の最適化を行う無料ソフトを公開しています。是非、ダウンロードしてみてください。　ご意見いただければ、幸いです。

■　無料ソフトウェア・ダウンロード　→　「Test Analyzer」

このソフトは、「T2OFレシオ（≒年率オプティマルｆレシオ）」を目的関数として、今回のパラメータ値選択方法で最適化する、MT4用の無料ソフトです。

ではでは～

【 P.S. 】　ブログ「FXシステムトレード奮闘記」の「過去記事一覧」を作成しました♪

■ FXシステムトレード奮闘記

2014/06/15

具体的な最適化手法（２）堅牢なパラメータ値の選択

3 件のコメント:

2014/06/15

具体的な最適化手法（２） 堅牢なパラメータ値の選択

3 件のコメント:

具体的な最適化手法（２）堅牢なパラメータ値の選択