Wiki トピック

モデルチューニング

モデルチューニングとは

通常、チューニングは試行錯誤の繰り返しです。一部のハイパーパラメーター(ツリーベースのアルゴリズムでの木の数、線形アルゴリズムでのアルファの値など)を変更し、データに対してアルゴリズムを再び実行し、検定セットでパフォーマンスを比較して、どのハイパーパラメーターセットが最も精度の高いモデルを構築するかを判断します。

すべての機械学習アルゴリズムに、「デフォルト」のハイパーパラメーターセットがあります。ハイパーパラメーターは、Machine Learning Mastery で「モデル外部の設定であり、その値をデータから推定できない」と定義されています。アルゴリズムごとに、構成するハイパーパラメーターは異なります。たとえば、正規化された回帰モデルには係数ペナルティがあり、決定木には指定された数の枝があり、ニューラルネットワークには指定された数のレイヤーがあります。モデルを構築する場合、アナリストとデータサイエンティストは、複数のデータセットに対してモデルを実行した後で、これらのハイパーパラメーターのデフォルト設定を選択します。

各アルゴリズムの汎用のハイパーパラメーターセットは分析の開始点となり、一般的にモデルのパフォーマンスは十分なものとなりますが、特定のデータセットおよびビジネス問題に最適な設定がない場合があります。データにとって最適なハイパーパラメーターを見つけるには、チューニングが必要です。

モデルチューニングが重要である理由

モデルチューニングによりモデルをカスタマイズすることで、最も正確な結果を生み出し、データに関して価値の高いインサイトを提供できます。それにより、ビジネス上の意思決定を最も効果的に行えるようになります。

モデルチューニング + DataRobot

DataRobot には、手動で広範囲にわたる微調整やコーディングを実行しなくてもモデルをチューニングできる機能が複数あります。ターゲット変数が選択されると、DataRobot はデータセットに対してブラケットスタイルでアルゴリズム競争を実行し、一連の値から各ハイパーパラメーターを検索します。アルゴリズムが実行を終了したら、モデルを選択し、[高度なチューニング]セクションでグリッド検索の結果を視覚化できます。別のハイパーパラメーターセットを試して初回の精度を高めることができるかどうかを確認する場合は、値を変更し、すぐに新しいモデルを実行できます。モデルの実行結果は DataRobot のリーダーボードに表示され、各モデルのパフォーマンスを元のモデルと比較できます。

チューニング

ただし、DataRobot プラットフォームでは手動でモデルチューニングを行う必要はありません。DataRobot のデータサイエンティストが徹底的にテストし、精度の高いモデルを構築することを確認したプリセットのハイパーパラメーターを使って多数のモデルを自動的に実行します。したがって、データにとって最も精度の高いモデルを選択することに集中できます。DataRobot なら手動によるモデルのチューニングも簡単です。