アンダーフィット
アンダーフィットとは
オーバーフィットに対応する用語であるアンダーフィットは、機械学習モデルがデータセットの特徴量とターゲット変数の関係を正確に把握できるほど十分に複雑でない場合に発生します。アンダーフィット状態のモデルは、新しいデータまたはトレーニング済みでないデータで問題のある結果や誤った結果を引き起こします。また、多くの場合、トレーニングデータですらパフォーマンスが劣ります。
以下は、アンダーフィットを図で表したものです。
シンプルな直線は、トレーニングデータをきれいに表していますが、変数 x と y の根本的な関係を表す曲線を十分に描いていません。したがって、新しいデータに適用したとき、特に新しいデータの x 値がトレーニングデータの x 値よりもはるかに大きいまたは小さい場合にモデルの結果は精度が低くなります。
アンダーフィットが重要である理由
アンダーフィット状態のモデルをビジネス上の意思決定に使用すると、コストがかさむ可能性があります。たとえば、アンダーフィット状態のモデルは、マーケティングの費用を増やすことで常に販売成績を向上させることができると提案する場合がありますが、実際にはモデルは飽和効果を把握できていません。つまり、マーケティングの費用をいくらかけても、販売はある時点で平坦化します。ビジネスがそのモデルに依存してマーケティング予算を判断した場合、マーケティングに費用をかけすぎです。
DataRobot + アンダーフィット
アンダーフィットを回避するための最も効果的な方法の 1 つは、モデルが十分に複雑であるようにすることです。これは、特徴量を追加する、またはデータの前処理ステップを変更することで実現できます。DataRobot の機械学習自動化プラットフォームは、自動的に高度な特徴量エンジニアリングを実行し、データの前処理に関するベストプラクティスを実装し、データセットとターゲット特徴量に最も適した複雑な機械学習モデルを多数作成します。DataRobot はトップレベルのデータサイエンティストの専門知識を組み込むことにより、モデルが適切にフィッティングされていることを確認するプロセスを自動化します。これにより、ユーザーはモデルの実際の精度を疑うことなく、関連性が最も高いモデルを選ぶことに集中できます。