分類
分類とは
分類とは、生物学者が植物、動物、その他の生物をさまざまなカテゴリに分類する場合のように、特定の観測結果がどのグループに属するかを判断するための手法であり、データサイエンスと機械学習の主な用途の 1 つです。
機械学習技術では以下を実施して、特定の観測結果が属するカテゴリを正確に判断します。
- 分類アルゴリズムを適用して、特定のクラスで共有している特徴を識別します。
- これらの特徴を分類対象のデータと比較します。
- その情報を使用して、観察が特定のクラスに属する可能性を推定します。
分類が重要である理由
機械学習での分類には、ビジネス上の実践的な用途が数多くあります。たとえば、誰かが債務不履行に陥るかどうかを予測したい場合、類似する特性を持つ 2 つのクラス、つまり債務不履行者クラスと非債務不履行者クラスのどちらかにその人が属するかどうかを判別する必要があります。これによって、その人が債務不履行に陥る確率がわかり、それに従ってリスク評価を調整できます。分類の問題は二値の場合に限定されません。多値問題では分類できるクラスが 3 つ以上ある場合があります。たとえば、顧客行動の履歴に基づいて 5 つ(またはそれ以上)のマーケティングチャネルのうち投資収益が最大になるものはどれかを予測し、最も効果的なチャネルに重点を置いてマーケティング予算の配分を最適化することができます。
分類 + DataRobot
DataRobot の自動機械学習プラットフォームでは、多数の分類アルゴリズムが使用され、ターゲット変数が分類に適したカテゴリ変数なのか、回帰の方に適した連続変数なのかが自動的に識別されます。さらに、DataRobot の各種ツールにより、二値と多値の両方の問題で分類モデルのパフォーマンスを調べることができます。
どのような分類アルゴリズムにも存在する主な欠点は、「ブラックボックス」になる傾向があることです – つまり、その判断に影響を及ぼした特性に関する情報を提供することなく、観測結果がカテゴリに分類されてしまいます。DataRobot の予測の説明機能は、正確にどの要素が観測結果の分類につながったのかについてのインサイトを提供します。その結果、モデルがどのようにしてその結果に到達したかについて理解が深まり、経営陣や規制当局に対してその正当性をアピールしやすくなります。