Wiki トピック

データプロファイリング

データプロファイリングとは

データプロファイリングは、未加工データを分析して理解を深めるために使用します。これは、予測の目的でデータに機械学習アルゴリズムを適用した場合に、どのようなインサイトが得られるかを特定するための最初のステップです。データプロファイリングにより、ビジネス上の実際の問題を解決するために、データセットが十分に完全で高精度かどうかを判別できます。これは予測分析のためのデータ準備で最初に行うことであり、予測モデリングのためにデータセットの構造、内容(特徴量)、関係を明らかにする上で不可欠です。

データプロファイリングが重要である理由

予測モデルの出力精度はモデルに入力するデータの質によって決まるため、データプロファイリングはモデルから実世界での価値を引き出すことができる人工知能(AI)と機械学習のベストプラクティスの重要な部分です。

データプロファイリングの重要性は過小評価されがちです。クラウド、モバイル、IoT などの多数のデータソースから取得される大量のデータは、ビッグデータを効果的に利用し、他社に先がけて競争上の優位性を獲得しようとする競争の激化を招いています。その結果、多くの組織がデータの質ではなく量を追求するという誤った選択をするため、偏りがあるか、誤解を招くか、使いものにならないモデルが作成されています。データガバナンスとデータ準備は、あらゆるアナリストの優先順位リストの先頭に置くべきです。競争力をつけるためにデータを利用したいのであれば、最善の方法はデータに秩序をもたらすことです。

データプロファイリング + DataRobot

データセットを DataRobot の自動機械学習プラットフォームにアップロードした後、各レコードについてプラットフォームから自動的に提供される情報に基づいて、探索的データ解析を実行できます。DataRobot は、すべてのレコードと、一意の値または欠損値の数、統計的平均、標準偏差、中央値、最小値、最大値などのすべての特徴量のプロファイルを提供します。各特徴量の分布を確認したり、変換を適用してデータを正規化したりすることもできます。