時系列
時系列とは
ここでの時系列とは、特定の期間内に一定間隔で同じプロパティ(特定の場所での降雨など)に対して記録される多数の観察結果(データポイント)を意味します。このデータを分析することで、降雨量の季節的な変化など、収集手法があまり厳密でない場合には気付かなかった可能性がある傾向を見つけ出すことができます。以下のグラフは、1981 年から 1990 年までのメルボルン(オーストラリア)の毎日の気温の時系列を示したものです。 機械学習とデータサイエンスに関連する内容に関して: 時系列分析では、時間間隔は予測モデルを構築するために使用されるデータセットの次元の 1 つとして扱われます。また、予測の入力値は、多くの場合、予測時間よりも前の期間の複数の行から取得されます。予測分析は、時系列データの主な応用の 1 つです。機械学習に関連する内容に関して: 時系列分析では、季節性(時間内の位置)は予測モデルを構築するために使用されるデータセット内のデータ行の次元の 1 つとして扱われます。また、通常の予測モデルとは異なり、時系列モデルでは予測を行うために現在の特徴量の値を使用するだけでなく、他の最近の時間からのデータ行にある特徴量の値も参照します。たとえば、販売量を予測する場合、今日のマーケティング活動だけを見ることはありません。過去数週間のマーケティング活動が今日および明日の販売量に累積的な影響を与えていることが期待されます。時系列モデルは、今日のマーケティング活動を特徴量として使用するだけでなく、過去数週間のデータ行からのマーケティング活動値も使用します。UCI からのデータセットの一部を紹介します。1 日の特定の時間帯の空気の品質に関する予測モデルを構築するために使用されます。1 時間間隔でデータが記録されていることに注目してください。これは時系列データの一例です。
時系列が重要である理由
時系列データは、分析対象に関連する反復パターンを見つけ出すために使用されます。分析対象が時間の経過と共にどのように変化したか、リアルタイムでどのように振る舞っているかを確認し、将来の振る舞いのための予測を構築することができます。この機能は、販売予測、計量経済学から金融、機器メンテナンス予測まで、さまざまなビジネス問題に使用されます。すべての予測で時系列データが必要になるわけではありません。また、利用できるすべての時系列データが予測に対して関連性を持っているわけではありません。たとえば、ある人が事故に遭う確率を保険会社が予測したいと考える場合、その人が保険契約申込書を提出した時刻は必須ではありません。同様に、保険会社は、他の最近の保険契約申込書からのデータを使用しません。そのモデルで影響力が大きい要素は、無謀な運転パターンを示唆する可能性がある、運転経験および事故歴などです。しかし、e コマースストアが特定の種類の商品の将来的な需要を予測したいと考える場合、時系列は重要です。パンプキンスパイスラテのように、特定の商品は 1 年のさまざまな時期にさまざまなレベルで売られています。たとえば、スキー用具は 6 月よりも 12 月のほうが売れ行きが良いでしょう。その場合、いつデータが収集されたかを追跡することが重要になります。そうすれば、1 年の特定の時期または特定の日に関連付けられた傾向を見つけ出すことができます。
時系列 + DataRobot
最近になって DataRobot の自動機械学習プラットフォームは、時系列データを完全サポートするように拡張されました。これにより、分析の可能性が広がります。時系列機能により、お客様は、需要、収益、販売の予測や、生産ラインで発生する欠陥製品の予測など、さまざまなビジネス指標や運用指標を予測できます。