コロナウイルス Archives | DataRobot https://www.datarobot.com/jp/blog/category/コロナウイルス/ Deliver Value from AI Tue, 12 Sep 2023 11:06:48 +0000 ja hourly 1 https://wordpress.org/?v=6.4.3 DataRobotでSNS上のデマ判定 https://www.datarobot.com/jp/blog/datarobot-finds-false-rumors-on-sns/ Thu, 29 Oct 2020 15:09:28 +0000 https://www.datarobot.com/jp/?post_type=blog&p=4921 COVID−19のような緊急時には、SNS上に信ぴょう性が疑われる情報が大量発生します。人でのファクトチェックは間に合わず、AI支援が求められています。そこで、NTTデータ社がDataRobotを活用して、機械学習で新型コロナウイルス関連ツイートのデマ判定が可能か検証しました。

投稿 DataRobotでSNS上のデマ判定DataRobot に最初に表示されました。

]]>
新型コロナウィルスに関するデマツイート検知を NTTデータが検証

はじめに

分析の背景と分析目的

「10秒間息を止めることで新型コロナ感染が自己診断できる」「26〜27度のお湯を飲めば感染防止になる」「製造元が中国なので次はトイレットペーパーが不足になる」これらは Twitter 上で拡散された新型コロナウィルスに関するデマツイートの例である. このようなデマを見て, 実際に自己診断したり, お湯を飲んだり, トイレットペーパーを大量に購入した人もいたのではないだろうか. 

SNS は有力な情報をタイムリーに得られるため, 情報収集源の一つとして利用されている. 一方で, 間違った情報や誤解を招くフェイクニュースやデマが, あたかも真実または真偽不明の情報として, 正しい情報よりも拡散するという問題が起こっている1, 2, 3. 今回の取り組みで使用したデータでも, デマツイートは非デマツイートよりも, 収束せずに拡散される傾向が見られた(図1). 

blog SNS

一方, SNS 上では会話や議論が活発に行われており, デマに対して自浄作用が働くこともある. 例えば, Twitterはデマ情報を見る割合が特に高いメディアである一方で, デマに対して注意喚起が行われる場でもある2, 3. 今回の検証でも, デマツイートのリプライの中に「ひどいデマを拡散している方ですね. 早く訂正されないと. 」といった注意喚起が見られた.

このような状況から, DataRobot COVID-19分析官向け無料プログラムに参加した NTT データ社のチーム(以下チーム)は, SNS 上における情報の信頼性を向上するために, デマ情報が広く拡散される前にファクトチェック結果を届ける作業の支援をすることが社会貢献になると考えた. そして, ツイートの拡散の仕方や会話の特徴を分析することで, Twitter 上の情報の信ぴょう性を判定できるかどうかを検証した. 具体的には, NTT データ社が保有する Twitter データと DataRobot から無償提供されたエンタープライズ AI プラットフォーム「DataRobot Auto ML」を活用して, 新型コロナウイルス関連のツイートをデマ判定する機械学習モデルの構築とデマツイートの特徴の分析に取り組んだ.

この分析のために NTT データ社から Twitter データアナリスト2名と DataRobot 認定データサイエンティスト1名がチームにアサインされ, DataRobot からもデータサイエンティスト1名が参加した. (チームメンバーのプロフィールは最終章に記載)この取り組みに関しては、デジマイズム記事でもご紹介している.

分析結果

最終的にチームは先行研究3で得られた精度を上回る精度のデマ判定モデルを構築できたが, もしこのモデルでデマを1つも取りこぼさずに正しく判定しようとすると, モデルがデマと予測するツイートの中に実際には28%ほど非デマのツイートが混ざってしまうことが分かった. そのため, チームはこのモデルの活用イメージとして, 機械によるツイートの完全自動判別ではなく, 信ぴょう性が疑われる大量の情報を人手で捌いているケースでの作業効率アップと対応の迅速化を目指したスクリーニングツールとしての使い方を想定した. 

また, 今回の検証を実施する中で, 以下3つのポイントがツイートの信ぴょう性と強い関係性があると分かった. 

  • ユーザー名, プロフィール文の内容: プロフィール文が丁寧なアカウントや公式を謳っているアカウントが投稿したツイートの信ぴょう性は高い傾向にあり, プロフィール文がないアカウントが投稿したツイートの信ぴょう性は低い傾向にあった. 
  • ツイートへの反応: 否定的なリプライがあるツイートは信ぴょう性が低い傾向があり, また, いいね数が少ないと信ぴょう性は低い傾向にあった.
    (リプライとは, ツイート内容に対する意見を, ツイートをしたユーザー本人に向けてメッセージとして送る機能で, リプライを送受信したアカウントをどちらもフォローしているユーザーのタイムライン上に表示されるものである)
  • ツイート投稿者の情報: 他のユーザーが作成したリストに数多く入っているユーザーほど, 投稿するツイートの信ぴょう性が高い傾向にあり, また, フォロー数がフォロワー数より劇的に多い, リスナータイプほど, 投稿するツイートの信ぴょう性が低い.

チームは Twitter 利用者が災害時にツイートを拡散する前に, 今回の検証や様々な研究1, 2, 3からわかってきたことを参考にデマであるか考えることで, SNS 上の情報の質が向上するものと考えている. しかしながら, 人は, 特に災害時には人助けをしたいという善意から結果としてデマを拡散しやすい傾向があり, そのため人間のファクトチェッカーは大量のツイートの信ぴょう性の確認に追われる事になる. 機械学習モデルによる AI がデマ判定をすることで少しでもファクトチェッカーを支援でき, SNS 上の情報の質をよくできればと思っている. 

検証方法

データ抽出・準備

新型コロナウイルスに関するツイートがデマか否かを判定する機械学習モデルの構築には, AI が学習するための過去のデマツイートと非デマツイートが必要だ. この学習用データから, AI はデマツイートと非デマツイートを見分けるために有力な規則性を学習する. そのため, 学習用データを準備する際, ツイートがデマか非デマかラベルを付ける必要がある. 今回の取り組みでは, ラベル付にファクトチェックサイトの情報を利用した. デマツイートと非デマツイートの抽出方法と抽出した件数は以下表1の通りである.

95 table 1
表1. 学習データの抽出方法とデータ件数

デマツイートは, ファクトチェックで誤りと判明している新型コロナウイルスに関連する24種類のデマの話題に関するツイートから抽出し, 「デマ」とラベルを付けた. 次にコロナか COVID という単語と24種類のデマの話題別キーワードが入っているツイートを抽出し(ステップ1), それらの中で5回以上リツイートされているツイートに絞り(ステップ2), さらに目視で確実にデマツイートであるものに絞った(ステップ3). 5回以上リツイートがあるツイートに絞ったのは, 全く拡散されないツイートであれば, 信頼性を確認する必要はないと考えたためである.

非デマツイートは, コロナ, covid 19, 肺炎, ウィルス, virus という単語のうち少なくとも一つと, 効果的, 防ぐ, 予防, 有効という単語のうち少なくとも一つが入っているツイートを抽出し(ステップ1), それらの中で5回以上リツイートされているツイートに絞り(ステップ2), さらに目視で明らかにデマでないツイートのみに絞り(ステップ3), 「非デマ」とラベルを付けた. 非デマツイートに関しては, コロナや COVID という単語を本文中に含まずとも「ウィルス対策に○○が効果的」というような注意喚起ツイートも見られるため, コロナ関連ワードを拡張して「ウィルス, virus, 肺炎」といったキーワードを加えた. 明らかにデマでないツイートとは, WHO や国が呼びかけている内容, ファクトチェックサイトで真実とされている内容のものが該当する. なお, 限られた時間と人でデマか非デマかのラベル付けを行った結果, 今回の取り組みで準備できたデータ数は, 587ツイートであった. 

デマツイートと非デマツイートの具体例を下図2に示す.

95 table 2
図2. 非デマツイートとデマツイートの具体例

以上のように対象となるデマツイートと非デマツイートを抽出した後, ツイートに関するデータやツイートしたユーザーに関するデータ, あるいは, ツイートへの反応に関するデータを準備した. また, 後ほどより詳細に説明するが, 抽出したデータ項目そのものだけでなく, デマ検知に有用と考えられる新しい項目を既存の項目から作成した. このように準備したデータ項目の概要は表2の通りである. なお, 以降は機械学習でよく使われる表現「特徴量」をデータ項目の意味で使用する.

95 table 3
表2. AIモデル作成のために用意したデータ項目(特徴量)

✔︎マークがついている, ツイートの本文とハッシュタグ, また引用されたツイート本文の内容は特徴量として使用しないことにしたため, 特徴量セットから除外した. 上述のようにデマツイートは24種類のデマの話題から抽出しているので, もしこれらの話題であればデマだという学習をすれば精度の良いモデルを構築はできるが, それでは単に抽出基準を学習しているだけであって, 新しい表現のデマツイートが現れた時に検知できないかもしれない. 例えば「10秒間息を止める」という内容はデマだと学習してしまい, 「お湯を飲む」という新しいトピックに応用できなくなってしまうということは避けたい. ツイートの内容に関するデータを使用しないことで, 内容によらずにより汎用的にデマツイートを判定できるようになる. 

また, 実際にデマツイートは早いタイミングから非デマツイートより広く拡散されるという先行研究結果から1, 2, リツイート量とリプライ量の増加率が毎時間どれくらい変化しているかという時系列の特徴量を作成し, 拡散スピードがデマ検知に重要かを検証した. デマは広く拡散される前にできるだけ早く検知し注意喚起することが重要であるため, ツイート投稿後24時間以内の情報のみを使用して特徴量を生成した. 

データ前処理

機械学習モデルを構築する際, 抽出したデータをそのまま使えることは少なく, データの前処理が必要となる. データの前処理には守りと攻めの2種類がある. 

守りの前処理では, データの不備をなくしたり, データを機械学習アルゴリズムに適した形に加工する. 例えば表記ゆれの統一, 外れ値の除去, 欠損値の補完, カテゴリ型の項目の数値化などがある. 今回の取り組みでは, 欠損値の処理とカテゴリ値の数値化は DataRobot Auto ML が自動的に実行した. また表記ゆれや外れ値も, AI モデル構築のための前処理に特化した製品である「DataRobot Data Prep」を使用して容易に処理できるが, 今回は Data Prepを 使用する必要はなかった. 

攻めの前処理では, 業務知識をもとに既存のデータを加工して新しい特徴量を生成したり, 他のデータベースの特徴量を結合したりして, 機械学習モデルの精度を向上させるのに利用する. 例えば, 気温と湿度と風速という3つの特徴量をある計算式に当てはめて, 体感温度という一つの新しい特徴量を作成することで, 人が外出するかをより正確に予測できるかもしれない. これらは特徴量エンジニアリングと呼ばれるもので, 既存の特徴量を加工して新しい特徴量を作成するというデータの前処理であり, 機械学習モデル構築において最も重要な作業の一つだ. 機械的な特徴量エンジニアリングは DataRobot が自動で実行してくれるが, 業務知識や常識をもとにした特徴量エンジニアリングは手動で実行する必要がある. 今回の取り組みでは以下の特徴量エンジニアリングを実施した. 

  • 本文の文字数: ツイート本文の文字数を計算した特徴量を作成. 先行研究では, 非デマツイートの方がデマツイートより文字数が多いという結果が得られている3
  • フォロワー数とフォロー数の比: フォロワー数とフォロー数の比を計算した特徴量を作成. フォロワーが集まってくるがフォローはしていないトレンドセッタータイプか, フォローに専念しているリスナータイプか, それともバランスタイプか, といったユーザーの特徴をデータとして持つことができるようになる. 
  • ポジネガ: NTT データが提供する「なずき」を利用し, ツイート本文の内容をポジティブ, ネガティブ, ニュートラルで判定し, 特徴量を作成した. また, ツイート投稿後24時間までの毎時間のリプライの内容をポジティブ, ネガティブ, ニュートラルで判定し, 集計した特徴量を作成した. 時間ごとの肯定的, 否定的, 中立的な内容のリプライ数を表す特徴量だ. 
  • 時間ごとのリツイート数増加率: ツイート投稿後24時間までの毎時間のリツイート量の増加率という時系列の特徴量を作成. 先行研究では, デマツイートは非デマツイートより速くリツイートされたという結果が得られている2. リツイートは, タイムライン上のツイートを再びツイートして共有する機能で, タイムライン上のツイートをフォロワーと共有したいときに使う. 

時間ごとのリプライ数増加率: ツイート投稿後24時間までの毎時間のリプライ量の増加率という時系列の特徴量を作成. リツイート量のように, リプライ量もデマツイートと非デマツイートで違いがあるのではないかという仮説のもとこの特徴量を作成した. デマツイートには早いタイミングからデマに関しての注意喚起がされるのではないかと考えた. リプライは, ツイート内容に対するリアクションや意見など, ツイートをしたユーザー本人に向けてメッセージを送る機能で, リプライを送受信したアカウントをどちらもフォローしているユーザーのタイムライン上に表示されるものである.

モデル構築

チームは準備したデータを DataRobot Auto ML にアップロードして機械学習モデル構築を自動で行った. 具体的な流れは以下の通りである. (実際に人間が行う作業は予測対象の設定と開始ボタンの押下のみ)

  1. アップロードされたデータが想定通りであることを各特徴量の分布を見て確認した後, 「デマフラグ」を予測する対象として設定
  2. 開始ボタンを押して, 2値分類モデルの構築を開始
  3. DataRobot Auto ML が自動で欠損値の補完やカテゴリ特徴量の数値化, また, ほとんどが欠損の特徴量や値が一つしかない特徴量の削除を実施
  4. DataRobot Auto ML はデータを5分割し5フォールドの交差検定を実施. 80%のデータが学習に使われ, 20%のデータを検定に使用
  5. 学習データを使用して複数のモデルが構築され, 学習には使用されていない検定データで, 構築されたモデルの精度を評価

モデリングが開始されると, DataRobot Auto ML はデータの前処理と機械学習アルゴリズムの組み合わせを決める, ブループリントと呼ばれる「機械学習の設計図」を自動作成する. 

  • データ前処理: 欠損値やカテゴリ特徴量の処理, 主成分分析やクラスタリングといった処理, 2つの特徴量の差と比の計算, 日付特徴量から曜日や月の抽出, テキストマイニングや画像の特徴量化など
  • 機械学習アルゴリズム: ディープラーニングを含むニューラルネットワーク系のアルゴリズム, XGBoost やランダムフォレストなどの決定木系のアルゴリズム, また回帰系のアルゴリズムやk近傍法そしてナイーブベイズやサポートベクターマシーンなど, ありとあらゆるアルゴリズム

DataRobot Auto ML が作成したブループリントでの「勝ち抜き戦」が行われ, 最後に, 精度の良いモデルをブレンドしたブレンダーモデルも自動生成された. 最終的に54個のモデルが構築され, 精度の良い順にリーダーボード上に表示された. 

モデル選択

交差検定での精度をもとにモデルを選択した. 交差検定での精度とは, 5回の検定での精度の平均である. この取り組みでのモデルの活用イメージは, リアルタイムでデマ判定結果を自動的に Twitter に反映するのではなく, 毎日処理しきれない数のファクトチェックをしている人をご支援する目的で, モデルのデマ判定結果をもとにチェックするツイートを絞り込むというものだ. よって, リアルタイムでデマ判定をするための予測の速度よりも, モデルの精度を重視してモデルを選択した. 

モデル選択のための精度パフォーマンスを評価するための指標としては, AUC を採用した. AUC は2値分類でよく使われる指標で, ランダムなモデルであれば0.5, 最も精度の良いモデルであれば1.0になり, 直感的に分かりやすい. デマ判定をするにあたっては, ある閾値以上の予測値のものをデマと判定した場合に合っているかどうかが重要なので, 順位をつけた際に正解した割合を考慮するべきであり, AUC が適切と考えた. 

モデル評価

上述のように選択したモデルの精度パフォーマンスは AUC で表されているが,  AUC はモデルの総合的な精度を示してくれるものの, この一つの値のみでは, モデルの精度の一貫性や, モデルの予測値に基づいて意思決定した際の正確さはわからない. そこで, DataRobot が出力する混同行列を使用して, モデルのパフォーマンスをさらに深堀りした. 

混同行列とは, モデルの予測結果と, 実際の実測値によって場合分けし, それぞれの場合が起こる件数をまとめた表である. デマ(+)/非デマ(-)のどちらかを予測するような2値分類モデルでは, 以下のように混同行列は2×2=4通りのケースパターンを表す(図3). 

95 table 4
図3. 2値分類モデルにおける混同行列の概念

True Positive(TP):モデルがデマ(+)と予測し, 実際にデマ(+)であった件数

False Negative(FN):モデルが非デマ(-)と予測し, 実際はデマ(+)であった件数

False Positive(FP):モデルがデマ(+)と予測し, 実際は非デマ(-)であった件数

True Negative(TN):モデルが非デマと(-)予測し, 実際に非デマ(-)であった件数

2値分類問題では, 実際のデマのうちいくつをモデルがデマだと予測できたかを表す「リコール」と呼ばれるカバー率(= TP /(TP+FN))と, モデルがデマだと予測したうちいくつが実際にデマであったかを表す「プレシジョン」と呼ばれる的中率(= TP /(TP+FP))がモデルの精度を評価する上でよく使用されている. 今回の取り組みでも, これらの指標でモデルを評価した. 

モデル解釈

単にモデルの精度パフォーマンスだけを評価するのではなく, 「どの特徴量がデマ判定に重要であったか」, 「重要であった特徴量の値と予測の対象(デマツイートである可能性)にはどのような関係性があるのか」といった観点からモデルの解釈を行うことで, 分析前に立てていた仮説を検証できたり新しい気づきを得られるため, ひいてはモデルの信頼性向上にも繋がる. 特徴量とモデルの関係の確認にはDataRobot Auto MLの「特徴量のインパクト」と「特徴量ごとの作用」という機能が利用された. 

特徴量のインパクトからは, 特徴量が予測精度に与える影響を確認できる(最も影響力の強い特徴量を100%とし, 他の特徴量の影響力が相対的に表示される). チームは仮説として重要であるとされている特徴量が本当に影響力の強いものとして捉えられているか, あるいは新しい気づきとなるような意外な特徴量が重要だと捉えられているかを確認した. 

特徴量ごとの作用からは, 特徴量の値が変化したときに, 予測値がどう変化するかを確認できる. 例えば, ツイートのいいね数が0から100に変わるとデマスコアは約69%から59%まで急激に約10ポイントも低くなるという関係をみることができた. また, 特徴量ごとにモデルの予測値と実測値を比べることで, その特徴量のどの領域でモデルの性能が悪いのかを特定した. 

さらに, 今回の取り組みでは, ユーザー名やプロフィール文がテキスト型の特徴量として含まれていたので, テキストマイニングが実行され, どの単語がデマツイート/非デマツイートであるかどうかと強い関係性があるのかを確認した. 

モデルからのアウトプットは確率値で表されたデマツイートの可能性であり, 「デマスコア」と呼べるだろう. スコアが高ければデマの確率が高く, スコアが低ければデマの確率が低い. 今回の取り組みでのモデルの活用イメージは, 手動でファクトチェックをする人の支援であるから, デマスコアに加えて, そのスコアに至った理由を説明できると, ファクトチェッカーに有力な情報を提供でき, モデルの信頼性の向上にも繋がる. DataRobot Auto ML には, 個々のスコアの理由を説明する機能がある. この「予測の説明」機能を使用して, ツイートのどのような特徴が高いデマスコア, 低いデマスコアに影響しているのかをスコア単位で確認した. 

検証結果

モデルの精度

DataRobot Auto ML で多数のモデルを作成して精度を比較した結果, 最も精度の良かったモデルは, 交差検定での AUC が0.8893と最も高かった GLM Blender で, eXtreme Gradient Boosted Trees Classifier と Keras Slim Residual Neural Network Classifier と Neural Network Classifier を組み合わせたものであった(表3). 先行研究で, チリで起きた地震災害時のツイートを機械学習でデマ判定できるか検証した際, AUC は0.86という結果が得られている3. 今回の検証の方がモデルの精度が良いが, 異常なほどかけ離れているわけではない. アルゴリズムの種類, ブレンダーの構築, データの前処理などが先行研究との違いだ. また, 先行研究では, ユーザー名とプロフィール文は特徴量として使用されてないという違いもある. これらの特徴量がデマ判定に重要だという結果は, 日本特有かもしれないが, 今回の取り組みから得られた新しい気づきである.

95 table 5
表3. 最も精度が良かったモデルと精度指標

デマ判定モデルの使い方を考えたとき, 出来る限りデマツイートの取りこぼしは無くしたい. 実際にデマであるツイートは, モデルにデマだと判定して欲しい. このパフォーマンスは, 上述のようにリコールという指標で評価するが, もしリコールを1.0と全く見逃しをしない設定にした時に, デマと予測したツイートに実際にデマであるツイートがどれくらい入っているかを評価する指標であるプレシジョンがどのような値になるかを確認した. 最も精度の良かった GLM Blender では, リコールを1.0としたときのプレシジョンは0.7216であった. つまり, デマとモデルが判断したツイートのうち72%は実際にデマで, 28%は非デマツイートをデマと誤判断したということになる. 

GLM Blender の精度をもう少し細かく見ていきたいと思う. DataRobot Auto ML は, 作成した全てのモデルで, 混同行列や ROC 曲線, 予測の分布を可視化している(図4). 図4の右上にある混同行列を見てみると, 交差検定で使われた587件のツイートのうち, 510件をデマだと予測し, 残りの77件は非デマと予測している(これは, 見逃しがないようにリコールが1.0になる閾値を設定した時の数字であることに注意). 非デマとモデルが予測した中に, デマは一つも入っていない. 587件のツイートのうち77件は調査する必要がないということになる. 13%と大きい割合ではないが, 効率化に繋がるところだ. デマだと予測した510件のツイートのうち, 142件は非デマであった. これらのツイートは人が確認することになるが, デマスコアの高いツイートから調査することでより早くデマツイートを発見し対応できるかもしれない. デマスコアが最も高い10%のツイートを見たところ, 95%が実際にデマツイートで, 誤判断となった136件の非デマツイートは3件しか入っていなかった. 

95 Picture1
図4. 最も精度が良かったモデルの混同行列, ROC曲線, 予測分布, などの情報

今回の検証では, デマの見逃しをしないという想定で, リコールを1.0としたときのプレシジョンで評価したが, 違う想定もあり得る. 例えば, ファクトチェックできるツイートの件数に上限がある場合, 予測でデマと判定される件数がこの上限内に収まるように閾値を設定することになる.

モデルと特徴量の関係

構築したモデルに関して知りたい情報の一つは, どの特徴量がモデルにとって重要なのかだ. すでに述べたようにチームは GLM Blender の特徴量のインパクトを確認した(図5). 実はこのモデルの精度に一番影響したのは, プロフィール文だった. 次に影響力があったのが, ユーザー名で, その下に添付 URL, いいね数, ツイート投稿曜日, フォロー数とフォロワー数の比, 総リスト登録数と続く. 時間ごとのリツイート数とリプライ数の増加率は, リツイート数増加率が特徴量のインパクトのグラフに出てきているが, 上位ではなかった. また, ポジネガ極性は, 1時間後の否定的なリプライ数が特徴量のインパクトの上位9番目に現れた. 

95 Picture2
図5. 最も精度が良かったモデルでの「特徴量のインパクト」

トップ3のプロフィール文, ユーザー名, 添付 URL はいずれもテキスト型の特徴量なので, チームは DataRobot Auto ML が作成したワードクラウドも確認した(図6). ワードクラウドでは, 単語が赤いほどデマである傾向が強く, 単語が青いほど非デマである傾向が強い. また, 大きさはその単語の出現頻度を表している.

95 Picture3
図6. テキスト特徴量から作成されたワードクラウド

ワードクラウドから得られた知見は以下の通りである. ツイートを拡散する前に, ユーザー名やプロフィール文を確認すると, ツイートの信頼性を判断するために使える情報が得られるかもしれない. 

  • プロフィール文とユーザー名に, 「公式アカウント」や「ニュース」「市」といった単語が入っていると, 非デマの傾向がある
  • プロフィール文に「です」や「ます」が使われていて丁寧であると非デマの傾向がある
  • プロフィール文が入っておらず「nan」になっているとデマの傾向がある

チームは次に, 特徴量のインパクトの上位4番目に現れている「いいね数」とデマスコア(デマツイートである確率)の関係も確認した(図7). ツイートへのいいね数が0から100に変わるとデマスコアは約69%から59%まで急激に約10ポイントも低くなっている. Twitter ではデマツイートへの注意喚起がされることもあり, デマツイートにはいいねがつきにくいと考えられる. 

95 Picture4
95 Pic図7. いいね数(横軸)とデマツイートである確率(縦軸)との関係性ture4

実際、デマツイートに対するリプライ13,505件と, 非デマツイートに対するリプライ3,702件の中身を分析してみると, 「デマ」という単語は, デマツイートのリプライには6.2%出現するのに対して, 非デマツイートのリプライには0.7%しか出現しない. 例えば, 「ひどいデマを拡散している方ですね. 早く訂正されないと. 」といったリプライがデマツイートには見られた. このようなデマツイートへの注意があり, いいねがつかない傾向にあると考えられる. 

特徴量のインパクトの上位5番目に現れる特徴量は「ツイート投稿曜日」だ. こちらもデマスコアとの関係性を確認したところ(図8), 月曜日と火曜日はデマスコアが約66%で, 水曜日に約56%まで下がり、木曜日と金曜日で徐々にデマスコアが上がり、週末には約68%まで上がった. 週末は、ツイート数が全体的に増える傾向にあるので, デマの量もそれに合わせて増えると同時に, 企業や自治体などの, デマを拡散する可能性が低い公式アカウントのツイートが少なくなるのもあり, デマの確率が上がると考えられる. 月曜日と火曜日にデマスコアが高い理由としては, 週末に出たデマ情報が火曜日まではツイートされるのかもしれない. 実際に, 火曜日に投稿されたデマツイートには, ソースとなるツイートが週末に登場していたというケースもあった. しかしながら, 水曜日に突然デマスコアが下がる理由は, より詳細に調べないとわからない.

95 Picture6
図8. ツイート投稿曜日(横軸)とデマツイートである確率(縦軸)との関係性(0=月曜日 ~ 6=日曜日)

フォロワー数とフォロー数の比に関しては, フォロワー数がフォロー数よりも非常に多いトレンドセッタータイプが投稿したツイートはデマである確率がおよそ56%であるのに対して, フォロー数がフォロワー数より劇的に多いリスナータイプからのツイートはデマである確率が約67%となった(図9). トレンドセッタータイプは, 地域に頻繁にツイートし情報共有するような公式アカウントが多く, 内容を確認して情報を共有する傾向にあるのかもしれない. 逆に, リスナータイプは, あまりツイート投稿に慣れておらず, 緊急時に人助けをしたいという思いで, ファクトチェックをせず有力そうな情報を共有してしまう傾向があるのかもしれない. 

95 Picture7
図9. フォロワー数/フォロー数(横軸)とデマツイートである確率(縦軸)との関係性

特徴量のインパクトの上位7番目に現れる特徴量は「総リスト登録数」だ. こちらもデマスコアとの関係性を確認したところ(図10), 他のユーザーが作成したリストに数多く入っているユーザーほど, 投稿するツイートの信ぴょう性が高いという傾向があった. 総リスト登録数が0件から約1000件に増えると, デマスコアが約68%から60%まで, 8ポイント下がる. 提供する情報の信ぴょう性が高いため, 多くのユーザーに有益な情報発信者だと認識され, リスト登録されていると考えられる.

95 Picture8
図10. 総リスト登録数(横軸)とデマツイートである確率(縦軸)との関係性

特徴量のインパクトの上位9番目に「投稿1時間後の否定的リプライ数」が現れた(図11). 投稿1時間後の否定的なリプライ数が0件の場合はデマスコアが約64%なのに対し, 否定的なリプライ数が3件あると, デマスコアが73%まで9ポイント上がるとわかった. Twitter 上では, 自浄作用が働いており, デマツイートにはリプライで注意喚起がされるため, 否定的なリプライの数が増えると考えられる.

95 Picture10
図11. 投稿1時間後の否定的リプライ数(横軸)とデマツイートである確率(縦軸)との関係性

デマスコアと特徴量の関係

機械学習でデマ判定をする際, 予測のスコアがアウトプットされる. デマスコアがある閾値以上のツイートはデマと判定され, そのようなツイートのみ人が調査をするというのが今回のモデル活用イメージだ. この時, デマスコアだけではなく, なぜそういうスコアになったのかの説明があると, 人が調査しやすいし, モデルの信頼性向上に繋がる. 

図12は, DataRobot Auto ML の「予測の説明」という機能である. 上部のチャートは予測値の分布を示していて, 分布の青いところがデマの確率が低いケースで, 赤いところがデマの確率が高いケースを示している. 下半分の表では, デマスコアが最も高い3つの例と, デマスコアが最も低い3つの例をサンプルとして表示している. 予測されたデマスコアごとに, どの特徴量がそのスコアに対して重要だったかが重要度上位3個まで表示されている(何個まで表示するかは UI 上で変更できる). 例えば, 最もデマスコアが高いツイートは, (1)ある添付 URL が含まれており, (2)プロフィール文の内容と(3)総ツイート数によりこういったデマスコアになったと説明されている. 逆に, デマスコアが低いツイートを見てみると, 認定された公式アカウントであるといった理由で低いスコアとなっている. 

95 Picture11
図12. 予測の説明:「なぜその予測値になったのか」の理由が分かる

モデルと特徴量の関係をみる特徴量のインパクトで重要度上位に来ていた特徴量が, 予測スコアの説明でも重要な理由として上がっている. プロフィール文, ユーザー名, 添付 URL, いいね数, フォロワーとフォロー数の比の他にも, リプライのポジネガ極性や認証済みアカウントかが予測スコアの理由として上がってきた. このように, デマの信頼性を確認するファクトチェッカーに予測スコアに加えて予測理由を説明する情報を与えられれば, ファクトチェクの効率化をサポートできると考える.

ディスカッション

本検証を実施する中で, DataRobot Auto ML が出力した様々なインサイトをレビューし, 「ツイートへの反応」や「投稿者の情報」からツイートの信ぴょう性を確認する際のポイントを見つけられた. このセクションでは, 信頼できるツイートか見極めるためのポイントをまとめた後, 今後のモデル活用に向けて考えていることを紹介する. 

デマ判定のポイント

  • ユーザー名, プロフィール文の内容: ツイートの信頼性を判断するために, 投稿者のプロフィールやユーザー名を見ることは重要だとわかった.
    • プロフィールを丁寧に記載しているアカウントが投稿したツイートの信ぴょう性は高い
    • 情報発信や公式を謳っているアカウントが投稿したツイートの信ぴょう性は高い
    • プロフィールを記載していないアカウントが投稿したツイートの信ぴょう性は低い
  • ツイートへの反応: ツイートの信頼性を判断するために, いいね数と否定的なリプライ数を見ることは重要だとわかった.
    • いいね数が少ないほど, 信ぴょう性は低い
    • 投稿後1時間など, 早いタイミングで否定的なリプライがされるツイートほど, 信ぴょう性が低い
  • ツイート投稿者の情報: ツイートの信頼性を判断するために, ツイート投稿者の性質を見ることが重要だとわかった.
    • フォロワー数がフォロー数よりも多い, 公式アカウントタイプほど, 投稿するツイートの信ぴょう性が高い
    • フォロー数がフォロワー数より劇的に多い, リスナータイプほど, 投稿するツイートの信ぴょう性が低い
    • 他のユーザーが作成したリストに数多く入っているユーザーほど, 投稿するツイートの信ぴょう性が高い

今後のモデル活用に向けて

今回作成したモデルでデマを1つも取りこぼさずに判定しようとすると, デマと予測するツイートの中に28%ほど非デマのツイートが混ざることが分かった. この点を踏まえて活用用途を考えると, 信ぴょう性が疑われる大量の情報を人手で捌いているケースで, 今回のモデルをスクリーニングで活用すれば, 作業効率の改善を測ったり, これまで処理しきれなかった大量の情報に対処することが可能になると考える. 本検証でのシミュレーションでは、スクリーニングによる負担軽減効果は13%で、予測デマスコアの高いツイートから調査するようにトリアージすることで、対応速度の改善に繋がるという結果となった. 

95 Picture12

今後, 機械学習モデルをデマ判定に活用していくためには, さらなる検証が必要である. まず, 今回はDataRobot の COVID-19 プログラムでライセンスを使える期間の中で検証する必要があったため, 限られた時間と人でデマか非デマかのラベル付けを行った結果, 学習用データとして587ツイートしか準備できなかった. しかしそれでも先行研究で報告されているより精度の高いモデルを構築できることが分かったため, より多くの新型コロナウィルス関連のツイートを学習データとして利用してデマ判定モデルを検証したいと考えている. 

一方, チームはいつまでも検証だけを続けるのではなく, 実運用しながら改善していくという進め方がベストだと考えている. 今回, 精度パフォーマンスの観点では非デマをデマと判定してしまうという間違いをもっと減らしたいところだが, 実は先行研究で重要だと特定された特徴量で, 今回使用していないものがあるので, それらを試してみる価値がある.

  • URL の情報: 今回の検証では添付 URL の深掘りを行わなかったが, 先行研究では 3, URL 先のウェブページが最も人気のあるウェブサイトのリストに入っていると, ツイートの信ぴょう性が高くなるという結果が報告されている. URL 先のウェブページが信頼できるかという情報を特徴量にして, モデルのデマ判定の精度を上げられるか検証したいと思う. 
  • 感性: 今回の検証ではポジネガ極性を特徴量として作成したが, 感性は含めなかった. 不安になるようなデマは特に拡散されやすいという先行研究結果もあるので, NTT データ社の「なずき」を使用して, 感性を特徴量として作成し, モデルの精度向上を試みたいと思う. 
  • 代名詞: 疑問符や感嘆符がツイートに含まれていたり, 一人称代名詞や三人称代名詞が使われているツイートは, デマである確率が高かったという報告がある3. このような特徴量を加えて, モデルによるデマ判定の精度を上げられるか確認したいと思う.

おわりに

このブログでご紹介した取り組みでは, Twitter の投稿や投稿者の情報を使い, 新型コロナウィルスに関するツイートのデマ判定をするモデル構築にトライした. 汎用性を持たせるために, ツイート本文を使わないアプローチを取ったが, 本文以外の情報のみで良い精度のモデルを構築できた. デマツイート判定の閾値をデマを一つも取りこぼさないように設定すると, 多少非デマをデマと誤判定してしまうが, そこを改善しながら, ファクトチェッカーのスクリーニング支援という形の実運用化へ進める価値があるデマ判定モデルが構築できたと考える. 

構築したモデルを解釈する中で, デマツイートの特徴を分析した. ツイートに対する反応情報や投稿者情報から, ツイートの信頼性を判断するために見るべきポイントを発見できた. プロフィールを丁寧に記載しているアカウント, 情報発信や公式を謳っているアカウントが投稿したツイートの信ぴょう性は高く, 逆に, プロフィールを記載していないアカウントが投稿したツイートの信ぴょう性は低い. また, 否定的なリプライがあったり, いいねが少ないツイートの信ぴょう性は低い. ファクトチェッカーだけでなく, SNSユーザー全員が, こういったツイートの特徴に気を付けながら, ツイートを共有するか考えていただけたら, SNS上の情報の質が上がっていくだろう. 

最後に, チームメンバーにとっては, Twitter を使用してDataRobot で有益な分析を行えることがわかったというのも一つの発見だった. これから DataRobot x Twitter のユースケースを増やしていきたい. 

プロジェクトチームメンバー紹介

中山忠明: プロジェクトリーダーとして全体をマネージ

株式会社NTTデータ ITサービス・ペイメント事業本部 SDDX事業部 マーケティングデザイン統括部 デジタルマーケティング担当。NTTデータにてリスクモニタリング領域における複数のシステム開発プロジェクトにプロジェクトマネージャーとして携わる。現在は Twitter 全量データをはじめソーシャルメディアを活用したマーケティング戦略立案・分析を製造、流通、金融など様々な企業に提供している。

夏 エイチュウ: 分析担当としてデータ準備、モデル構築、モデル解釈を実施

株式会社NTTデータ ITサービス・ペイメント事業本部 SDDX事業部 マーケティングデザイン統括部 デジタルマーケティング担当。中国出身。2019年に NTTデータに入社して以来、Twitter 全量データ活用に従事し、幅広い業種の企業をお客さまとして、マーケティング戦略立案・分析やリスクモニタリングなどに携わっている。

笠原 宏太: データサイエンティストとしてサポート

NTTデータ ビジネスソリューション事業本部 AI&IoT事業部 コンサルティング担当主任。大学院時代に素粒子物理学を専攻し、CERN(欧州原子核研究機構)で暗黒物質の研究に貢献。博士号取得後、NTTデータに入社し大手製造業様向けのデータ分析案件や、自然言語処理関連の分析案件に従事。DataRobot や NTT研究所開発技術 corevoを活用し、分析設計~業務への実装までトータルでの支援を行い、定着化を実現してきた。DataRobot 認定 Customer Facing Data Scientist。

坂本康昭: データサイエンティストとしてサポート

DataRobot データサイエンティスト。2005年にテキサス大学にて認知科学博士号取得。スティーブンス工科大学での教授職時代に SNS 上での情報共有に関する研究を含む50を超える学術論文を出版、データサイエンスプログラム立上げメンバーとして貢献。2015年に日本に戻り、保険会社でチーフサイエンティストとして AI の応用に従事。2017年から DataRobot のデータサイエンティストとして金融、ヘルスケア、製造など様々な業界のお客様をサポート。

参考文献

  1. Mendoza, M. and Poblete, B. Twitter Under Crisis: Can We Trust What We RT? In Proceedings of the First Workshop on Social Media Analytics, 2010, 71-79.
  2. Tanaka, Y., Sakamoto, Y., and Matsuka T. Toward a Social-Technological System That Inactivates False Rumors Through the Critical Thinking of Crowds. In Proceedings of Hawaii International Conference on System Sciences, 2013, 649-658.
  3. Castillo, C., Mendoza, M., Poblete, B. Predicting Information Credibility in Time-Sensitive Social Media. In Internet Research, Vol. 23, Issue 5, Special issue on The Predictive Power of Social Media, 2013, 560-588.

投稿 DataRobotでSNS上のデマ判定DataRobot に最初に表示されました。

]]>
小売・流通業のAI活用におけるコロナウイルスの影響 https://www.datarobot.com/jp/blog/impact-of-coronavirus-on-use-of-ai-in-retail-industry/ Fri, 08 May 2020 08:07:52 +0000 https://www.datarobot.com/jp/?post_type=blog&p=3722 コロナウイルスは、流通・小売・外食産業に非常に大きな影響を及ぼしています。ただ、影響のされ方は、業種・商品・地域によって大きく異なります。このブログでは、現状を分析し、それを元に、この未曾有の事態を生き抜くために、機械学習を活用した対処法を考察します。

投稿 小売・流通業のAI活用におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
非常事態宣言の1ヶ月の延長検討されるなど、新型コロナウイルスの終息はまだ見えません。コロナウイルスは社会・経済全体に大きな影響を与え、一般消費行動すら変化しています。小売・流通業もその煽りを受け、単にマスク、アルコール消毒、空気清浄機などでのコロナ特需だけに終わらず、多くの変化が生じています。

本ブログでは、DataRobot小売・流通チームがコロナウイルスの影響をまとめ、これまで AI を活用していた分野における影響、今の時期にこそチャレンジする価値のある AI 活用領域について紹介していきます。

小売流通業界における新型コロナウイルスの影響

政府はコロナウイルスの終息に向け、非常事態宣言を行い、人と人との接触を「極力8割削減する」との目標を掲げています。東京都も遊興施設、商業施設、劇場など6業態に休業要請を出すなど、外出、外食、旅行などの一般消費者の人との接触につながる行動は大きく減少しています。この影響をセブン&アイ Holdingsの2月期決算資料を例に見てみましょう。

下図にある様に、2020年3月では前年比でイトーヨーカ堂とヨークベニマルは若干のプラス、セブンーイレブン・ジャパンと 7-Eleven, Inc. は若干のマイナス、そごう・西武とデニーズは大幅なマイナスとなっています。これが日本の小売業界のコロナウイルスの影響の縮図となっており、「総じてネガティブな影響が大きいが、部分的にはポジティブな影響」を受けているのが小売・流通業の現状です。

81 Image 1

具体的な数字を使って、もう少し細かく影響を見て見ましょう。

外出・によってショッピングセンター(SC)や百貨店などの巨大な商業施設では自主的な休業と遠出・人混みを避ける消費者の意識もあり、売上が大きく減少しています。日本ショッピングセンター協会によると、3月の SC 既存店売上高は前年同月比で28.0%減少、日本百貨店協会の発表では百貨店は前年同月比で33%減少となっています(4月の売上速報では大手各社7〜9割減)。

外出自粛は、人々の行動パターンにもダイレクトに影響を及ぼしています。外出が減った事で、外出のための着飾り・メイクアップのニーズが下がり、衣料品・化粧品の消費も大きく下がっています。国内の大手アパレル 各社の3月の店舗売上高は軒並み前年同月比3〜4割減、化粧品も前年金額比で2〜3割程度減少している模様です。

外食も同様に営業時間の短縮要請や商業施設内のフードコートや繁華街の人出が減った影響もあり、3月は前年同月比17%減少となっています。

一方でコロナの影響を受けて伸びているのが食品スーパーです。家で食事をするニーズの増加などを’受け、3月は前年同月比7.4%増なっています。

外出自粛によって小売業界に新たなトレンドも生じています、EC・通販・宅配サービス家の中での体験の増加です。

外出が控えられるにつれて、Amazon、楽天、生協やネットスーパーなどの EC、そして Uber Eats、出前館などの宅配サービスのニーズが増えています。例えば、ユナイテッドアローズでは営業自粛の影響もありリアル店舗では39%減となっているものの、EC では24%増となっています。

EC への移行による消費者へのメリットは多岐に及びます。一例として、外食産業における EC 化(アプリからのオーダー対応)のインパクトを以下にまとめました。

この様に、小売・流通企業の EC の活用は、コロナ拡散を防止し、コロナ下で影響少なくオペレーションしていく為に非常に重要です。

また、旅行・遊興施設、外食などが控えられるにつれて、家の中での体験のニーズが増えています。例えば、宅飲みやゲーム、自宅用のフィットネス器具やジョギングなど接触の少ない運動グッズの消費が増え、挙げ句の果てにはパンや菓子づくりが増えたためにスーパーで小麦粉が品切れる事態にもなっています。

最後に、もう1つ大きな影響を受けているのがインバウンド市場です。2019年のインバウンド消費額が4.8兆円、それに占める買い物額が1.7兆円にも上り今や日本の重要な産業の1つでもあります。この市場がほぼゼロになり、インバウンドへの依存度が高い百貨店、繁華街のドラッグストアや家電量販店などが特に大きな影響を受けています。

コロナウイルス下の小売業界における機械学習の活用

以下の図は小売・流通業のバリューチェーンの中で、一般的な AI の活用事例を示したものです。それぞれの活動の中でコロナウイルス下で今取り掛かるべきテーマ、見直すべきテーマ(AI の活用が可能であるが、既存のモデルでは役に立たないなど注意が必要なテーマ)、現在は進めるべきでないテーマとそれぞれのテーマでの対応策を見ていきます。

81 Image 3

物流/在庫管理

コロナウイルスによって物流や消費者の需要は大きく影響を受けています。

パニック買いが発生し、マスク、アルコール消毒だけでなく、ティッシュも品不足になり、毎朝ドラッグストアに開店前の行列ができ、スーパーでも棚に商品がないという事態に発展しました。また人々の生活パターンが変化し、これまで週末に受け取る人が多かった EC が在宅勤務などで平日にも受け取る人が増えるなど、宅配物流のパターンにも変化が生じています。

その結果、これまで長年の勘や経験で成り立っていた需要や物流量の予測もその難易度がより上がるでしょう。この様な状況でも、機械学習を活用し、顧客のニーズの変化に対応した予測を行う事が可能です。以前にブログで紹介しましたが、最新データからの学習傾向を強め、長期的トレンドに強く依存しないモデル構築する事で変化に対して対応力のあるモデルを生成できます。また、売上の履歴データに加え、流動人口データ等を組み込むことで、更に短期的精度の向上が期待されています。

一方で、機械学習は過去の結果から学習して、未来を予測する技術ですので、どの様な場面でも対応できる訳ではありません。担当者は機械学習モデルの運用に際して、ストレステストや過去データでの検証を元に、機械学習モデルの予測値を利用しない条件とその時のオペレーション方法を決めておく必要があります。例えば私の担当したお客様では

  1. 新商品の発売後2週
  2. 年に2度しか行われない大セール
  3. 数年に一度の台風・大雪があった場合
  4. 年に1度のイベント

場合には、機械学習モデルの予測値の精度が十分でないため、現場の判断でに任せて予測を上書きするオペレーションを取っておられました。

一方で、この様な時期に AI が適していないのは、上でも述べた新商品の需要予測や長期の需要予測です。新商品の数は限られているため、最新の変化に対応させるモデリングは難しいのが現実です。また、人間がコロナウイルス影響下で1年先の予測をする事が難しい様に、機械学習でも実現性の低いテーマです。

見直すべき AI テーマ

・短期の需要・物流予測

現在は進めるべきでないテーマ

・長期の需要・物流予測

・新商品の需要予測

広告宣伝

冒頭で述べた様に、外出自粛の影響によって小売はリアル店舗から EC・通販へと大きくシフトしています。EC サイトでは、ユーザーごとの閲覧履歴や購入履歴などあらゆる情報を取得する事ができ、それを分析する事でユーザーを深く理解し、プッシュ、E メール、Web サイトでのレコメンドなどのカスタマイズしたコミュニケーションに生かす事ができます。

しかしこの様な CRM データに基づくターゲティングモデルも、消費者の需要と行動パターンの変化に より変更を強いられる可能性が高いでしょう。コロナ以前のマーケティング・営業活動の結果に基づく学習データではなく、新たにテストマーケを行うなどをして集めたデータから再学習を行うことで、 現場が捉えきれていない消費者の反応の傾向をデータドリブンに読み取っていけるようになるでしょう。

また、企業の業績の悪化に伴い企業のマーケティング・広告予算は大きく減少しており、効果の低い広告を減らす必要があります。過去のブログ記事にもある様に、機械学習を使って広告効果を測定する事ができます。その分析を用いて、現場の担当者やマーケターの感覚に頼らない、数字に基づいた意思決定が可能になります。一方で、コロナの影響で消費者の行動が変化し、マーケティングの効果ももコロナ以前と異なる可能性が高い事に留意する必要があります。

見直すべき AI テーマ

・CRM データに基づくマーケティング

  1. ターゲティング
  2. アップセル/クロスセル
  3. 商品レコメンド
  4. 再購入予測

・機械学習を活用した広告効果の計測

販売

2019年にはこれまで増加の一途を辿ってきたコンビニの店舗数の増加が頭打ちしましたが、コロナの影響でこのトレンドが加速すると想定されます。そして、今後はどの店舗を退店するかの選択を迫られる様になるでしょう。そこで退店が近隣の自店舗の売上にどの様な影響を及ぼすかを予測するモデルのニーズが生じると考えられます。

しかし、逆説的に考えると、他社の出店が減る時代は掘り出し物が増える出店のチャンスであり、ドラッグストアなどの一部の業界での出店は継続すると考えられます。その際、コロナの影響で新店の売上がこれまでと変わるなど不確定要素が多いため、最善ケースと最悪ケースなど複数の場合でシミュレーションを行うなど部分的な見直しが必要です。

企業が EC に軸足を移す事によって生じてくるのが、不正購入、不正返品の検知です。クレジットカード決済での不正利用やなりすましの可能性が高い注文は、早期に検知し出荷を止める必要があります。同時に近年は無料の返品を受け付ける EC も多くなってきましたが、それらにその場合数多い返品の中からどれが返品対応可能な物かの判断に機械学習モデルを活用する事ができます。

今取りかかるべき AI テーマ

・退店予測

・EC での不正購入/返品検知

見直すべき AI テーマ

・出店予測

顧客サービス

混雑した店舗での感染を避けるため、ドラッグストアを始めとする様々なサービスが電話での対応を開始し、コールセンターのニーズは増大しています。入電量の予測には以前から機械学習が使われている業界も多く、これからのタイミングで必要とされるケースも増えるでしょう。一方で、3密を避けるために、席間隔を拡大する必要があるために、ニーズに十分あったオペレーターを用意するのは難しい事が想定されます。そこで、機械学習を用いて、お客様にアナウンスする待ち時間の予測や、自動処理のためのカテゴリ分類などの需要も増えるでしょう。

食品スーパーなどでは、パートやアルバイト従業員が休校・休園で働けなくなる一方で、需要が増加し、感染防止対策の作業も増え、人手不足が生じています。そこで採用の初期選考をAIを用いて行う事で、担当者の採用における作業を軽減する事ができます。

今取りかかるべき AI テーマ

・呼量予測

・コールセンター待ち時間の予測

・コールセンターの振り分け

・採用予測

アフターコロナに向けて

緊急事態宣言が終了しても、すぐさま小売がコロナ以前に戻る事はありません。

コロナウイルスの終息には数年の歳月がかかると言われていますし、インバウンド市場などは長く低迷するでしょう。外食やリアル店舗に徐々に戻る部分もあると思いますが、EC・デリバリーサービスや家庭で体験に慣れ親しんだ消費者は、それらを継続的に活用していく事が考えられます。

また、ティッシュペーパー、トイレットペーパー、生理用品など買い溜められた商品は、今後コロナ終息に近くにしたがって、その反動で需要が落ち込むと考えられます。

これらの「アフターコロナ」の市場における需要回復 への道のりと消費者行動の変化を的確に捉えていくためには、今まで以上にデータドリブン なアプローチが必要となり、機械学習技術へのニーズが増えていく可能性があります。コロナウイルスによって今後引き起こされていく、小売・流通業の変化に対応するためにも、AI・機械学習がより一層活用され、そして DataRobot もその一助になれば幸いです。

バーチャルカンファレンス
DataRobot AI Experience Japan

変化の時代にAIのインパクトは加速する

オンデマンドで見る

投稿 小売・流通業のAI活用におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
製造業におけるコロナウイルスの影響 https://www.datarobot.com/jp/blog/impact-coronaviruses-in-manufacturing-industry/ Thu, 23 Apr 2020 20:41:47 +0000 https://www.datarobot.com/jp/blog/jp-impact-coronaviruses-in-manufacturing-industry/ 新型コロナウイルスによる製造業に対する影響は、甚大なものとなるでしょう。その状況を考察し、この困難を乗り越え、またポストコロナ渦の世界でさらに成功するためのAI活用のヒントをご紹介します。

投稿 製造業におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
「100年に一度の大変革」を合言葉に自動車業界では、ここ数年来、自ら改革に努めて来ました。今回の新型コロナウイルス 感染症(COVID-19)の影響は、業種・業態を問わず、生産・消費活動のみならず、政治、経済、社会などあらゆるものに及ぼうとしています。ここにおいて「100年に一度の大変革」は、全ての企業のアジェンダとなっているのではないでしょうか。しかも、その対応は今日、明日を争うものかもしれません。

本ブログでは、DataRobot の製造業担当チームが COVID-19 の影響をまとめ、これまで  AI を活用していた分野における影響と対応、今こそチャレンジする価値のある AI 活用領域について紹介していきます。また、COVID-19 によって起こる市場の変容が今後の製造業の活動に与える影響と、アフターコロナで AI を活用して成長を手に入れる可能性を述べていきます。

製造業界全体への影響

海外にみられるロックダウン(都市封鎖)や移動制限などにより、全世界でほぼ一斉に多くの製品需要が消滅しました。その対応もしくは、部品・部材の供給不安で、いくつかの製造業では工場の操業停止に追い込まれています。根本的に解決(ワクチンや治療薬の開発)するまでは、COVID-19 のリスクは無くならず、ある研究では、この状態は2022年まで続くとも報告しています。

以下の図は、製造業のバリューチェーンの中で、一般的な AI の活用事例を示したものです。それぞれの機能毎に COVID-19 の影響下で見直すべきテーマ、取り掛かるべきテーマを見ていきたいと思います。

営業・マーケティング

このカテゴリでは製品の需要予測が筆頭ユースケースでしょう。COVID-19 によって明らかな影響を受けているのは売上です。ロックダウン(都市封鎖)、もしくは経済活動の自粛で、下がる売上もあれば、逆にネットショッピングや住宅街での消費が増加し、上がるものもあるかもしれません。機械学習は過去のパターンを学習し、そのモデルが未来を予測するため、現在の激しい変動の中での利用は一筋縄ではいきません。既存のモデルの継続利用は、大きなリスクが伴う場合もあります。モデルの見直しについて、ご興味のある方は、こちら(大変動下での機械学習モデルへの対処)をご参照ください。

一方で、海外の状況を見てみると、段階的に経済活動を再開している国も見られます。この場合、国により、さらに地域により、徐々に通常活動に戻すということです。しかし、一度 COVID-19 の封じ込めに成功したかに見えるところも、時間を置いて第2波の拡散に見舞われるケースも出てきています。先に述べたとおり、このダッチロールのような状況は、長期化する可能性も含めて対策を考える必要がありそうです。この状況下では需要予測のモデルも、地域に応じて、そしてその時の経済(自粛)状況に応じて、複数のモデルを作成、もしくは入れ替える必要性が出てきます。

マーケティングで扱われている AI テーマも、同様に再検討が必要になる場合があるでしょう。また、新たなチャネルでの営業活動も見逃せません。現在、店舗で購入しない代わりに、その消費行動がネット上へ移動していると言われます。また、それは B2C に限らず、B2B の世界でも起こっていることです。営業や打ち合わせ、契約の締結、そして検収に至るまで、全てリモート(インターネット)で行われるようになるでしょう。この新しいチャネルのメリットは、全てがデータ化されることです。そのデータを活用することで、より有効なターゲットの選定、アプローチの仕方が可能になります。つまり、AI を活用した営業ターゲティング、リードスコアリングなどは、その販売を促進する強力なツールとなります。

見直すべき AI テーマ

・需要予測

・顧客ターゲティング

・リードスコアリング

今取り掛かるべき AI テーマ

・需要予測(複数モデリングとその切り替え運用)

・顧客ターゲティング(ネットデータ活用)

・リードスコアリング(ネットデータ活用)

サプライチェーン

広範囲に影響を与えている COVID-19 は、サプライチェーン全体の機能を脅かしていると言えます。原材料調達をする1次、2次産業では現場での働き手を失い、それらを必要なところに運ぶロジスティクス機能が減衰し、工場では製造必要な物資の調達が危ぶまれるでしょう。また、生産現場では人の密集が避けられないケースも多くあり、完全自動による無人化がされない限り、今後感染者の発生により、突如長期間の稼働停止のリスクを背負うことになります。

このカテゴリにおける AI テーマとしては、物量予測があります。倉庫などでのオペレーションリソースを最適化するために、向こう数週間の物量を予測しています。COVID-19 の影響では、物量が増えるにしても、減るにしても初めての振れ幅になるケースがあるため、先の需要予測と同じ対応が必要になってくるでしょう。

また、強靭なサプライチェーンは、まさに日系製造業の御家芸といってもよいコアコンピテンスの1つです。しかしながら、今回の突然且つ先の見えない操業停止において、特に中小の製造業にとっては存続の危機に立たされている可能性もあります。いわゆるキーディバイスを製造しているメーカーがある日突然倒産し、製品製造が立ち行かなくなるリスクもあると考えるべきでしょう。大手の製造業の中には、リスクマネジメントを専門に行う部隊が、それらのリスクを日々モニタリングしていると思いますが、今回の COVID-19 の影響下ではその調査範囲はさらに広げるべきでしょう。そして、優先順位をつけての対応が迫られるはずです。その際にもAIによる倒産リスクスコアリングは、膨大なサプライヤー網を維持するために活躍するでしょう。こちらは金融業界におけるテーマとしてもよく取り扱われているもので、詳しくはこちらのブログを参照ください。

一方で、この COVID-19 の影響が長期化し、人、ビジネスの行動変容が起きると、ロジスティクス機能については、さらに無人化が進むと考えるべきでしょう。属人的なオペレーションが残っている限り、この感染症によるリスクは避けられないからです。これまでも自動運転やオペレーションの最適化などAIのテーマが数多くある分野で、今後、さらなる活用が促進されるはずです。

見直すべき AI テーマ

・ロジスティクスの物量予測

・サプライヤ網のストレスチェック

・企業倒産予測

今取り掛かるべき AI テーマ

・自動化オペレーション(倉庫、配送、リソース最適化)

R&D

このカテゴリにおいて、COVID-19 の影響が出るテーマは、それほど多くはないかもしれません。しかし今後、人と人の接触を避けるべし、という方向性では、よりバーチャルな活動に軸足をおくようになるかもしれません。例えば、ある部材を購入する際に、多くのサプライヤーと直接会い、見積もりをとるのではなく、過去の実績から希望のスペック、コストを提供出来るサプライヤーを AI によって推測するということが可能です。また、リモートでの作業を推進するためには、試作レス、実験レスといった、より高効率のオペレーションに、AI の活用を検討する機会を増やす必要に迫られます。つまり、実際に試作品を作って、実験を行う機会を減らす代わりに、AI によってシミュレーションを行い、判断することを増やすのです。

また、後ほどスマートプロダクトのパートで詳述しますが、今後、製品を通したエンドユーザからのデータのインプットが増えてくるはずです。そのデータ活用や、そもそも自社製品のスマートプロダクト化の機能研究は、R&D の大きなミッションになってくるでしょう。そして、データ分析とそれによる製品のアップデートには、AI の活用が有効手段となってくるはずです。

今取り掛かるべき AI テーマ

・性能/特性予測、シミュレーション

・コスト予測、シミュレーション

・スマートプロダクトのデータ分析

製造

このカテゴリでは、今まさに操業停止、もしくは需要の急増による高稼働という非通常の状況に見舞われていると思います。予兆保全などで活用される AI は、稼働状況が変わった場合は、見直しが必要になるケースもあるでしょう。再学習のためのデータが必要となるので、今の非通常稼働のデータ収集はすぐにでも始める必要があります。

また、R&D と同じ文脈で、人の接触、密集を避けるという意味では、AI 活用が1つのソリューションになり得ます。DataRobot の機械学習モデルがアウトプットするのは予測値だけではなく、その出力の理由も同時に提示します。例えば、不良品検知では、不良品となる確率と、その出力に寄与した特徴量(設備の設定値、センサーデータなど)を強い順に出力します。実際に、それらを参考に改善をすることで、人海戦術による要因調査(人と人の接触、密集)の工数を下げることに成功しています。安定稼働する生産現場の実現に向けて、AI 活用はすぐにでも着手すべきであると言えます。

さらに、多くの製造業で海外に工場を持っていることは珍しいことではありません。その多くの現場では、日本人のエンジニアが現地に出張・駐在し、製品や仕事の品質を担保しているのが現実ではないでしょうか。COVID-19 の影響で、その往来が滞り、また、これを乗り越えた後でも、これまでのような頻繁な人の往来は困難になると考える必要がありそうです。

AIの一つのメリットとしては、インターネットを通して遠隔地にも展開し、その機能を享受できることにあります。弊社のお客様の中にも、実際に海外の工場へ日本で作ったモデルを展開し、その品質チェック、および要因分析に活用しているケースが見られます。具体的には、現地の生産工程からの情報を収集し、日本においてモデリングを実施する。そのモデルを現地の品質管理工程に展開し、実際に生産ラインが稼働している中で活用する。日本において定期的にモデルの精度をモニタリングしつつ、このモデルの運用管理を行なっています。

このような先進的な仕組みを導入している企業では、現在の COVID-19 の状況下でも、その影響は限定的になり、この状況が長期化する場合には、さらに大きなアドバンテージを享受することになります。この AI を通したオペレーションのグローバル展開が、今後の製造業にとって、生産体制の維持、さらには強化のために必須のケイパビリティとなってくるでしょう。

見直すべき AI テーマ

・予兆保全

今取り掛かるべき AI テーマ

要因分析(品質検査、設備不具合検知、異常検知)

・AI によるリモート運用

アフターケア

このカテゴリでは製品の寿命予測、故障診断など、現場に行かずとも AI に判断させることは、昨今の IoT 活用が促進される中で、もはや珍しいことではありません。もし、利用環境に変化がある製品は、その故障診断の AI の見直しを実施する必要があるかもしれません。

また、この COVID-19 は、これら AI の活用をさらに推進することになるはずです。つまり、人と人との接触を少なくし、訪問修理も効率的に行うというリモート診断機能は必須のものとなり、搭載されていない製品は、今後シェアを失うリスクがあると考えた方が良いでしょう。

見直すべき AI テーマ

・製品寿命予測

・故障診断

今取り掛かるべき AI テーマ

・製品寿命予測(新規)

・故障診断(新規)

スマートプロダクト

スマートプロダクトの定義にはいろいろありますが、ここでは製品にネット接続の機能があり、その利用状況に合わせて、機能アップデートやサービスを提供する製品を指します。例としては、スマートスピーカーなどが挙げられますが、あまり世間一般に普及しているものではあるとは言えません。

COVID-19 の影響は、この状況を変える可能性があるかもしれません。ソーシャルディスタンスが叫ばれ、人と人との直接のコミュニケーションは忌避されていますが、その代わりとして、リモートミーティングの活用や、情報収集のためのSNSの活用(2日間で2400万人からアンケート回収)などが、急速に普及しています。先日から解禁になったオンライン受診など、おそらく COVID-19 への対策として個人がネット経由でデータを提供し、そのデータに基づいて遠隔での診察、治療するといったことも広く一般的になるでしょう。ここで注目すべきことは、個人からのデータ収集と、それに基づいて個人がサービスを受けるということを、多くの人が体験するこということです。これまで、その様な遠隔サービスは心理的な抵抗感から、幅広く受け入れられてきたとは言い難かったと思います。しかし、今回の COVID-19 を経た世界では、リモートでのやり取りは市民権を得たものとなっているでしょう。

製品は、顧客との重要なタッチポイントです。そして、今回の COVID-19 の影響から、人と人(例えば営業、メンテナンスサービス、コンサルティングなど)の接触が限りなく少なくなる中、この製品を通しての直接のコミュニケーションの重要性が高まります。車で言えば、顧客(ドライバー)一人ひとりの乗り方、健康状態、社内で消費するエンターテイメントなどを把握し、より最適・快適なドライビング体験のために、車のスペックやその他サービスを提供する。既に実現されているものもありますが、この様な機能があらゆる製品に必要になり、顧客もそれを受け入れ活用する市場が生まれつつあるのではないでしょうか。

そして、この機能において AI が最も有効な手段になります。何万、何十万という製品・顧客からデータが送信され、それらをリアルタイムで分析し、それぞれの顧客にパーソナライズされた形でサービスを提案・提供する。この製品のスマートプロダクト化こそ、製造業にとって今こそ取り掛かるべき AI テーマの一つでしょう。

今取り掛かるべき AI テーマ

・製品のスマートプロダクト化

アフターコロナの時代に向けて

我々が COVID-19 を克服する日がいつかは来るでしょう。ただ、そのときのビジネス環境は COVID-19 前とは全く変わったものになっているでしょう。そして、その変わった環境の中でも、確実に活躍の場を広げているのが AI であることは間違いありません。

「最も強く、最も賢い種が生き残るのではない。変化に最も適応したものが生き残るのだ。」生物学者ダーウィンの言葉が、今ほど私たちの心に響いたことはないかもしれません。AI も所詮はツールでしかありません。それを活用するために、変わる意志を持ち、それを実行することが、この未曾有の危機をチャンスに変えることにつながるはずです。そして、DataRobot がその変化の一助になれば幸いです。

オンデマンドビデオ
AI Experience Virtual Conference 2021

「DataRobot AI Cloud」に関する基調講演や、業界をリードするDX推進企業の取り組み、AIサクセスを実現するビジネスリーダーによるパネルセッションをオンデマンドビデオで確認

オンデマンドで見る

投稿 製造業におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
金融業界の AI 活用におけるコロナウイルスの影響 https://www.datarobot.com/jp/blog/impact_coronavirus_on_use_of_ai_in_financial_industry/ Thu, 16 Apr 2020 19:31:00 +0000 https://www.datarobot.com/jp/blog/jp-impact_coronavirus_on_use_of_ai_in_financial_industry/ 金融業界においてもCOVID-19はマーケットへの影響、外出自粛や中止要請による生活スタイルの変異による経済活動の変化と様々な影響を及ぼしています。このような激動な時期におけるAI活用はとても注意が必要になります。私たちは各々の健康を守ることを最優先にしながらも、経済活動を止めないために今の時期に考えなければならないことが多々あります。本ブログでは、これまでAIを活用していた分野における影響、今の時期にこそチャレンジする価値のあるAI活用領域について紹介していきます。

投稿 金融業界の AI 活用におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
DataRobot で金融担当のデータサイエンティストをしていますオガワです。

日本でも緊急事態宣言が出されるなど、いよいよ新型コロナウイルス感染症(COVID-19)の影響が拡大してきました。すでに海外では日本以上に一般生活に影響を与えており、これまでと全く違う生活習慣にならざるをえなくなった人も少なくありません。行動様式の変化はそのまま経済へ大きな影響を与え、米国においては第二次世界大戦以降最大の GDP のマイナス成長を予想しているケースもあります。経済影響は過去に類を見ないものになっており、日本でも今後のコロナの拡大によっては、海外で起きているような今まで以上に大きな影響が危惧されています。

本ブログでは、DataRobot の金融チームの調査・経験から COVID-19 が金融業界において与えている影響をまとめ、これまで AI を活用していた分野における影響、今の時期にこそチャレンジする価値のある AI 活用領域について紹介していきます。金融チームとして直接ウイルスと闘うテーマには手を出しづらいところがありますが、ウイルスとの戦いが去った先のための経済活動を維持するためにも、いま金融業界を担当するデータサイエンティストとして意識しなければならないことについて書かせていただきました。

 

金融業界における COVID-19 の影響

金融業界と一言にいっても様々な業種があり、それぞれが受けている影響は様々です。まずは全体に与えた影響としての

  • 金融市場の不安定化
  • インバウンド需要の停止
  • 国内活動の変容

について記し、その後に業種独自の影響について焦点を当てて行きたいと思います。

 

業界全体への影響

全体への影響としてまずあげられるものとしては、市場全体の株安があります。COVID-19 の影響が出始めた段階で中国経済の影響がマーケットに反映され、その後に各国での感染が拡大するなか、3月18日には3年ぶりにダウが2万ドルを割りました。執筆時点の4月13日には2万3千ドル台に回復しましたが相変わらず乱高下しており、油断は許されない状態になっています。日本経済も例外でなく、日経平均も1年2ヶ月ぶりに 2万円を割り、一時1万7千円を割るほどの価格となりました。執筆時点の2020年4月13日時点で、1万9千円まで回復したものの COVID-19 の影響前の状態に戻るにはまだ遠い道のりがありそうです。

COVID-19 によって移動規制が世界中で引かれたことによってインバウンド需要が致命的なものとなりました。元々はオリンピックをピークにインバウンド需要がまだ拡大するものと思われていたところに、中国だけでなく、欧米諸国からのインバウンド需要もこのタイミングで止まるのは去年の段階では誰もが想定していなかったと思います。この影響をまず大きく受けたのは航空業界と旅行会社、様々な地方観光業です。航空業界では政府保証も含む大規模融資を必要とする状態になっていますし、地方の観光業を中心にも融資が必要なケースが増えています。

国内需要においても施設の休業や外出の自粛によって多くの小売業の売上にも影響しています。イベントや会食の自粛、オフィスへの出勤が減ったことなどからお金の落ちる場所が変わり、飲食業などでビジネス規模の縮小、倒産の影響が出始めています。緊急事態宣言が開けたとしても、その後も急激なイベント開催の需要が回復する見込みは弱く、より影響範囲は大きくなっていくことが予想されます。

また COVID-19 の性質から非接触事業に注目が集まっています。これまではインターネットバンクや電子マネーというのは手数料は安いですが、IT リテラシーが求められるとということで日本では海外に比べて普及率が高くなく、国としてもポイント事業として今年にかけて大きく普及を広める試作をしていました。ここに来て COVID-19 の影響から現金をなるべく使わない、人と接触しない購買需要があがっており、それらに欠かせない技術としての電子マネーの普及には追い風となっています。

 

各業界ごとの COVID-19 の影響

商業銀行・ネット銀行・地方銀行

すでに中小融資の申し込みが増えており、これまでの業務プロセスで処理し切れる量なのか、与信の計算方法をこのままで問題がないのか注意が必要です。緊急事態宣言の期間からも今年はゴールデンウィークも自粛の影響を大きく受けますが、地方の観光業にとっての掻き入れ時に収入が入ってこないことによって、観光業関連の倒産が増える可能性は無視できません。特に地場産業との関連性が高い地方銀行にとっては倒産が増えることによって債権の焦げ付きが発生してしまうリスクがあります。

また融資でなく、運用によって収益を得ていた銀行も国際的な株安によって大きな打撃を受けています。今の株式市場の乱高下での資産運用は従来広まったアルゴトレードでも難しいものがあり、これまでの運用システムの見直しも必要になっていくかと思います。

そして接触行動を避ける行動変異から窓口への問合せは減少傾向にあります。ただこちらに関しては COVID-19 前からメガバンクを中心に窓口業務を削減する動きは出ていたのでこのタイミングで対面中心の支店を多く持つ銀行はビジネスをシフトできるかが問われますし、ネット銀行にとっては新規口座獲得の更なるチャンスとなり得るタイミングです。

見直すべき AI テーマ

  • 倒産予測
  • 預金額予測
  • 株価・マーケット予測

今取り掛かるべき AI テーマ

  • 中小企業向け融資審査

証券・ネット証券・仮想通貨

COVID-19によるマーケットの動きは激しく、売買は膨らんでいます。また、これまで日本経済においてはアベノミクス以降順調に株価が成長していた中での株安から、初心者にとっては今回の株安はチャンスであり、新規口座を開く人は増えています

見直すべき AI テーマ

  • 取引量予測

今取り掛かるべき AI テーマ

  • 新規口座開設者予測
  • 休眠復活者予測

リース

航空機・オート・不動産リースの需要縮小で大きく事業に影響しています。金融業界の中でも最も早くに影響が顕在化しています。航空機の運行数が減少したこと、地方観光で利用されるオートリースの需要減少、外出自粛に伴う売上減少からのテナントの撤退による不動産リースの収益減少と多くの影響を受けています。あくまでウイルスによる移動減少が影響しており、潜在的な需要は大きく減っていない状態ですが、複数の収益源が影響を受けており苦境に立たされています。

ただ全国的なテレワークの需要が拡大したことから、テレワークの設備系のリースは需要が増えていくことが考えられます。COVID-19 の影響期間が不透明な中でのテレワーク設備とリースビジネスの相性のよさはあります。

見直すべき AI テーマ

  • 倒産予測

今取り掛かるべき AI テーマ

  • 新規リース顧客のターゲティング

 

クレジットカード・電子マネー

現金接触を減らせる手段として COVID-19 の影響は電子マネーの普及にとってはポジティブに働きます。国内での電子マネー普及のために、元々ポイント還元が今年の6月末まで予定されていましたが、COVID-19 の影響がどのように普及を後押しするかは注視が必要です。そしてこのような大きな情勢の変化が起きたタイミングでは、これまでと違う背景の不正が発生する可能性が高く、それらにいち早く対応することも重要な活動となります。

今後 COVID-19 の影響が個人の経済活動自体への影響が出始めてくるとカードローンの活用とまではビジネスにポジティブに働きますが、その後の貸倒れまで進んでしまうとネガティブな影響となりますので貸倒れモデルの実績のトラッキングは重要になります。

見直すべき AI テーマ

  • 取引量予測
  • 不正検知
  • 貸倒れ予測
  • 割賦増枠対象者予測

今取り掛かるべき AI テーマ

  • キャッシング新規利用者予測

 

生命保険・損害保険

すでにアメリカなどでは残念ながら COVID-19 による死者数が2万人を超えており生命保険会社への影響が大きく出ています。日本においてもホテル・自宅療養に関しても入院扱いとなったため、生命保険の保険金支払いが今後も COVID-19 の感染者が増えていくと劇的に膨らむ可能性があります。そしてイベントや興行の中止による損害を損害保険の適用範囲に含めるかは海外でも議論となっています。海外では再保険への影響が多大に出ており、航空機、旅行、自動車、エネルギーに並ぶレベルの影響がすでに見られています。

また事業運用においてはコールセンターの人員を感染予防のため減らすなどの対策が行われており、より自動化された業務システムの確率が急がれている状態です。ロックダウンまで進んだ海外では自動車の移動も減り、自動車損害保険の解約を防ぐためにもペイバックを行う動きも見られています。COVID-19で加入保険を見直す人も増えることが予想され、それに対応したアクションが必要になってきます。

見直すべき AI テーマ

  • 保険金予測
  • 解約予測

今取り掛かるべき AI テーマ

  • 引き受け判断・処理の自動化
  • 保険金請求判断・処理の自動化

 

主要テーマにおける COVID-19 の影響

ここまで各業界の影響とその影響から既存の AI テーマでの見直すべきもの、今のビジネス情勢だからこそ積極的に取り掛かるべきテーマについて紹介していきました。ここからは上記であげたテーマから主要な AI テーマを具体的に紹介していきます。

 

見直すべき AI 活用テーマ

倒産予測・貸倒予測

お金やモノを貸した後に返ってくるというのが金融におけるビジネスの基本になっています。その際に誰にいくらお金を貸し出すことができるかの判定は、貸し出すリスクによって計算されており、より精度の高いモデルを作れることによって、リスクを押さえながら貸し出し範囲を増やすことができるようになります。

これまでにも AI を活用した審査として企業の価値やローンリスクを従来の入力変数だけでなく、多くの行動データなどを含めることによって高精度に AI を活用してリスクを予測していました。COVID-19 の影響は多様な業界に影響を与えており、これまでの学習データを利用した AI モデルではリスクを過小評価する可能性が想像されます。

そしてよりサイクルを短くした場合のモデルも加味する必要があります。仮に今までの倒産予測が6ヶ月以内の倒産を予測するモデルだった場合に、今の情勢を加味したモデルの洗い替えまで6ヶ月が必要になります。より短期の2ヶ月以内、4ヶ月以内の倒産リスクも出すモデルを検討することによって今の急変化する情勢に対応させたリスクモデルを作成することができます。

 

取引量予測・トランザクション予測

手数料は金融ビジネスにおける大きな収益源の一つですし、Fintech カンパニーではトランザクション量に応じてインフラを動的に変化させることによってコストダウンを計っています。また預金額の予測はそのまま運用に回せる資金を限界まで増やすことに繋がるので金融ビジネスの収益において重要なテーマとなっています。

予測の粒度によって使用するデータは様々ですが、多くの場合には前週、前月、前年などのラグデータや1ヶ月移動平均、3ヶ月移動平均などの時系列特徴量を予測に使用しています。これらの特徴量は普段は精度向上に役立つ特徴量となりやすいですが、COVID-19 の影響で前年の取引量はほとんど誰の目にも役立たないことが想像できるように、AI モデルにおいてもこのような時系列特徴量は過去の学習データとの間で大きなトレンド変化があった際には見直す必要があります。

取引量・トランザクション予測において前年や数ヶ月前の情報を使っての予測は現時点の情勢が激しく変わる状態のモデリングとしてはお勧めしません。より本質的な特徴量として、どうして前年にそのような取引量となったのかなどのデータだけをモデルに活用する必要があります。

 

保険金予測

保険ビジネスにおいてはコストは販売時には確定しておらず、将来的に発生する病気や損傷の確率を予測することによって保有する契約のコストを想定しています。COVID-19 の影響による死亡者数は米国に比べて日本では多くないことから生命保険会社への影響は限定的ですが、ホテル・自宅療養も入院扱いとなったことから感染率がそのままコスト増大に繋がる可能性が出てきました。また普段の健康維持に対しての行動の変化から長期的に健康リスクへの影響は計り知れないものもあります。またイベントなどの中止による人の動きは減っているものの、公共交通機関の利用を嫌っての自動車の利用によって、従来と違う層による事故などが発生する可能性があり、損害保険においても想定とずれる可能性があります。

保険金はその発生まで期間があることから、すぐに再学習することが難しいですが、インシュランステックに注目される運動量や運転スコアを活用した保険商品のプライシングモデルは行動変容に伴いモデルの再考が必要になります。

 

今取り掛かるべき AI 活用テーマ

新規ユーザー向けターゲティング

人々の行動様式が大きく変わったことが影響して、これまで利用していなかった金融サービスに手を出す人は増えることが考えられます。特にこれまで IT リテラシーが障壁となっていた電子マネーの新規利用や参入タイミングを失っていた株の初心者が世界同時株安によって新規口座を開くは増加傾向にあります。

新規ユーザーを効率よく獲得するターゲティングテーマは将来的な収益拡大に大きく寄与し、金融顧客は一度捕まえると離れづらいため、チャンスが残っているうちにしっかりと取り掛かるべきテーマとなります。

 

審査・引受業務判断と処理の自動化

テレワーク導入によって通常業務の処理に回せる時間が逼迫していたり、中小融資、保険金支払いの問合せのように需要自体が大きく拡大しているものがあります。審査・引き受けにおけるプロセスは専門家によってデータを厳密に見ながら判定しているため、AI による自動化と相性のよいテーマとされています。

また新しい法令対応のように過去の学習データでは対応できないことも多い分野ですが、不正などの確率を予測できる AI モデルと必ず従わなければならないルールベースを組み合わせたディシジョンマネジメントシステム(DMS)を確立し、週次のレベルで AI モデルとルールベースをアップデートすることによって様々な自体に対応しながら一連の事務処理を自動化することができるようになります。

 

まとめ

私たちは各々の健康を守ることを最優先にしながらも、経済活動を止めないために今の時期に考えなければならないことが多々あります。金融システムの継続稼働を満たすために、通常の業務を少ない人員で回さないといけない状態になっているケースも少なくありません。多くの方の努力によって成り立っている今の日本経済を、COVID-19 の影響が過ぎ去った後に復活させるためにも今できる対応をしっかりと行っていくことが重要となっていきます。

 

バーチャルカンファレンス
DataRobot AI Experience Japan

変化の時代にAIのインパクトを加速する

お申し込みはこちら

投稿 金融業界の AI 活用におけるコロナウイルスの影響DataRobot に最初に表示されました。

]]>
COVID-19 に AI/機械学習で挑む https://www.datarobot.com/jp/blog/challenge-covid-19-with-ai-ml/ Tue, 07 Apr 2020 21:12:27 +0000 https://www.datarobot.com/jp/blog/jp-challenge-covid-19-with-ai-ml/ COVID-19が拡大を続ける中で医療資源の枯渇がより深刻な問題となっています。医療資源割り当ての意思決定を支援するために、COVID-19に感染された患者が重症・重篤化するかを予測するモデルを作成する世界中の取り組みやDataRobotの取り組みをご紹介していきます。

投稿 COVID-19 に AI/機械学習で挑むDataRobot に最初に表示されました。

]]>
はじめに

日本全国各地、及び世界の多くの国で拡大を続ける COVID-19 に挑む人達を支援するために、DataRobot は自社のエンタープライズ AI プラットフォームを、COVID-19 に対するワクチン・治療薬の開発、COVID-19 に対応する医療機関のオペレーション向上、社会における感染拡大の防止を目的とする分析を行う分析者向けに無料で提供することを発表しました(DataRobot、新型 コロナウイルス関連の分析支援としてプラットフォームを無料公開)。

本ブログでは、この状況下でAI/機械学習の活用可能性について言及します。具体的には、医療資源割り当ての意思決定を支援するために、COVID-19 に感染された患者が重症・重篤化するかを予測するモデルを作成する世界中の取り組みや、DataRobot の取り組みをご紹介していきます。

実際に実運用に使える予測モデルが完成している状況ではありませんが、私達は DataRobot が貢献できる可能性を発信していくことで、協力してくださる方を集い、一緒に COVID-19 に挑みたいと考えています。

 

重症・重篤化予測の必要性

米国の一部地域やヨーロッパのいくつかの国では、すでに医療資源が限界に達しており、治療の優先順位付けが余儀なくされています。WHO はすでに世界的にトリアージ体制を提案しており[1]、日本においても新型コロナウイルス感染症対策専門家会議が2020年3月19日の会見で、限られた医療資源の中で重症者を優先する医療体制を構築する必要性を提言しています[2]。

感染が確認された症状のある人の約80%が軽症、14%が重症、6%が重篤と報告されていますが、重症・重篤化する患者も、最初は普通の風邪症状(微熱、咽頭痛、咳など)から始まっており、初期の段階では重症・重篤化するかどうかの区別がつきにくいという現状があります[3]。

これら喫緊の課題に対して、COVID-19 に感染しているかどうかの予測だけではなく、

  • オンラインのチャットボットのような形式で、大量の問合せの中から重症な患者、または重症・重篤化する確率が高い患者をスクリーニングするシステム
  • 地域のかかりつけ医や初診の医療スタッフが初期症状からその患者が重症・重篤化するかどうかを予測し、専門機関への輸送優先順位付けを支援するシステム
  • 感染症治療の設備が整った専門機関で、患者が重症・重篤化するかどうかを予測するモデルで医療資源の割り当て決定を支援するシステム

などが求められており、実際にその国の状況に合わせた取り組みが進められています。この記事では、重症・重篤化するかどうかを予測する早期スクリーニングシステムや専門機関内で治療の優先を決めるトリアージシステムにおいて、どういったモデルやデータが期待されるかについて述べていきます。

 

重症・重篤化を予測する早期スクリーニングシステム

COVID-19 に感染した場合に報告されているような症状が出た方は直接大きな病院に行かずに、地域毎に開設されている専門機関やかかりつけ医に行ったり、電話等で連絡してから受診することが多くの国で義務付けられています。医療資源がより深刻な問題になると、この体制がうまく機能しなくなり、初期診断を行う患者の優先順位付けが求められるようになります。アメリカでは Providence St. Joseph Health system や Partners HealthCare といった機関がすでにオンラインのチャットボットのような形式で大量の問合せの中から重症な患者、または重症・重篤化する確率が高い患者をスクリーニングするシステム構築に向けて動いています[4]。

感染症の治療設備が整った専門機関の治療許容量は一般的に初期診断の許容量より更に限られているため、初期診断のスクリーニングだけではなく、初期診断の際に医療スタッフが感染症の治療設備が整った専門機関へ輸送する優先順位付けを行うためのスクリーニングシステムの構築も求められています。

初期段階で重症・重篤化するかどうかを予測するモデルを構築する際には、年齢や性別、既往歴、持病有無、喫煙習慣有無、初期症状、渡航歴などの自己申告や初期的診断で取得することが可能なデータだけを使用する必要があります。目指すシステムごとに予測に使うことができるデータは異なるため、使用するデータには細心の注意が必要です。

Github に公開されているデータ[4]を元に、感染後退院/逝去の状況がまとめられた 31ヵ国 838例の COVID-19 の患者データ使用して DataRobot が分析した一例を示します。この例では、医療スタッフが初診でその患者が重症化するかどうかの意思決定を支援する予測モデルを想定しています。

表1: 一部データ例

重症化したことを示す「severe」を予測のターゲットとし、初期診断の段階から明らかに急性呼吸不全などの重症な患者は除外しました。年齢や性別、慢性的な疾患の有無、初期症状、渡航歴などの初期的診断で取得可能なデータだけを用いて予測モデルを作成しました。下記、今回のデータセットの簡単な説明です。

  • 重症化した患者は 172人(20%)
  • 主要な国の割合としては中国が30%、フィリピンが10%。日本は2%
  • 10代からのデータが集まっており、30代が最も多く16%、50歳以上の割合は42%

このデータセットを使用し、AUC が 0.955のモデルを得ました。得られた結果をいくつか紹介します。重症化を示す「severe」と関係性の強い特徴量(モデルに使用する変数)とその度合いを表したグラフである特徴量のインパクト(Permutation Importance)を下記に示します。

図1: 特徴量のインパクト

図1をみると、年齢や症状、症状自覚から受診までの時間、持病などが重症化と関係性が高いという結果が得られました。特に年齢や症状、持病は現在世界中で報告されている結果と合致します。

図2: 年齢と重症化の関係

図2は年齢(横軸)と重症化確率(縦軸)の関係性を表しており、年齢が50歳以上の患者の重症化確率が高く、70歳以上になると更に重症化確率が高くなる傾向がみられます。

図3: 持病と重症化の関係

そして図3 は、持病の項目に記入された単語と重症化の関係性を分析した結果であり、字の大きさがその単語の出現頻度、そして色が重症化との関係性を示しています(赤色が濃くなるほど重症化確率が高く、青色が濃くなるほど重症化確率の低いことを示しています)。高血圧(hypertension)や糖尿病(diabates)、気管支炎(bronchitis)などの持病をもつ方は比較的重症化確率が高いという結果が得られました。

 

図4: 初期症状と重症化の関係

図4は初期症状の項目に記入された単語との関連性を分析した結果を示しています。呼吸器系の症状を訴える患者が比較的重症化する確率が高い傾向がみられます。

今回公開データを使ってモデルを作成した例を示しましたが、機械学習で作成したモデルを実際に現場で使用するためには、専門家のレビューを受け、更に運用体制について議論する必要があります。例えば症状が軽い陽性者等が、高齢者や基礎疾患がある人と同居していて家庭内感染のおそれが高い場合は、自宅以外の場所での隔離により接触の機会を減らすといった観点も考慮するべきでしょう。AIモデルはあくまで医療スタッフの意思決定を助けるツールであるので、国や地方の医療制度に合わせた使用体制の議論が必要となります。

モデルの精度の観点でもまだまだ改善の余地はあります。現状のモデルではAUCは0.955まで達しましたが、感度を90%にする際の特異度は83%となってしまいます。今回使用したデータでは初期症状が重要な特徴量として出てきましたが、全体のうち80%もの初期症状データに欠損があります。発症から診断の日数も今回の事例では重要な特徴量の候補として出てきましたが、発症した日とCOVID-19と診断された日付の両方が分かるデータは30%しかありません。システム構築を行う際には、こういった予測に重要である可能性の高いデータを精度高く、そして多く集める必要があります。質の高いデータが多く集まると、例えば「40代でも、ある症状と基礎疾患がある人の重症化のリスクは非常に高くなる」といったデータ内に隠れていたルール/パターンを見つけられる可能性があります。

現在日本のCOVID-19感染者の情報を収集し、分析するSIGNATEのプロジェクトをDataRobotは支援しています。上記のような欠損のあるデータでもある程度の精度のモデル構築が可能であったため、筆者達は国内で重症・重篤になった患者の初期段階での情報が集まれば、AI/機械学習を用いたスクリーニングモデルを構築できる可能性があると考えています。

 

専門機関内で治療の優先を決めるトリアージシステム

新型コロナウイルス感染症対策専門家会議は、入院の対象を COVID-19 に関連して持続的に酸素投与が必要な肺炎を有する患者、入院治療が必要な合併症を有する患者、その他継続的な入院治療を必要とする患者に絞ることを提示しています[2]。入院や治療の資源枯渇は、すでに深刻な問題となっており、受診した患者が重症・重篤化するかどうかを精度高く予測する必要性が今求められています。

ニューヨーク大学の研究者らは、患者の初期症状から重篤化する患者が患うARDS(急性呼吸窮迫症候群)を予測する AI の開発を早期段階から試みており、2020年3月30日 に論文[6]を発表しました。この研究では、中国の 2つの病院の COVID-19 ウイルス患者53名のデータを用いて、初期症状から ARDS の発症を予測するモデルを作成しています。受診時の詳細なデータを使用し、予測に役立つ特徴量として肝臓酵素の血中アラニンアミノ基転移酵素(ALT)の濃度上昇、体の痛みの訴え、血中ヘモグロビン濃度上昇を報告しており、年齢や持病以外の重要な因子を提示したことで注目を集めた研究となっています。

世界中のトップデータサイエンティストが集う Kaggle においてもブラジルの医療機関のデータが公開され[7]、トリアージのモデル構築に向けて日々議論が行われています。

スクリーニング時と比較して、専門機関内で治療の優先を決めるトリアージシステムでは受診時に取得可能なデータを使用することができるので、受診スクリーニングモデルと比較して、精度が高くなることが期待されます。しかしながら事態が深刻になるにつれ、トリアージに求められる工数の短縮が求められるので、各国や各施設の現状、そして将来の体制をしっかり理解した上でモデルを作成することが求められます。また、トリアージモデル作成に向けては一般公開されていないデータがより重要になるため、医療機関との連携が更に必要となります。

図5: DataRobotで重症・重篤化を予測するイメージ

重症・重篤化の予測モデル作成された後、運用に使用可能なシステムを作成する必要がありますが、DataRobotでは図5のようなアプリの作成もプログラミングなしで簡単に行うことができます。冒頭にも申し上げましたが、弊社はCOVID-19を分析する方に、今回紹介したようなモデル作成や、アプリ作成を可能とする分析プラットフォームを無料公開しておりますので、一緒にCOVID-19 に立ち向かっていただける医療機関の方がいらっしゃいましたら covid-jp@datarobot.com までお問い合わせいただければと思います。

 

まとめ

今、世界中で様々な研究者/分析者がそれぞれの専門知識を駆使して日夜 COVID-19 に挑んでいます。DataRobot もグローバルに、そしてローカルにこの状況に対応するために、様々な支援を行っていきます。こういった取り組みにご関心のある方からのご連絡をお待ちしております。

 

参考資料

  1. WHO: Operational considerations for case management of COVID-19 in health facility and community. 2020年3月19日 公開
  2. 新型コロナウイルス感染症対策専門家会議 「新型コロナウイルス感染症対策の状況分析・提言」2020年3月19日 公開
  3. 新型コロナウイルス感染症対策専門家会議 2020年4月7日 アクセス
  4. How Hospitals Are Using AI to Battle Covid-19 2020年4月3日 公開
  5. nCoV-2019 Data Working Group 2020年4月7日 アクセス
  6. Towards an Artificial Intelligence Framework for Data-Driven Prediction of Coronavirus Clinical Severity 2020年3月30日 公開
  7. Kaggle: Diagnosis of COVID-19 and its clinical spectrum 2020年4月7日 アクセス

 

 

バーチャルカンファレンス
DataRobot AI Experience Japan

変化の時代にAIのインパクトは加速する

オンデマンドで見る

投稿 COVID-19 に AI/機械学習で挑むDataRobot に最初に表示されました。

]]>
大変動下での機械学習モデルへの対処 https://www.datarobot.com/jp/blog/ai-in-turbulent-times/ Tue, 24 Mar 2020 20:55:38 +0000 https://www.datarobot.com/jp/blog/jp-ai-in-turbulent-times/ コロナウイルスは経済・社会に甚大な影響を及ぼしています。この未曾有の大変動下での機械学習モデル運用および対処法を、「モデルの性能監視」と「変化に対応できるモデルの生成」という2つの観点からご紹介します。

投稿 大変動下での機械学習モデルへの対処DataRobot に最初に表示されました。

]]>
はじめに

コロナウイルスの感染者数は日本全国各地、及び世界の多くの国で増加し続けています。その結果、マスク・消毒液品の品薄・品切れ、訪日外国人・旅行客の減少のみならず、一部の国では病院・医療機関が対応しきれず、医療崩壊を招くなど、社会・経済に大きな影響を及ぼしています。

その様な状況下でこそ、予測はより一層重要なテーマとなります。例えば、マスクなどは海外で生産されるものが多いため、約半年のリードタイムがあると言われています。つまり、生産者も半年先の需要の予測を行い、未来の需要に合わせて生産し、必要な在庫を確保しておく必要があります。

しかし、AIは過去のデータから学習するため、過去に未経験の事例に対して予測するのは得意ではありません。この様な未曾有のイベント・大変動に対して、機械学習の予測は信頼することができるのでしょうか?あるいはどの様にすれば、大変動に対応できる機械学習モデルを作ることができるのでしょうか?

本ブログでは、大きな変化が起こっている際に精度の劣化を最小限に抑えながらAIのモデルを使っていくためのポイントを、以下の2つにまとめてご紹介します。

  1. モデル性能監視
  2. 変化に対応できるモデルの生成

モデル性能監視

大きな変化が起こっている際に機械学習モデルを運用するに当たって重要なポイントの1つが、性能監視です。デプロイされたモデルの性能低下の原因となる要因を検知すると同時に、その精度をモニタリングする事で、予想外の予測値や精度の低下を事前に防止する事ができます。

データドリフトの検知

データドリフトとは、機械学習モデルをトレーニングした時のデータと、予測を行う時点でのデータがずれていく現象です。予測に重要な特徴量がトレーニングした時と異なった値を取るときには、より予測が外れるリスクが高まります。

例えば、来店客数を特徴量として使っている需要予測モデルを考えましょう。モデリングした当時と大きく状況が変化した場合、モデルの予測値が当たらなくなる可能性が高まります。そこでモデルのデータドリフトを監視する必要性が生じます。

コロナウイルスの影響で、顧客の購買がリアルからECに変わってきていると言われています。来店客数をはじめとする特徴量のデータドリフトをモニタリングする事で、状況がモデリング当時と大きく違った場合にアラートを上げ、問題を未然に防ぐ事ができます。

精度の監視

しかしデータドリフトはモデルの精度低下の可能性のアラートをあげるだけで、モデルの精度の評価はできません。予測を行った後に正解データが出てきたタイミングで、予実を比較し精度を評価が可能になります。モデル精度の経時的変化をモニタリングする事で、精度が下がってきた時点でアラートをあげ対応が可能になります。

MLOPs

以前のブログで紹介した通り、MLOps (Machine Learning Operations)はモデルの構築を迅速かつ効率的に実現すると同時に、高度なモデル運用の実現を目指す考え方です。

データドリフトの検知、精度の監視は、MLOpsの中でも重要なモデル性能監視の基礎となる2つのポイントです。

しかしモデル管理者が運用している全てのモデルの性能を監視することは現実的でありません。そこでMLOpsでは、問題が起こるとアラートメールを自動で送るといったシステムも必要です。

DataRobotでも最近製品提供し始めたMLOpsは、単なるモデル管理に収まらず、データドリフトや精度の変化を逐次モニタリングし、状況の変化やリスクを事前に察知しアラートをあげるという仕組みを備え、大きな変化の下でのモデル運用に欠かせないものです。

変化に対応できるモデルの生成

モデルの性能監視や精度悪化をモニタリングし、状況の変化を事前に、あるいは早い段階で察知できたとしても、その変化に対応できるプロセスが必要です。そこで本セクションでは、大きな変化に対応できる頑健なモデルを生成する方法を説明します。

真っ先に思いつくのは、より早く最新のトレンドをモデルに反映し変化に対応させるという方法だと思います。この方法は特に予測を行う未来のポイントが近い場合などには活用できます。

しかし、最新のトレンドを使っても、不連続な変化が続いている場合には対応できません。そこで予測時点の経済シナリオなどをわかっている特徴量としていくつかシナリオを与えてシミュレーションし、それぞれのケースでの予測を行うという方法も使われます。

また、これらの手法を使ったモデルの変化への頑健性をどの様に評価するかも1つポイントになります。

変化に早期対応できるモデル

できるだけ早く大きな状況の変化に対応させるには、大きく分けて2つの方法があります。

  1. より高頻度に最新のデータをモデルにフィードバックする
  2. モデルの最新の変化へのセンシティビティを高める

高頻度に最新データをフィードバック

機械学習モデルはトレーニングデータからパターンを学習し、それに基づいて予測を行います。つまり、未曾有の変化があった際のデータをトレーニングに使っていないモデルでは、高い可能性で変化に対応できず当たらない予測となります。そこでモデル更新の高頻度化が必要になります。最新のデータを取り込んだ再モデリングの頻度を上げ、月次から週次にする、週次を日次にする事で最新データのフィードバックが可能になります。

あるいは、最新の状況を逐次取り込み学習していく、オンライン機械学習(逐次学習)が使えるアルゴリズムを利用するという方法も1つのオプションです。

モデルの最新の変化へのセンシティビティを高める

いくらモデルの更新頻度を高めたり、オンライン学習したとしても、変化が起こった後のサンプル数が十分にない場合、モデルが変化のパターンを学習することは難しいです。データが十分集まるまで指を咥えてデータを収集する以外に何ができるのでしょうか?

ここではより最新の変化へのセンシティビティを高める2つの技術を紹介します。

1つには、最新の大きな変化があったサンプルに荷重をかけてモデリングし、それらに対しより強制的に合わせにいく方法があります。これはモデリング時の最適化指標に荷重を加えた精度指標を使う事で実現されます。

例えば、以下の式で表されるWMAPE(荷重絶対値平均誤差率)

を使ってモデリングを評価する事で、荷重の高い特定のサンプルへの学習へのペナルティーを高める事ができます。最新のサンプルへの荷重を高める事で、最新の変化により合致するモデルが生成されます。

2つ目の方法は、モデルに長期のトレンドを使わない方法です。

平常時は昨日や先週の売上を参考にすれば、今日の売上も大体わかります。つまりその様なケースにヒストリカル特徴量は強力な予測力を持ちます。結果平常時のデータでモデリングすると、それらを主要なシグナル(特徴量のインパクト上位)としたモデルが生成されます。

しかし大きな変化の時には、自己相関が弱まり、昨日や先週の値を参考にしすぎると、予測も外れる可能性が高まります。特に1年の平均売上の様な長期のトレンドを特徴量とすると、特に直近の変化に対応できなくなります。以下のグラフからも、12ヶ月移動平均は2009年の大きな変化の時期に反応が遅れている事がわかります。

通常時にはノイズを吸収し予測を安定させてくれる長期の移動平均は、大きな変化の時には諸刃の剣となり、予測の状況変化対応を遅らせる事につながります。

What-if分析による未来の予測

ある程度連続した変化を示す場合や、近い未来を予測する場合には、高頻度で最新のトレンドを学習することで対応が可能です。しかし、大きな変化がある状況で遠い未来を予測する場合、あるいは完全に不連続な変化が起こる場合には、最新のトレンドを学習したモデルでは対応できません。

事実リアルビジネスでも数ヶ月先の遠い未来の予測が必要とされています。例えば、製造から販売まで自社で行うSPA(製造小売)企業などでは、海外の工場から出荷する場合も多く、数ヶ月のリードタイムがあります。大きな変化が起こっている中で数ヶ月先を予測することは非常に難易度が高く、ビジネスで使えるレベルの精度の予測は期待できません。

この様な問題の予測が難しい理由は、大きな影響を及ぼす外部ファクターが予測不可能なためです。例えば、アパレルにおいて夏や冬の気温は需要に大きな影響を及ぼしますが、数ヶ月前の生産時点で冷夏、暖冬などを正確に予測する事は、機械学習だけに限らず、専門家にとっても非常に難しい問題です。

そこでこれらの外部ファクターを、前もって知ることができるものとしてモデリングし、様々なケースでシミュレーションした結果を勘案して対応するという方法が取られます。アパレルの例で言うと、冷夏のケース、平年通りのケース、平年よりも暑いケースなどをシミュレーションし、それぞれの予測値とリスクを考えながら発注量の最終決断を下す事になります。

このWhat-if分析は元々金融で使われているストレステストと同様の方法です。金融機関では、様々な経済状況を想定し、デフォルト率やロスのシミュレーションを行い、金融危機への対応能力評価が行われています。

それではこれから、アメリカでのトヨタ車の販売台数をアメリカ合衆国国税調査局の出すUS Monthly Retail Trade Surveyを用いてWhat-if分析を行ってみましょう。月次小売飲食売上の数字を使ってトヨタ車の販売台数を予測するモデルをDataRobotで生成、その後様々なシナリオを想定し、シミュレーションを行います。

What-if分析を行うモデルを生成する際には、いくつか注意が必要です。

まず、特徴量同士が相互に影響を及ぼしあう場合、シミュレーションにおいて、片方だけが変わって一方の特徴量が変わらないというシナリオは意味をなしません。US Monthly Retail Trade Surveyには季節調整済みと未調整の月次小売飲食売上の値がありますが、それらは全く同じものを表します。つまり、一方が変われば必然的にもう一方も代わるので、両方の特徴量をモデリングに使う場合、両方に同等の変化を加えてシミュレーションする必要があります。この様なケースでは、特徴量を一方のみにまとめてモデリングすると、シミュレーションや解釈がたやすくなります。

それはこのモデルにラグ特徴量を加える際も同様です。トヨタ車の販売台数と月次小売飲食売上の相関性が高いため、必然的に月次小売飲食売上とトヨタ車の販売台数のラグ変数の相関も高くなります。結果、ラグ特徴量を使うとシミュレーションで見たい月次小売飲食売上の影響が過小評価される危険性が高くなります。

そこで今回は全く販売台数のラグ特徴量を使わず、月次小売飲食売上も未調整のものだけを使い、他の特徴量はDataRobotが自動生成した月の特徴量のみというシンプルなモデルでシミュレーションを行います。

もう1つ注意点としてあるのは、使うアルゴリズムごとの外挿特性の理解です。どのアルゴリズムを使っても、トレーニングデータの値域外ではデータに基づいた値ではなく、推定された値であるという点は同じです。しかし、以下の表の様にツリー系のアルゴリズム、NN系・線形回帰系のアルゴリズムによって外挿の方法に違いがあります。

今回は線形回帰のモデルとツリー系のモデルを使ってシミュレーションをしていきましょう。

シミュレーションに使う、2020年2月以降の月次小売飲食売上の値は、マーケットアナリストなどの出すもっと正確な予測があるかもしれませんが、今回はSTLモデルで予測した値をベースラインとして、それより10%、20%、30%、40%、50%下がったケースをシミュレーションして行きます。

まず線形回帰モデルを使ったwhat-if分析をみてみましょう。こちらを見るとクリアに月次小売飲食売上が下がった分だけ、車の販売数も下がるという関係が出ています。

次にツリー系モデルでのwhat-if分析の結果を見てみましょう。下のグラフの特に以下の2つが目に付くと思います。

  1. 90%とベースラインでほぼ重なっている。
  2. 50%と60%の一部で重なっているところがある。

これはツリー系モデルの「予測値の値域は、トレーニングデータの値域を超えない。つまりモデルの外挿できる最大・最小値は、トレーニングデータの最小、最大となる」という外挿の特性によるものです。

繰り返しになりますが、常にどちらの外挿が良いということはありません。今回の場合は、線形モデルの方が納得しやすいモデルと思われるかもしれませんが、50%減という状況は経験した事がないのでどの様になるかは実際に起こらないとわかりません。もしかするこれまでの半分しか物を買えない極限の状況では、新車を買っている余裕などなく、もっと大幅な減少となるかもしれません。どちらのモデルもトレーニングデータになかった値域に対しては異なった推測を行っているだけでしかないのです。

この様に、What-if分析ではこれまで経験したことのないシナリオが多く含まれています。つまりモデルの評価をモデルの検定スコアのみで行うのは難しく、シミュレーションの結果が現場にとって納得できるかという点が重要です。最悪なケースなど極端な事例も含めたシミュレーションを行い、ビジネスナレッジと合致したモデルか評価を行いましょう。

まとめ

本ブログでは大きな変化が起こった時に精度劣化を最低限に抑えながら、機械学習モデルを運用していく方法をご紹介しました。今まさに起こっている変化の時代においては、①モデルの性能を監視し、②変化に対応力の高いモデルを生成し、③それらのモデルの対応変化力を評価しながら機械学習モデルを運用していく事が必要です。

これらのモデルが実際に使えそうな場合は、機械学習モデルを使った頑健なモデルを以前通り運用し、逆に機械学習モデルが対応できないケースについては、ビジネス担当者の経験に任せてしまう事が重要です。

コミュニティ
AIプロフェッショナルのためのコミュニティ開設

ソフトウェア開発者、データサイエンティスト、IT専門家、経営者に最適なサイト。DataRobot ユーザーであれば誰でも参加できます。

今すぐ登録

投稿 大変動下での機械学習モデルへの対処DataRobot に最初に表示されました。

]]>