業界事例 Archives | DataRobot https://www.datarobot.com/jp/blog/category/業界事例/ Deliver Value from AI Mon, 14 Aug 2023 03:29:25 +0000 ja hourly 1 https://wordpress.org/?v=6.4.3 イベントレポート(1):顧客価値創業企業として変革するヤンマー。DXをどう推進し定着させているのか。 https://www.datarobot.com/jp/blog/datarobot_roadshow_yanmar/ Mon, 14 Aug 2023 03:14:12 +0000 https://www.datarobot.com/jp/?post_type=blog&p=11917 2023年6月14日、DataRobotが主催したイベント「バリュー・ドリブンAIの道はここから始まる」で、DataRobotからは生成AIのビジネス活用と可能性と題して、ChatGPT等の生成AIがビジネスに活用されつ...

投稿 イベントレポート(1):顧客価値創業企業として変革するヤンマー。DXをどう推進し定着させているのか。DataRobot に最初に表示されました。

]]>
2023年6月14日、DataRobotが主催したイベント「バリュー・ドリブンAIの道はここから始まる」で、DataRobotからは生成AIのビジネス活用と可能性と題して、ChatGPT等の生成AIがビジネスに活用されつつある今、DataRobotの提供するバリュードリブン・AIと生成AIを活用することでビジネスでのAI活用に変化が生まれてきていることを紹介した。

ゲストキーノートにはヤンマーホールディングス株式会社 取締役/CDO 奥山 博史 氏が登壇し、「現場主導でお客様価値創造につなげるデータ分析・活用を」と題する講演を行った。本レポートでは、ヤンマーが取り組むデジタル戦略について紹介する。

■中期経営計画に合わせたデジタル戦略を推進する

創業111年を迎えるヤンマーホールディングス株式会社。ディーゼルエンジンの販売を祖業にし、1933年にディーゼルエンジンの小型化に成功。その後も、様々な世界初の製品を生み出し、現在ではディーゼルエンジンに加え、農業機械、建設機械、マリン関連、エネルギーシステムなどの分野で研究開発、製造、販売を行っている。

ヤンマーの中期経営計画の戦略課題のうちの一つが、デジタル基盤を整え次世代の経営基盤を作ること。そして、もう一つがこれまでの機械を販売する会社というイメージから脱却し、顧客価値創造企業に変革することだ。

さらに人材育成の方針として「HANASAKA(はなさか)」の推進を掲げている。これは、いろいろな分野の従業員が、それぞれ新しいことにチャレンジし、成長するとともに、新しい価値を作り出すこと、それを会社が全面的にバックアップすることで、花を咲かせようという考え方だ。

「会社としての全体戦略を踏まえて、デジタルという文脈においても、デジタルを駆使しないと実現できない新しい価値をお客様に届けることを最大の目標としています。そして、データに基づいた意思決定ができるような基盤やプロセス、文化を合わせて変革していくことを目指しています」

この目的の達成のために、ステップ1「スケーラブルな展開を可能とするデジタル基盤構築」、ステップ2「デジタルサービスの提供や効率性の向上による既存オペレーションの最適化」、ステップ3「デジタルを通じて新しい付加価値をお客様に届ける」ことを段階的ではなく、同時に進めていくという。

blog Yanmar

このような方針において、次の4つを今後3−4年間で実現していく。

  1. インフラの整備とセキュリティの強化
  2. グループ全体のデータ基盤の再構築、システムの刷新によるモダナイゼーション
  3. 草の根DX活動を組織化する
  4. データ活用・分析をする

「3つ目については、デジタルに興味があって、自主開発しているような従業員を見つけて声をかけ、コミュニティに参加してもらいます。グループ全体でコミュニティを盛り上げ、参加者を集中的に教育していきます。そこで成果の出るユースケースを作り、関心の薄い人たちに紹介することで『自分たちもやらないと』と意識を変えていくことができます。他社の成功事例はピンとこなくても、隣の事業部の事例は自分ごととして受け止められます。消極的な人でも、お客様に価値を提供したい、業務を効率化したいという思いは同じなので、デジタルを使えばそれができるということをしっかりと伝えていくことが重要です」

■収集したデータを活用し、これまでにない価値を提供する

ヤンマーでは、業務分野ごとに様々なデータを収集している。そのデータを組み合わせることで、お客様に価値として提供できるアウトプットが生まれる。例えば、農業機械が田植えや収穫の最中に壊れると、農作業の時期を逃してしまうなど、大きな問題が生じる。そこで、機械の振動データなどを活用して故障を予測して、機械が壊れる前に問題の部品を修理できれば、顧客への新たな価値となる。

他にも、葉っぱの色などのデータから土壌の性質を予測して、例えば窒素分が足りない、リンが足りないことがわかれば、その予測結果をトラクターに連携して、土壌に合わせた施肥ができるように最適化できる。

blog yanmar2

「機械販売だけではなく、農作業そのものに貢献できるようになりたいと考えています。データ分析によって最適な手法を提案できれば、収穫量の増加、肥料最適化による消費量の削減など新たな価値を届けられるようになります。加えて、我々のデータを農家が使う他のシステムに提供することで、貢献できることもあります」

■PoCに移る前に、アイデアを精査し、選定する

前述したように、同社ではデジタルに興味がある人を組織化し、コミュニティを作っている。現在は500人ほどがコミュニティに参加しており、データ活用のアイデアを募っている。同社では2022年よりDataRobotを導入し、データ活用・AI活用を進めているが、まずはDataRobot社と連携した勉強会を開催し、どんなデータがあればアイデアを実現できるかを考え、「テーマ創出アイデアシート」を使って応募する。2022年後半からこの流れでアイデアを募集し、集まったアイデアから、データがあるもの、ビジネスのインパクトが大きいものなどを選定してPoCを行う。現在すでに7つのPoCが始まっており、うち2つが現場での実装に近いところまでできている。

blog yanmar3

「テーマ出しをするといろいろなアイデアが出てくるので、分類することが重要です。例えば、自動機械学習で解ける問題もあれば、モデルを自分で構築する必要があるもの、AIを使わなくても市販のSaaSで対応できるものもあります。今年度もすでに同じ取り組みを通して10個くらいのPoCが出てきています」

この取り組みを通して、筋の良い分析テーマが多く出るようになってきて、奥山氏は全社に浸透しつつあることを実感するという。

■現場、経営陣とのコミュニケーションと、バランス調整が必要

ヤンマーの取り組みのまとめとして、次の3つがあげられた。

「1つ目は現場。特に重要なのは、現場の責任者です。PoCを実施したけど、その後全然プロセスにのらないということがありますが、その多くが現場の責任者を巻き込めていません。

例えば、生産部の人から、工場の設備Aが壊れるので故障を予測したいというアイデアがありました。そこで、その人の上司である課長も交えて議論したところ、経営視点で見ると設備Aよりも、Bの故障のほうがラインへの影響が大きいという話がありました。こうした議論を積み重ねることで、現場の人も経営インパクトが大きいテーマを見つけ出すことができますし、改善案を出した課長にとってもプロジェクトが自分事となるので、その後の展開がうまくいきます。 反対に責任者が関わらないと、PoCが終わって効果を説明しても、押し付けになってしまうので理解が得られません。実装に至らず現場のプロセスに落ちていかないということになります」

加えて、現場とのコミュニケーションも重視している。月に1回DXに関するメッセージをヤンマーグループ社員全員が見れるデジタルのポータルサイトに上げるほか、そのポータルサイトに、現場で実施しているプロジェクトを紹介して周知するようにしているという。他に、現場報告会と称して、奥山氏自身が現場に行って、取り組み内容や成果を動画で紹介して、全体に訴求するようにしている。

2つ目が、経営陣とのコミュニケーションだ。ヤンマーグループ全体で月に1回、幹部約60人が集まる月次会議があるので、奥山氏は毎回約15分ほど、デジタルについての取り組みや現場での成果を報告している。事業部長クラスになると、現場のDXの成果について知る機会が少ないので、奥山氏が取り組みを報告することで、デジタルのマインドシェアを高めている。経営幹部のマインドシェアがあがると、中間管理層へのプレッシャーにもなる。また、奥山氏は事業部や地域のトップと定期的に会議して、現場の実践を紹介したり、表彰するような取り組みを行っている。

3つ目が文化醸成だ。一足飛びには文化は変えられないが、デジタルに興味がある人を集中的にサポートして活性化させ、ユースケースを作り横展開していく形でデータドリブン文化の醸成を図っている。

「ただし一つ成功しても、全体が変わるわけではないので、全体がどう関連しているのかを見極めて、コーディネートして、よりよいバランスを見つけ出すことが必要です。組織の反応をみながら、一つの取り組みでやり過ぎであれば調整して他のアイデアに力を入れるなど、全体のコーディネートをするのがCDOの役割です」

最後に今年度の目標や取り組みについて紹介した。

20230614rungu datarobot 96

「今年度の目標は、コミュニティに参加する部門数、人数をさらに拡大していくことです。具体的には、本社だけではなく、事業部、現場で、分析して課題解決できる人を100人以上にしたい。自分で企画をして、分析、実装できる人を育てたいです。

もう一つは、現場発だとビジネスモデルそのものを変えるような提案がでにくいので、もう少しトップを巻き込んで経営インパクトが大きいテーマを発掘したいです。そして、AI活用のコミュニティを活性化して、自発的なテーマ創出をしていきたいです」

奥山氏は、「現状は完成形ではなく、日々試行錯誤しながら改善しているところ」と述べ、講演を締めくくった。

投稿 イベントレポート(1):顧客価値創業企業として変革するヤンマー。DXをどう推進し定着させているのか。DataRobot に最初に表示されました。

]]>
金融AI成功パターン https://www.datarobot.com/jp/blog/finai/ Mon, 20 Feb 2023 00:29:21 +0000 https://www.datarobot.com/jp/?post_type=blog&p=10719 DataRobotで金融チームディレクターをしています、小川幹雄です。DataRobotの肩書きとは別に、一般社団法人金融データ活用推進協会(Financial Data Utilizing Association以下:...

投稿 金融AI成功パターンDataRobot に最初に表示されました。

]]>
DataRobotで金融チームディレクターをしています、小川幹雄です。DataRobotの肩書きとは別に、一般社団法人金融データ活用推進協会(Financial Data Utilizing Association以下:FDUA)の企画出版委員会委員長代行もしております。FDUAは金融機関を中心とした一般社団法人となっており、各金融機関でのデータ活用のナレッジを広く国内金融機関で共有し、発展させていこうという目的をもって活動しています。今回、FDUAとして初めての本を出版するにあたり、私も著者の一人として金融業界におけるAI活用のノウハウを共有させていただきました。

本ブログでは、2月23日に出版される本「金融AI成功パターン」の紹介を兼ねて、金融における成功するAIパターンの概要について紹介したいと思います。

金融AI成功パターン
「金融AI成功パターン」

金融AI成功パターンとは?なぜ今必要なのか?

これまでも世の中には業界によらない機械学習全般の書籍やブログは多く出回っていました。そして金融業界のAI活用事例も多く発表され、金融業界とAIの関係性は一見近づいたように思われます。ただ実際には、金融機関で働く実務者からするとハードルが高い内容であったり、今は多くがAutoMLで置き換えられてしまう内容です。一方、金融機関の経験がないデータサイエンティストからすると金融機関の業務とデータサイエンスがどう結びつくのかわからないという課題がありました。結局、一部の金融機関やベンダーやコンサル会社にAI活用のノウハウが集中して溜まることになり、AI実現においてベンダーやコンサルに丸投げしてしまい想定以上に高額なコストがかかってしまう、金融業界以外から採用したデータサイエンティストが実力を発揮できずに辞めてしまった、AI導入自体を諦めてしまったという金融機関は少なくありません。

金融AI成功パターンとは金融業界におけるAI活用の基本パターン(本の中では上級編として追加5つのパターンも紹介)を網羅し、各パターンに必要なノウハウを実際にすでにその基本パターンを実現している金融機関の実例と併せてまとめたものとなっています。基本パターン単体においても金融機関でのAI活用を始める上でとても効果的な事例となっています。基本パターンを習得できれば、一見複雑なAI活用も一つ一つのパターンに落とし込むことができ、パターンを組み替えることによって新たな金融AI活用を見出すことができます。注意点として、今回出版する金融AI成功パターンでは、AutoML利用を前提に、プログラミング知識や統計的な知識習得を省略しながら、いかに金融業界の実ビジネスで効果的なAIを構築できるかのパターン実現方法をまとめたものとなっています。機械学習そのものがわからないという金融機関におかれましては、ぜひ弊社(AutoML・MLOpsツール及びデータサイエンティスト育成プログラムを提供)までお声がけいただくかデータサイエンティストの採用や育成をまずは行なっていただければと思います。

金融AI成功パターンの基本編

ターゲティングAI

営業推進からマーケティング領域で頻繁に見られるパターンです。業種ごとに見ても金融機関で営業とマーケティング両方を持たないケースは稀なので、必ず一つはターゲティングテーマを行なっているかと思います。事例も多い代わりに、その最小単位が分かりづらくなるケースが多いので、今回の金融AI成功パターンでは最小単位の考え方から重要となるターゲットの定義や具体的な金融機関の保有するデータについても紹介しています。

難易度も低いなかで、商材やサービスごとおよびイベントごとに作成することができるので、その出番はとても多くあります。また利用する特徴量はターゲティングAI同士で一定使い回すことができるので一つ作ると二つ目の構築工数は大幅に短縮されます。

ターゲティングAI
ターゲティングAI

価値算出AI

金融機関では、不動産、保険金支払額など一見価格が決まっているようで、一定の不確定要素を持っているものが多々存在します。専門家の判断によって一定の価値が見込まれると判断され取引が行われるケースが多いですが、データが十分に揃っていれば専門家の判断や市場の結果を学習データとして利用し、不確定な価値を算出するAIが構築可能です。ポイントとしては、単純に未来の価格を当てるだけでなく、その時点の不透明な価格を推計するということに利用することも可能です。

単純な精度面での効果だけでなく、リアルタイム査定を行えるようになるなど従来の顧客体験を大きく変革させる効果も見込まれるパターンです。

価値算出AI
価値算出AI

需要予測AI

金融とは元々物理的な物々交換から解き放たれるために存在するものであり、仕入や供給が直接ビジネスに関わる流通・小売業などに比べると忘れられがちなテーマとなります。ただ取引量予測や預金額の予測をもとに運用金額を決めるといった金融機関らしいテーマだけでなく、リースのように物理的なものを扱う分野や、コールセンターの需要予測などオペレーション周りでの需要予測は重要となります。

需要予測はどうしても金融業界と紐づくことが弱いことから学び漏れている現役の金融データサイエンティストも多いかと思いますので、まだ実践経験がないという方はぜひこの機会にキャッチアップしていただければと思います。

不正検知AI

残念ながら世の中の犯罪がある日突然なくなることはなく、犯罪行為が直接金銭と結びつく金融機関においては不正検知でのAI活用は必須であり、すでに先行している金融機関では基本パターンとして確立しています。今回の金融AI成功パターンでは不正検知の手法を丸々開示して不正を行う人が回避する手助けを行うものではなく、基本となる構築方法を紹介しています。不正を働く人は古い手法の穴を熟知しており、守備が弱いところを積極的に狙っています。そしてこれは国レベルで狙われている話なので、今回の金融AI成功パターンを習得していただくことによって日本全体の金融システムの高度化を図れればと考えております。

不正検知AI
不正検知AI

審査AI

銀行における融資、カード入会審査や保険の引受など審査業務は金融機関において重要かつ独特な業務です。ターゲティングは性質的に営業やマーケティング中心で行われるということで、金融機関非経験者のデータサイエンティストでも簡単にイメージがつくかと思いますが、審査業務というものは金融機関外の人には馴染み深くないものかと思います。今回の金融AI成功パターンでは、実例と合わせてすでにどういう形で審査AIが世の中で実現されているのかイメージできるようになるかと思います。

審査AI
審査AI

テキスト分類AI

金融機関では膨大な書類や応対のやりとりがデータ化されています。金融機関内の情報だけでなくニュースや経済レポートなど世の中の動きに大きく影響を受ける業務も多くあります。例えば情勢が不安定になるとその国と関連したマネーロンダリングが増えたり、大統領選や政府のコメント一つでその国の成長性への認識が変わり運用への影響が出ます。日々膨大な情報が生まれる中、人手で全てのテキストを読み切ることは不可能な領域になっており、自然言語処理は業務継続においても重要となります。また運用などにおいてはその金融機関の競争力原資につながる部分でもあり、サードパーティーが一律につけたカテゴリでは意味をなさないことが多く、独自に強化していく必要がある分野とも考えられます。

画像認識AI

画像認識というと物体認識や物体識別など自動運転や設備の自動化で必須のテーマであり、製造業の方が圧倒的に事例が多い分野となっております。ただ金融にも画像認識が必要な一大テーマがあり、それがAIーOCRの分野となります。現在の金融機関にはまだまだ紙の文書が多く、紙の文書を突破した後には、pdf化しただけで構造化されていない電子文書の山が存在します。将来的にはペーパーレス化の推進によってこのテーマの重要度は下がる(世の中のためにも下がってほしい)可能性が高いですが、今現在まだまだホットなテーマの一つとなっています。

本書の次に目指すこと

上記で概要に触れた7つの基本の金融AI成功パターンと5つの上級編を今回書籍にまとめることができましたので、ぜひこれから金融機関でAI構築に携わる人には手にとっていただければと思います。今後は金融AI成功パターンの組み合わせからどんなことが実現できるのかという部分や、すでに本書でも上級編で取り上げられている機械学習手法外のデータ活用アプローチも出てきていますので、そこでの事例紹介、活用方法からは少し離れて、組織構築・人材育成・ガバナンスという実現するための体勢についても発信できればと考えております。本を既に手に入れたという方がいらっしゃればコメントやアドバイスなど協会や私までご連絡いただけますと幸いです。

投稿 金融AI成功パターンDataRobot に最初に表示されました。

]]>
アフターメンテナンスにおける AI 活用 https://www.datarobot.com/jp/blog/ai-usage-in-after-sales-maintenance/ Wed, 13 Apr 2022 01:54:52 +0000 https://www.datarobot.com/jp/?post_type=blog&p=9108 製造業企業でアフターメンテナンス領域は業務効率化や収益化が難しいとされていますが、業務改革を実現するAI活用のポテンシャルが多くあります。が、効果的にAI活用を進めるにはステップがあり、本ブログでは具体的なステップも含め、アフターメンテナンス領域におけるAI活用について解説をします。

投稿 アフターメンテナンスにおける AI 活用DataRobot に最初に表示されました。

]]>
DataRobot の AI サクセスの責任者をしております三島とデータサイエンティストの鎌田です。三島は、現在は DataRobot で AI サクセスの責任者をしておりますが、DataRobot 入社前は15年以上、製造業のお客様を中心に ERP や SCM のシステム導入に携わり、特にアフターメンテナンスの領域では、多くのお客様の業務改善に従事して参りました。鎌田はデータサイエンティストとして大学などの研究機関から民間企業まで主にヘルスケア業界のお客様を支援しており、COVID-19 などの社会問題から民間企業の現場レベルの問題まで幅広い問題に日々立ち向かっています。この記事では、リアルな現場をみている2人が、アフターメンテナンス業務プロセスにおける AI 活用について解説をしていきます。

読者の中には、既に様々なベンダーやコンサルファームが開催している AI 関連・需要予測のウェビナーに参加されたり、関連の記事を読まれている方もいらっしゃるかと思います。本記事は、一般的な AI 関連・需要予測の話ではなく、サプライチェーン業界の中でも、組立製造業のお客様のアフターメンテナンスの領域に特化しています。

アフターメンテナンスにおける AI 活用概論

アフターメンテナンスには、デジタル化の潜在的なポテンシャルが多くあります。一方で、多くのアフターメンテナンス部門の現状をみますと、一般的にはコストセンターとして捉えられている傾向が多く、「ヒト・カネ」のリソースが投下されにくい部門であり、社内でのプレゼンスがなかなか発揮できていない状況です(医療用画像診断装置や航空機エンジンのアフターメンテナンス部門のように、むしろ「利益の稼ぎ頭」となっている業界ももちろんあります)。リソースが投下されにくいため、人材が流動せず、高齢化・属人化しており、ナレッジ共有や活用がなかなか進まない部門でもあります。また、顧客接点窓口にも関わらず、顧客活用情報の収集から社内共有まで、広く活用できていないというジレンマがまだまだ多くの企業で見受けられます。

一方、リソースが足りないアフターメンテナンス部門であるからこそ、今まで人が時間を掛けていた作業を AI に代替させることによって業務効率化の恩恵を大きく受けられるポテンシャルがあります。また、リソースが投下されにくいからこそ、高齢化に伴うリタイアが進む熟練者のナレッジやスキルの一部を伝承する必要がありますが、AI の導入によって効果的なナレッジ共有・標準化を行うことが可能となります。さらに、製品の稼働データをうまく活用することにより、新たなメンテナンスサポートサービスの開発に繋がるインサイトを得ることができ、今まで以上のタイムリーさで収益向上・コスト削減に繋げられるポテンシャルがあります。

以上まとめると、AI を活用した業務改革、あるいは革新的なメンテナンスサービス商品開発によって、今々は保守メンテナンスビジネスの売上は低く利益も上がっていない企業であっても、ビジネスの仕組みを変えてコストセンターから一気にプロフィットセンターにできる可能性があります。今既にアフターメンテナンス事業をプロフィットセンターにしている企業であれば、その利益率をさらに向上させる、あるいは新たな事業成長のアイデアを短期間に試し、評価することが可能となります。

image
image

また、アフターメンテナンス業務プロセスには AI で解決可能なテーマ(課題)が多く存在しているのも、私達が本ブログ記事を書くに至ったもう一つの理由です。例えば、「保守部品の需要予測」という課題を考えてみると、売上の観点では1つの需要予測ですが、在庫管理、発注業務やメンテナンスライフサイクルの細かい業務プロセスの単位で多くの派生テーマが考えられます。需要予測以外にも、例えば修理受付のコール対応プロセスでは、サービスエンジニアの現地支援が必要かどうかを予測したり、交換が必要な部品はなにかを予測して一発解決率を向上させるなど、自社のサポートの品質向上と差別化を実現できる多くのテーマ(課題)があります。

これらの AI 活用課題が業務実装されて業務プロセスが変わると(例:AI が想定した故障原因に関する情報をお客様にアプリなどで共有してお客様自身で問診を行っていただく)、社内でより効率的なオペレーションを行えるようになり、メンテナンスサービスによる売り上げの増大やコスト抑制が実現できます。また、故障予知や故障要因分析などの課題は、製造現場でも展開可能な事例になるので、バリューチェーン全体での展開も視野に入れられます(図2)。

image 1
image 1

AI 活用に向けた第一歩

前章では大きなビジョンを示しましたが、では具体的にアフターメンテナンス部門で AI を効果的に利活用するためには AI 導入をどのように進めれば良いでしょうか?本章ではアフターメンテナンス部門で AI を利用してビジネス成果を実現するためのロードマップ(下図3)と、最初のステップ「Initial Success」での重要ポイントをご紹介します。

image 2
image 2

  • Step 1:自部門の KPI に直結するテーマでまず成功する(Initial Success)。アフターメンテナンス部門で AI 活用の実績を作り、社内での注目も獲得する。
  • Step 2:事業部長を巻き込み、他部門と連携したバリューチェーンでの効果創出を実現する。(ここでは、他部門で抱えている課題をアフターメンテナンス部門から発信・改善へ貢献する「Give and Give and Take」の意識が重要)
  • Step 3:ここまで来ると、AI 活用効果が周知されてくるので、今度はまた自部門に戻って、これまでの貢献からリソースを投下してもらい、AI から得られたインサイトを活用した新たなビジネスの創出にチャレンジし、プロフィットセンター化実現を目指す。

特に「スタートダッシュ」が求められる Step 1の Initial Success(初期での成功)をどのように実現するか見ていきましょう。アフターメンテナンス部門のケースでは、以下の3点に留意する必要があります。

  • Point 1:アフターメンテナンス部門の KPI である、「一発解決率、即納率、部品(または代品)在庫回転率・在庫月数」などを因数分解して、対象カテゴリーを細分化した上で AI を適用する。特に、検証や結果報告に複雑な手間のかからないカテゴリーが存在するので、まずはそこから着手する。(なお、DataRobot では、AI プロジェクトのテーマを精査するご支援も提供しています)
  • Point 2:既存の SCM システムや計画システムが不得意としている領域からアプローチする。既存システムをリプレースするのではなく、既存システムが苦手としているところを補完すれば関係者全員が Win-Win になり、かつシステムリプレースと比較して少ないステークホルダー、少ないコストで課題解決できるため承認も得られやすくなる。(DataRobot は接続先システムを選ばないため、既存システムとの連携を簡単に行うことができます)
  • Point 3:アフターメンテナンス業務はドメイン知識が強く求められる領域であるからこそ、外注に任せず、内製化を前提として分析を進めることが重要。内製を一度実施すると、次のテーマでの内製のハードルが大きく下がり、アフターメンテナンス部門内でのデータ活用が順調に広がっていく。(DataRobot はコーディング不要で精度の高い AI モデルを作成できるため、専任のデータサイエンティストがいない部門でも内製化を加速させることができます)

以上3つの留意点を踏まえ、具体的にどのカテゴリー/領域から着手していくことが有効なのかをさらに掘り下げてみます。下図4は、アフターメンテナンス業務プロセスにおける在庫分析の切り口の一部を示しています。我々がアフターメンテナンス部門での需要予測の改善に着手する場合、保守サービス部品の在庫分析視点で分類します。

中でも設置管理医療機器、半導体製造装置、工作機械、建機など大型で高額な製品を扱っているメーカーが即時に効果を創出しやすいカテゴリー候補として「高額な初期在庫配備品/低回転品」が挙げられます。その理由は以下の通りです。

  • Point 1:高額な初期在庫配備品/低回転品は「2,3個の在庫を持つ/持たない」という判断になり、検証が非常に楽である。
  • Point 2:需要頻度や需要数量が多い部品や製品は、既存の SCM システムを用いてすでに需要予測が行われているケースが多い一方で、高額な初期在庫配備品/低回転品は、熟練者の属人的なスキルに依存しているケースが多いため、AI 活用による追加のビジネスインパクトが大きい。(高額な初期在庫配備品/低回転品の多くは、故障すると本体自体が稼働できなくなるコア部品の場合が多く、かつ非常に値段が高く在庫金額にも影響を与えるため、改善された場合のビジネスインパクトが大きいカテゴリになります)
  • Point 3:次の章で解説するような分析を DataRobot で行えるので、内製化が十分に可能な領域であると考えられる。
図4:アフターメンテナンスの在庫分析

それでは、具体的な低回転品需要予測のケースを次章でご紹介します。

事例紹介:低回転品需要予測

低回転品需要予測事例を解説する前に、まずは一般的な需要予測の考え方に触れます。機械学習の基本的な概念は、「過去のデータを使ってモデルを作り、そのモデルを使って未知のデータを予測する」ですが、SCM で実装されるような一般的な需要予測モデルの場合、時系列データからトレンド成分や季節成分、外的要因成分を抽出してモデルを構築していきます。

図5:一般的な需要予測

一方、低回転需要予測の場合、実は上記のモデル構築ロジックは通用しません。というのも「過去のデータを使ってモデルを作り、未知のデータを予測する」流れは変わらないのですが、トレンドや季節性のあるデータではないので、一般的な時系列モデルが通用しなくなるのです。これが低回転品需要予測の1つの問題です。また、発注が少ない・需要が少ないデータを扱うため、比較的長期にわたるデータを活用していく必要があります。この場合、過去と現在のビジネス環境が大きく異なると予測があたりづらくなるのですが、そのあたりのケアも重要になります。

まず、時系列性(トレンドや季節性)がないデータに対するアプローチですが、数値を当てる問題として予測モデルを作るのではなく、「X 年(例えば2年)以内に発注があるかどうか」を予測する問題に設定を変更して、低回転品の需要予測を行っていきます。つまり、少ないデータの中ではなかなか数を予測することが難しいため、「少量の在庫をもつか持たないか」という判断のレベル感であてていきます。このアプローチはシンプルですが、低回転品の予測では powerful に機能します。

しかしながら、そこで問題となるのがデータ量です。1製品に1モデルとするとデータ数が圧倒的に少なくなるため、複数の製品(または部品)を1つのテーブルにまとめて1つのモデルを構築していきます。ここが1つのコツです。

「発注があるかどうか」を予測するモデルを作成するにあたり、モデルに入れる特徴量としては、例えば用途の分類や使用機器、容積、過去の実績などを使用します。DataRobot は、時系列のモデルはもちろんのこと、数値を当てる回帰モデルや今回のように yes/no を分ける分類モデルなど、目的に応じて柔軟にモデルを作成できます。また、それらのモデル作成を no code で行えるので外部委託する必要がなく、自部門内で内製化できることを少ないコストで拡大していくことが可能です。

図6:低回転品の需要予測設計

発注の有無を当てるモデルを用いて予測を行うと「X 年以内に発注が行われる確率」が出力されますが、この確率を元にして閾値を決め、ある閾値より高い製品(または部品)の在庫を持つという形で在庫を決定していきます。閾値が変わるとトータルコストが変化しますが、それを表したのが下図7の右側の図です(閾値が横軸、縦軸がトータルコスト)。

閾値が0%の場合、つまり全ての製品(または部品)を在庫にもつ場合、莫大な在庫コストがかかります。ここから閾値を大きくしていき、ある程度閾値が高い製品だけ在庫に持つように設計すると、在庫コストは減る一方、いくつかの製品(または部品)は在庫切れになるので、在庫切れに伴うコストが発生します。閾値100%の場合は、全く在庫を持たない場合で、頻度高くエア便を使用するコストや、お客様に与える悪影響が大きくなります。両者の間に確かにトータルコストが低くなるポイントがあり、その閾値を見つける形で最適化ポイントを決めていきます。

このようにデータ分析によって導き出した発注確率の高い製品(または部品)から順に在庫を持つことで、人間の感覚で在庫を持つべき製品(または部品)を決める場合と比べてトータルコストを抑制します。

図7:低回転品の需要予測の結果活用イメージ

次に、長期間のデータを扱うことへの対応です。予測のために長期間のデータを使用する場合には、その期間中に起こるビジネスや環境の変化を考慮して、以下のような対応が必要です。

  • モデル構築時に時間に伴い変化しやすい特徴量をなるべく使用しない
  • 予測に使用するデータの変化(ドリフト)を監視する仕組みを構築する
  • 必要に応じてモデルを早く再学習させる仕組みを構築する

ここでは主にデータの監視や再学習の仕組みについて解説します。

機械学習では、一度モデルを構築したらそれで終わりということはなく、作成したモデルをモニタリングし、適宜モデルの再学習を行う必要があります。そのため、ビジネス環境が代わり、過去のモデルが機能しなくなると予測精度が低下しますが、そのタイミングを逃さず検知しモデルを再学習するために、予測精度を監視・管理する体制も併せて構築しなければいけません。特に長期間のデータを使用する場合、ビジネス環境の変化の影響が出やすいので、AI モデルの監視・管理体制がいかに機能するかが AI モデルの有用性に大きく関わってきます。

また、精度が下がる前にその予兆を捉えるテクニックもあります。データドリフトといって、学習の時に使ったデータの分布と予測に使ったデータの分布を比較する方法です。もし、学習の時に使ったデータの分布と予測に使ったデータの分布が変わっていれば将来精度が下がる予兆になり得るので、こうしたデータドリフトを監視すればビジネス環境の変化に早く気づき対応できる可能性があります。なお、DataRobot は、予測精度・データドリフト監視、再学習などを簡単に行えるプラットフォームである MLOps も提供しています。

図8:データドリフトや精度の監視・再学習の仕組み

おわりに

以上、本稿ではアフターメンテナンス業務プロセスに AI を導入する場合の着手のしかたや、実際に低回転保守部品の需要予測に AI モデルを適用する場合のポイントについて解説しました。

ここまでお読みいただければお分かりのように、AI は既存の SCM システムに取って代わるものではありません(DataRobot は他システムと連携するための API を提供しているので、むしろうまく空白ピースを埋めるような形で AI モデルを実装して既存のビジネスプロセスを改善していただけます)。

また、そもそも精緻な在庫計算が不要で、シンプルな発注計画で対応できる部品(代品)・製品に対して無理に需要予測をする必要はありませんし、既存システムで実業務を回せる精度の需要予測ができているものに対して無理に既存の流れを入れ替える必要もありません。

繰り返しになりますが、低回転品など、従来なかなか対応することができなかった領域において先ほどご紹介したような流れを構築していくのが、AI による予測分析で大きなビジネスインパクトを生み出すための鍵となります。

アフターメンテナンス業務プロセスに問題・課題をお持ちの方、アフターメンテナンス部門でデータドリブンな業務改善を推進したいと思われる方は、是非お気軽に弊社までお問い合わせください。この分野の知識・経験豊富なデータサイエンティストや AI サクセスの専門家が、お客様の業務課題を整理し、精緻化するところからご相談に乗らせていただきます。

オンデマンド
DataRobot AIX 22 Japan オンデマンド

アスクル様、イーデザイン損保様、ニトリホールディングス様、ダイハツ工業様、カシオ計算機様など、多数のお客様事例講演をご視聴いただけます。

オンデマンドで見る
サクセス
お客様事例

DataRobot で生産性と効率を高めている お客様の事例をご紹介

もっと詳しく

投稿 アフターメンテナンスにおける AI 活用DataRobot に最初に表示されました。

]]>
AI の需要予測を用いた在庫最適化 https://www.datarobot.com/jp/blog/inventory-optimization-using-ai-demand-forecasting/ Wed, 27 Oct 2021 02:15:41 +0000 https://www.datarobot.com/jp/?post_type=blog&p=7330 需要予測は近年AIの活用が著しい領域ですが、需要を予測しただけではビジネスインパクトには繋がりません。予測した需要を適用できる主な業務として在庫の最適化があります。本稿ではAIを用いた需要予測の在庫最適化への活用方法を考察します。

投稿 AI の需要予測を用いた在庫最適化DataRobot に最初に表示されました。

]]>
はじめに

DataRobot で小売・流通業のお客様を担当しているデータサイエンティストの新名庸生です。近年、AI を用いて需要予測に取り組まれるケースが様々な業界で増えてきています。需要予測に取り組むモチベーションは、経営計画やマーケティング計画への反映、物流センターでの人員の確保など複数ありますが、その中でも最も一般的な目的として在庫の最適化があります。ただ、需要予測ができたからといって在庫管理まで一足飛びにできるわけではありません。本稿ではまず需要予測と在庫の関係を考察し、続いて在庫最適化をスケールさせるために DataRobot でできることをご紹介します。

需要予測モデルと在庫

需要予測の精度と在庫の関係性

需要予測の精度を高めることによって、より在庫を最適化する事ができます。まずはこの点について仮想例を元に考察します。

あるレストランが翌日の来客数の予測を行っていたとします。このレストランでは1日前に翌日の来客数を予測し予測値に応じて食材を発注、翌日朝一で食材が届きます。また、当日使い切れず余った食材は破棄します。

このレストランのKPIは以下の2つであるとします。

  1. 廃棄食材量:何人分の食材を廃棄するかで計算
  2. サービス率:食材の欠品を出さずに利用者に食事を提供できる率(日単位で計算)

レストランでは、サービス率について目標値を定め、そのサービス率を達成するために生じる廃棄食材量を最小限に抑えたいと考えています。

毎日の来客数は1〜20人で、来客数が1人, 2人,…, 20人である確率はいずれも5%で同確率であることがわかっています。(図1)

図1: あるレストランの日次来店者数の確率分布
図1: あるレストランの日次来店者数の確率分布

このレストランでは毎回翌日の来客数をこの分布の平均値である10.5人と予測していますが、サービス率90%(=20日間のうち、食材に欠品を出さない日が18日あることに相当)を目指すために7.5人分を安全在庫として合わせて合計18人(=20人×90%)分の食材を発注しています。

レストランはある時、過去平均だけでなく天候という特徴量も考えながらより予測の精度を上げようと試みました。実はこのレストランの来客数は図2のように天候によってはっきり分かれており、雨の日は1人~10人が、晴れの日は11人~20人が同確率の10%で来客します。(簡単のため、天候は晴れか雨しかなく、晴れの日と雨の日は年間で同日数であるとします。また、天気予報は必ず当たるとします。)

図2: 天気ごとの日次来店者数の確率分布
図2: 天気ごとの日次来店者数の確率分布

この時、翌日の天気を加味して精度を上げた需要予測はどれだけ廃棄食材量にインパクトをもたらすでしょうか。

まず、天気予報で翌日が晴れだと分かっている時、レストランは晴れの日の来客数分布の平均値の15.5人で来客数を予測します。サービス率は変わらず90%(10日間のうち、食材に欠品を出さない日が9日間あることに相当)を目指す場合、来客数が11人~19人のパターンをカバーする必要があるので、安全在庫の3.5人分を合わせて19人分の食材を発注します。翌日が雨だと分かった場合も同様に、レストランは雨の日の来客数分布の平均である5.5人と予測し、サービス率90%を達成するため、3.5人分の安全在庫を合わせて9人分を発注します。この時点で、サービス率を保ったまま安全在庫を7.5人分から3.5人分に圧縮できていることが分かります。

表1に4月1日から4月20日の20日間において前半10日が雨、後半10日が晴れで、来客数がそれぞれ1人, 2人, …, 20人だった場合のシミュレーションを掲載します。

blogdemandforecast3

従来の予測(天候が加味されていない予測)だと20日間の予測精度が平均絶対誤差が5人で、153人分の廃棄が出ていたものが、天候情報を加味してより精度を上げた予測を行う事により平均絶対誤差が2.5人となりサービス率を変えずに72人分の廃棄に留めることができました。(晴れの日だけに着目すると廃棄量は増加していますが、同時にサービス率が80%から90%に改善されています。晴れの場合の予測精度が下がったわけではないため注意が必要です。)この表をわかりやすく可視化したものが図3になります。青色の三角形が従来の予測を行ったときの廃棄量、オレンジの2つの三角形が予測精度を上げた場合の廃棄量になります。

図3: 従来予測と新予測の比較の可視化(サービス率90%)
図3: 従来予測と新予測の比較の可視化(サービス率90%)

仮に安全在庫を持たなかった場合のシミュレーションも見てみましょう。この場合でも来客数が予測値以下の際に廃棄する食材の量を減らすことが出来ます。

従来予測と新予測の比較(サービス率50%)
従来予測と新予測の比較(サービス率50%)

こちらも晴れの日だけに注目すると新予測の方が廃棄が多く改善されていないように見えますが、そもそも従来の予測の場合は晴れの日のサービス率は0%でした。廃棄だけに着目してこれを最小にするには発注をゼロにすれば良いということになってしまいますので、廃棄量の少なさが直接予測精度を表すわけではない点に注意が必要です。実際、晴れの日だけに着目しても従来予測の場合、平均絶対誤差は5人、新予測の場合2.5人です。

図4: 従来予測と新予測の比較の可視化(サービス率50%)
図4: 従来予測と新予測の比較の可視化(サービス率50%)

このように、よりきめ細かく予測して発注量をコントロールすることで、より少ない在庫で同じサービス率を維持できるようになります。

予測誤差分布を用いた安全在庫適正化

上記の天候を加味した予測では雨の日と晴れの日の需要分布が過去のデータから分かっていると仮定し、それを使ってサービス率90%を目指す場合はそれぞれ9人、19人と算出しましたが、実際は特徴量の値に応じた需要の分布が予め分かっているわけではありません。需要分布が未知の場合、予測誤差( = 実測 – 予測 )の分布からサービス率に応じた安全在庫と発注量を見積もることになります。例えば翌日が雨の日は4人、晴れの日は14人という予測を行っていた時、観測できる予測誤差は-3, -2, …, 5, 6で、予測誤差の分布は下図のようになるでしょう。

図5: 雨の日は4人, 晴れの日は14人と予測した場合の予測誤差の分布
図5: 雨の日は4人, 晴れの日は14人と予測した場合の予測誤差の分布

この予測誤差の分布の90%をカバーできるように安全在庫を持てばサービス率90%が実現できます。図から予測誤差は5まで見ておけば分布の90%はカバーできることが分かりますので、サービス率90%を達成するには安全在庫は5人分、発注量は予測値に安全在庫分を加えた値、すなわち雨の日は4+5=9人分、晴れの日は14+5=19人分と決定することができます。

このようなニーズに合わせて DataRobot では予測を行う際に予測値だけでなく、モデルの構築過程で算出された予測誤差に基づいた予測区間を出力することができます(図6の青い範囲)。例えば予測区間を80%と指定すれば予測誤差分布の下位10%と上位10%(図5における-3と6)を除いた80%(-2~5)の誤差の可能性を考慮した範囲を算出します。雨の日は4人、晴れの日は14人という予測を行っていた場合、80%予測区間はそれぞれ[2(=4-2), 9(=4+5)]、[12(=14-2), 19(=14+5)]となります。サービス率とは違い予測区間はその名の通り区間であるため、下限も存在する点に注意が必要です。

図6: DataRobotの予測プレビューにおける予測値と予測区間
図6: DataRobotの予測プレビューにおける予測値と予測区間

最適なサービス率・発注量の推定

予測精度を上げられるとより少ない安全在庫で同じサービス率を維持できることは分かりましたが、維持すべき最適なサービス率、そして最適な発注量はどのように求められるでしょうか。この章ではまず前掲のレストランの例に当てはめることができる「新聞売り子モデル」を使った理論的アプローチを考察します。新聞売り子モデルでは損失を最小にするサービス率が公式として求められていますが、その式を用いるだけだと納得感に欠けるため、求めたサービス率に近いほど損失が小さくなることを可視化して確認します。しかし新聞売り子モデルはあくまでも数理的なモデルであり汎用性の観点では十分ではありません。そこで十分な量の実績データが利用可能な場合に実現可能な方法としてデータドリブンアプローチをご紹介します。こちらは最適なサービス率の導出を経ずに過去の発注量と損失のデータから直接最適な発注量の推定を行うアプローチです。ただ、データドリブンアプローチも必ずしも常に実現可能とは限りません。本章の最後ではデータドリブンアプローチの課題と実際のビジネスにおける最適な発注量へのアプローチの方向性について言及します。

理論的アプローチ

まず、理論的なアプローチについてご紹介します。前章までのレストランの例のようなケースは「新聞売り子モデル(Newsvendor model)」としてその解が数学的に求められています。具体的には、商品あたりの仕入コストを c 、販売額をpとしたとき、最適なサービス率は (p-c)/p であることが知られています。(新聞売り子モデルには廃棄コストも考慮した拡張もありますが今回は最もシンプルなケースで考えます。)証明は文献[3]などに譲り、ここでは極端な場合を考えてみます。もし仕入れコスト c が0の場合、最適なサービス率は100%であり、直感通り可能な限り入荷したほうが良いことになります。c=pの場合、売れたとしても利益が出ないため売れ残り損失を考えると最適なサービス率が0%であるのは納得がいきます。例えばレストランの例で1人前の食費の仕入れコストが3,100円、提供価格が10,000円だった場合、最適なサービス率は(10,000-3,100)/10,000=69%ということになります。その時の発注量は図1の需要分布より20×0.69=13.8人分となります。前述のように現実世界で需要分布が事前に分かっている場合は稀ですので、実際は予測誤差からサービス率69%に対応した発注量を見積もる必要があります。

公式に当てはめただけですとこれが最適であるという実感に乏しいため、シミュレーションでも確認しましょう。発注数が q 人分(1≦q≦20)で実際の需要がd 人(1≦d≦20)のとき、d≦q なら(q-d)*c の売れ残り損失が、q≦d の場合は(d-q)*(p-c)の品切れ損失が出ます。c=3,100、p=10,000として発注数 q を1≦q≦20の範囲の整数で動かしてみるとき、各 q で実際の需要 d が1~20の値を取る確率はそれぞれ5%であることを考慮して品切れ損失、売り切れ損失、その合計の損失の期待値をシミュレーションすると図7のようになります。

図7: 発注量 q に応じた損失期待値の理論的シミュレーション
図7: 発注量 q に応じた損失期待値の理論的シミュレーション

このシミュレーションでは q=14のときに合計損失が最小になっています。ここでは q を整数で動かしているためちょうど13.8ではありませんが、このシミュレーションからも先程の新聞売り子モデルによるアプローチの結果がもっともらしいことが分かります。

データドリブンアプローチ

新聞売り子モデルは実ビジネスで活用するには難しいポイントがいくつかあります。まず、需要分布が未知の場合、予測誤差分布から発注量を推定するという手間がかかります。また、例えば商品が売れ残りそうな場合は販売価格を徐々に下げていき売れ残りを減らそうとする施策はよく行われることですが、このように販売額 p が変化し、それに伴って変化する需要分布もあわせて考慮するのは困難です。こういった、理論だけでカバーするには複雑すぎる場面に適用可能な方法としてデータドリブンなアプローチを検討することができます。事象の裏にある理論を追究するのでなく、データとして現れている関係性を直接機械学習モデルに学習させるというアプローチです。例えば、データドリブンアプローチを取るには単純な例となりますが、先程理論的アプローチで導いた最適発注量 q をデータドリブンアプローチで求める場合は以下の手順となります。

  1. 過去の実績データを用い、発注量(特徴量)から合計損失(ターゲット)を予測するモデルを作成
  2. 作成したモデルを使って様々な特徴量の組み合わせを試し、合計損失を最小化する特徴量を推定

図8は以上の手順を DataRobot によるモデリングと最適化アプリケーションを用いて導出した結果です。こちらの手法では図1のような需要分布の情報は直接は使っていませんが理論的アプローチと同様に最適な発注量として14を発見することができています(q に整数という制限をかけて探索)。

図8: DataRobot の最適化アプリケーションによる最適発注量の発見
図8: DataRobot の最適化アプリケーションによる最適発注量の発見

現実的アプローチ

上記のデータドリブンアプローチもすべての場合に適用可能なわけではありません。例えば品切れしているかどうかに関わらず発注伝票が顧客から届く場合には品切れ損失は計算可能かも知れませんが、スーパーの棚に陳列されている食品などの場合は品切れ後にどれくらいの需要があったのか測定することは困難です。品切れが他の代替商品の購買につながる場合もあり、品切れをひとくくりに損失と捉えることができない場合もあります。このようにすべての場合に適用可能な最適発注量の導出方法はなく、実際のビジネスではシミュレーションや試行錯誤のなかでそれを推定していく必要があります。ただ、理論的アプローチやデータドリブンアプローチが全く活用できないわけではなく、何らかの仮定を設けてこれらのアプローチを応用しスタート地点とすることで、闇雲に行うよりも効率的な試行錯誤につなげることができます。

需要予測をスケールさせるための AI 活用(DataRobot を例に)

上記の最適化アプリケーションの例のように、AI は十分なデータが有ればそこから統計的な関係性を読み取った上で予測値や最適解を導出できるため非常に強力な味方となります。実際に DataRobot を用いて複雑な需要予測タスクを効率よくスケールさせられることを以下にご紹介します。

多商品に対する需要予測モデルの作成

レストランでの需要予測の例では天候という新しい特徴量を加えることで予測精度が上がりました。このように予測対象の過去の履歴だけではなく関連する他の特徴量も取り込むことで精度向上に繋げられるのが機械学習モデルの強みです。DataRobot では派生特徴量の生成という時系列特有の特徴量の前処理を自動で行った上で様々なアルゴリズムの機械学習モデルを作成できます。

また、異なる SKU であっても需要トレンドが同じである場合はまとめてモデリングを行った方が個々の SKU に対して別々のモデリングを行うより効率が良く、またデータ量としても増加するため精度向上につながる可能性があります。DataRobot では複数時系列モデリングにより最大100万系列を含む時系列データを一度に学習し、予測値を算出することができます。

精度のモニタリング

需要予測モデルは運用開始後、定期的に精度を確認しておく必要があります。刻一刻と変化し続ける環境下ではいつ需要トレンドに変化が起きるかわかりません。そのためには複数の実運用中のモデルの精度を横断的に監視し、かつ精度が悪化していれば原因の特定やモデルの作り直しなどを考える必要があります。DataRobot では実運用化されているモデルを一括して管理し、精度が悪化していればいち早く気付けるようにアラートのメールを設定しておくこともできます。

また、実運用モデルと並行して精度監視の対象とするチャレンジャーモデルを設定することができます。これはもし運用していればどれくらいの精度になっていたかをシミュレーションしたい際に設定できるもので、現行モデルとの比較を行うことができます。仮に現行モデルで大きな精度悪化が生じたとしてもチャレンジャーとして登録しているモデル(例えばロバスト性を重視して作成したアンサンブルモデル)でそれほど精度に変化がなかったものがあれば、取り急ぎそちらに運用を切り替える事ができます。

図9: チャレンジャーモデルの精度確認
図9: チャレンジャーモデルの精度確認

特徴量のドリフト(データドリフト)による原因調査

精度の悪化が起こった場合、学習で使ったデータと実運用で予測対象となったデータで大きく分布が異なっていることが一つの原因として考えられますが、具体的にどの特徴量の分布が異なっているのかを特定することは問題の理解や現場への説明に役立ちます。DataRobot では特徴量ごとにデータドリフトの度合いを視覚化できるので、学習データの分布と予測データの分布の乖離を確認することができます。

図10: データドリフト
図10: データドリフト

モデルの自動生成と置換

精度の劣化やデータドリフトが検知された場合、あるいはそういったシグナルが検知されなくても定期的に直近のデータでモデルを作り直すことは精度の維持に置いて有効な手段です。DataRobot では図11のように定期的スケジュールや精度・データドリフトのステータスの変化をトリガーとしてモデルの再モデリングと置換を自動化(英語ブログ)することができます。

実運用モデルの置換の必要が生じた場合でも過去の精度や運用記録は引き継いだまま、モデルの置換を行うことができ、DataRobot の内部でデプロイと紐づくモデルが変更されるだけなので、外部システム連携するために記述されたプログラムに修正を加える必要はありません。

図11: モデルの自動再トレーニング設定
図11: モデルの自動再トレーニング設定

おわりに

本稿では需要予測を最適な発注量に繋げる方法を説明しました。変化が激しくデータや取り巻く状況が複雑な実際の現場で需要予測をスケールさせ、在庫最適化につなげていくためのベストプラクティスのひとつとして、人間が工数をかけるべき箇所と自動化できる箇所の棲み分けの明確化があります。そして、DataRobot はその自動化を多くの部分で実現可能にします。需要予測とそれを活用した在庫最適化は一朝一夕には達成できない根気のいるプロジェクトですが、人と AI の担当を明確にし協力すれば着実に効果に結び付けられるユースケースでもあります。DataRobot は進化し続けるプロダクトと共に、需要予測に取り組まれるお客様を引き続きサポートしていきます。

メンバー募集

DataRobot では AI の民主化をさらに加速させ、金融、ヘルスケア、流通、製造業など様々な分野のお客様の課題解決貢献を志すメンバーを募集しています。AI サクセスマネージャ、データサイエンティスト、AI エンジニアからマーケティング、営業まで多くのポジションを募集していますので、興味を持たれた方はご連絡ください。

参考文献

  1. 山口雄大(2018)『この1冊ですべてわかる 需要予測の基本』日本実業出版社
  2. 淺田克暢、岩崎哲也、青山行宏(2005)『在庫管理のための需要予測入門』東洋経済新報社
  3. 大野勝久(2011)『Excelによる生産管理―需要予測、在庫管理からJITまで』朝倉書店
  4. 勝呂隆男(2003)『適正在庫の考え方・求め方』日刊工業新聞社
  5. 勝呂隆男(2006)『適正在庫のテクニック』日刊工業新聞社
  6. 勝呂隆男(2014)『売上を伸ばす 適正在庫の定め方・活かし方』日刊工業新聞社
ウェビナー開催
AI の需要予測を用いた在庫最適化

新機能のご紹介を交えながらデモで解説

詳しくはこちら

投稿 AI の需要予測を用いた在庫最適化DataRobot に最初に表示されました。

]]>
データに基づく営業・マーケティング(製薬企業での実践) https://www.datarobot.com/jp/blog/data-driven-sales-and-marketing/ Wed, 19 May 2021 02:18:12 +0000 https://www.datarobot.com/jp/?post_type=blog&p=5837 MRの減少などで、より効率的な製薬企業医薬品のマーケティングが必要とされています。デジタル化やデータの利活用が注目されていますが、ABテストを実施しにくい医薬品のマーケティングではデータの活用は一筋縄ではいきません。どこにデータを利活用できる可能性があるか、機械学習の視点から紹介します。

投稿 データに基づく営業・マーケティング(製薬企業での実践)DataRobot に最初に表示されました。

]]>
はじめに

DataRobot でヘルスケア業界のお客様を主に担当しているデータサイエンティストの鎌田です。
新型コロナの影響を受け、医療現場に近い製薬企業の営業活動は2020年以降大きな変化が起こりました。新型コロナ前より、MR の縮小や薬価制度改革、規制の強化、スペシャリティ領域の増加に伴い、人海戦術からデジタルやデータを活用したより効率的、効果的な営業へと移行する流れはありましたが、新型コロナによる医師への訪問規制を受け、その流れは加速しています。本稿ではデータに基づく営業・マーケティングをどのように進めていくのかを AI機械学習以前の考え方も踏まえて説明していきます。

どこから考えるか

マーケティング部でどのようなデータを集める必要があるか」「どのようにデータから営業最適化を進めれば良いか」といった疑問を抱えている方は多いと思いますが、世界的にも有名なマーケティングの教科書である『Data-Driven Marketing[1]』から1つの回答を借りると「まず、マーケティング・ビジネス面で解決しようとしている問題を把握し、その問題を解決するために回答する必要がある質問・疑問を設定する 」ことがデータに基づく営業・マーケティングのスタートポイントです。
当たり前と思われるかもしれませんが、弊社の経験では、データ分析となった途端に「AI でデータから何か見つけられないか」という話になってしまうケースが少なくありません。このように、AI・機械学習の利用自体が目的になってしまうことを避けるためにも、前もって課題整理と状況把握に必要なデータ整理を進めていくことが成功する鍵となります。製薬企業でのある製品(医薬品)の新規処方を例に考えていきます。

まず、新規処方に関する現状を把握するためのデータを収集します。

  • ある製品を処方する可能性のある(対象疾患の患者を診る)医師の人数
  • 現在処方されている医師数と処方数合計・各月の新規処方開始医師数
  • 当初の目標

それに基づき、大きなビジネス課題を設定します。例えば、上記のようなデータをもとに下記のような課題が見えてきたと仮定します。

  • “上市当初は目標通りの新規処方数を獲得できていた。しかし、処方可能性のある医師はまだ十分にいる一方で、上市6ヶ月後から新規処方数が目標に対し20%届いていない。”

その後、見えてきた課題を解決するために必要な質問・疑問を考え、それに答えるために必要なデータ(定性的なデータも含む)をさらに集めていくことになります。

  • 上市当初の新規処方開始医師は、MR がかねてから頻度高く訪問していた医師が中心になっており、その他の医師に対して eDTL やウェビナー、DTL などを通して、十分な情報提供ができていなかったのではないか?
  • 情報提供を行っていたとしても、各施策の反応率が低いのではないか?特にどのチャネルの情報提供の反応率が低いか?

上記のような質問を繰り返して、様々なデータを収集・分析し、集めた情報をもとに現状の課題を認識しながら、予算強化・削減などのアクション、改善に向けたより深い分析テーマを決めていく流れになります。

効果測定の土台作り

ここで、AI・機械学習のテーマを紹介する前に、よく同時にお話に挙がる効果測定について解説します。施策の予算強化・削減について考える際、施策の正味費用対効果がわからず、困っている方は多いと思います。施策の効果測定を行うためには、施策に反応した人を追跡する仕組み、またはコントロールを設けた評価が業界問わず原則必要となります。

例えば、ウェビナーの案内のために分厚い封筒を送っている場合、まずその封筒から参加申し込みがあったかどうかトラックできているようになっているでしょうか。また、封筒を送った医師の参加確率はそうでない医師と比べて高いといえるものになっているでしょうか。もし封筒が開封されることなく医師のデスクに積み上がった資料の一部にしかなっていない場合、やり方を変えたり、その予算を別の施策に回すことが必要とされます。また、封筒の案内からウェビナーに参加する医師がいても、そもそも封筒を送付されなくても e-DTL や MR からの案内でウェビナーに参加される医師(コントロール)が同等数いる場合、その施策の効果はゼロ、むしろ封筒代分マイナスとなります。

厳密に指標をモニタリングし、緻密な施策の検証計画を立てて、はじめて効果を見極めることができ、より効果的な施策に予算を集中することができます。言うは易く行うは難しではありますが、一般的には計画的な検証計画がないまま過去に遡って手持ちのデータを分析し、施策の効果を見極めるアプローチの方がむしろ効果検証が難しくなります。一方、全ての施策の効果を完璧に測定することは非現実的ではありますが、重要な施策や惰性で頻度高く行っている施策については指標をトラックし、効果を測定する計画を立てることで、着実な改善を積んでいくことができます。筆者は DataRobot に入社する以前からクライアントがビジネス実験を計画的に行い、効果検証を行うための支援を行っていますが、計画的な検証計画の枠組みができている企業は一つ一つの施策の効果に対して明確な答えを知っており、さらに分析もシンプルであるため、結果的に正確に早くビジネスを進めることができています。このように、データありきで全てを高度な分析に任せようとするのではなく、精度の高い意思決定を行いやすい計画を最初の段階からできるだけ立てていくことが重要になります。

AI・機械学習テーマ

データ分析に基づいた営業・マーケティングを進めるために基本となる考え方ついて簡単に紹介しました。ここからは、課題を整理した後に営業改善でよく行われる具体的な AI・機械学習テーマを紹介していきます。予測分類、推定を行うことでビジネス課題が改善できるテーマにおいて AI・機械学習が本領を発揮します。

製薬営業における主なデータ分析テーマを図1にまとめました。オレンジの四角がついたテーマが AI・機械学習をよく活用するテーマになり、市場予測から新規処方・処方増・処方中止防止のステージ毎にどのようなテーマがあるかを示しております。以降順に主な AI・機械学習のケースを紹介します。

図1: 製薬営業におけるデータ分析テーマ一覧
図1: 製薬営業におけるデータ分析テーマ一覧

製品需要予測

まず、市場予測の段階で毎月の製品全体の売上目標・ベンチマーク設定に AI・機械学習を活用することができます。基本的には上市してからある程度時間が経っている製品が対象となります。該当製品の過去データだけでも、単純な直近数ヶ月の平均や昨対比よりも AI・機械学習の方が精度は高くなりますが、より精度が高い予測値を得たい場合には、競合製品のデータを購入して予測に使う変数に加えるといったことも行われます。

医師毎の製品対象患者数予測

製品全体の市場予測だけでなく、医師毎の市場予測もテーマとなり得ます。医師毎に製品対象となる患者が何人いるかについての情報は基本的に MR のヒアリングベースになりますが、MR の訪問規制が厳しくなると、そうした情報の取得が困難になってきます。そこで、直近ヒアリングした医師のデータを使用して、医師毎に製品対象となる患者数を予測することが有効になるのです。少しテクニカルな話になりますが、全国約30万人の医師のうち製品対象となる医師の方は基本的に少ないため、0が多い予測問題となってしまいます。そうすると、ほとんど0と予測しておけば精度高いモデルになってしまい、モデルの評価が難しい問題が生じてしまうのですが、難しい問題を避けるためにまずは「製品対象の患者がいるかどうか」といったシンプルな二値に分ける分類問題からはじめ、単純にポテンシャルがある医師を特定するところから進めることがおすすめです。

施策のターゲティング

市場予測の後は、新規処方獲得、処方数の増加、処方中止の防止に向けた施策の改善に注目していきます。各ステップにおいて、eDTL や ウェビナー・説明会、DTL それぞれの改善を進めていくわけですが、eDTL であれば反応率、ウェビナー・説明会であれば参加率などの指標を設定し、それに紐づいたターゲティングや Next Best Action、施策改善に向けた要因分析を行っていきます。

その中でターゲティング、とりわけ MR 訪問の優先順位付けはインパクトが大きく、かつ分析の設計も比較的シンプルであるので、多くの製薬企業が取り組んでおられます。スタートテーマと言っても過言ではないテーマです。具体的には図2のように、処方した医師と処方していない医師のデータを用意し、過去に受けた施策の情報や医師・施設の属性から将来処方するかどうかを予測するモデルを作成することで、医師毎の処方確率をリストアップしていきます。また、上市から時間が経ち、処方増を目指す場合は「処方が増加したかどうか」を予測対象に選び、処方中止の防止が主な施策となっている製品については、「処方を中止したかどうか」を予測対象に選ぶことで同じように分析することができます。

図2: MR訪問優先順位付けに向けた処方確率のターゲティング
図2: MR訪問優先順位付けに向けた処方確率のターゲティング

モデルを作成すればそれで終わりというわけではありません。処方確率に基づいてリストアップしたものを MR に直接渡してもなかなか実行まで結びつかないということは往々にしてあり得ます。例えば、MR と相談しながら、その他の医師への影響度が大きいキーオピニオンリーダーについてはフラグをつけて処方確率に関係なく必ず直近の活動を確認して精査してもらったり、定期的にフォローをしている医師については処方確率に関係なく訪問してもらうなど、どのような運用方法が現場で受け入れられるかまで議論することが必要となります。

また、施策のターゲティングは活用範囲が広く、確率に基づいて自動的にアクションを行えるような施策であれば、マーケティングオートメーションの一部に組み込むことも可能となります。

Next Best Action

医師毎にフォローの仕方を変えたい場合、次にどの Action を行うと最も KPI が向上する可能性が高いかを示す Next Best Action が選択肢の一つとして上がります。医師との過去のやりとりの文脈を読みとって、DTL や eDTL 含めていきなり全ての選択肢から最善の一手を探し出すと検討外れの結果になってしまう可能性があります。そこで、例えば反応されない大量の eDTL を行うことを避けるために(大切な情報が埋もれないように)セグメント毎に次にどのようなeDTLを行うと反応率が最も高くなるかといった問題設定にするなど、的外れな結果が出しにくいような問題設定からはじめてみるのがおすすめです。例えば図3のように、訪問前の医師や訪問した後の医師、ウェビナーにも参加した医師など、関心事項が異なりそうなセグメントを作成し、次にどのチャネルでどのようなコンテンツ・配信方法で action を行うと最も反応率が高いかを予測するような分析を行うと、より妥当なリコメンデーションを行うことができる可能性が高くなります。

図3: Next Best Actionの例
図3: Next Best Actionの例

反応率改善に向けた調査・分析

開封率やアクセス率向上を目指し、メールの件名やメール構成など、どういった要素が反応率を高くするかを特定する要因分析が行われることもあります。また、施策全体の抜本的なメッセージ改善に向け、アンケートなどのデータを使用し、製品や企業を想起する医師はどういった印象を持っているか要因分析されることもあります。

ここで注意するべきは、反応していない医師の情報は集まりづらく、取得されるデータには偏りが生じやすいということです。まだうまくアプローチできていない医師が何を考えているかについてはデータが集まらないという前提で分析を進める必要があります。例えば、反応しない医師の中で「そもそもチャネルが多様化しすぎて情報を取得しづらい。一つにまとめて欲しい」といった意見が多ければ情報提供するチャネルを減らしたり、情報提示方法を抜本的にシンプルにするといった解決策を考える必要があります。反応しない医師のデータは集めにくいですが、得られているデータには偏りがあり、その外に正解がある可能性があるという意識を持って分析を進め、医師の一般的な不満やニーズに対して常に耳を傾けることが重要になります。


上記のような分析を製品毎に行っていきます。そして施策のターゲティングや Next Best Action、反応率改善に向けた要因分析についてはさらに、図1のように新規処方・処方増・処方中止防止それぞれに向けて分析を行いながら、段階的にデータに基づくマーケティング・営業を進めていきます。

使用するデータの注意と準備

最後に、上記のテーマを進める際に使用するデータの注意点やデータ整備の重要性について解説して本稿の結びにしようと思います。

データの性質を理解する

製薬業界では、外部業者から購入できるような施設毎の売上データは存在しても、患者の処方情報は製薬企業の手元に届かないので、医師毎の売上データは MR がヒアリングして手入力した情報源がもとになってしまいます。そうすると、データの更新タイミングがまばらであったり、訪問ができていない場合にはデータの質に疑いが出てきます。データ毎の性質を押さえて分析を進めないと適切な分析の設定ができなかったり、なかなか所望の精度に達しない、結果が想定と一致しないといった現象が起こってしまいます。

そうした問題に対処するために、泥臭いですが、MR の記入頻度の実態を確認したり、MR が記入した内容が施設毎の正しい売上と一致しているかどうかを確認しながら進めることが重要となってきます。

データを整備する

また分析を進めるにあたり、医師のマスタデータや施設毎の売上データ、MR 活動、市場調査データ、eDTL 情報など、ありとあらゆるデータベースからデータを取得する必要があります。データが各部門で管理されていることも珍しくなかったり、(比較的製薬業界のデータは OneID 化されているといえども)多岐にわたるテーブルの結合に時間がかかってしまうため、分析しようと思ってもデータ準備に時間がかかってしまう例を多くみてきました。

そうした問題に対処するために、もともとデータが各部門に散在している企業は各種データにできるだけアクセスしやすくする体制の構築からはじめ、ある程度データが取得しやすい状況の企業では、そこから進んでよく使用するテーブルや変数を自動生成するデータ統合フローを作成することにチャレンジしています。そしてこれはどのステージの企業に対しても言えるのですが、まずは施策のターゲティングなど、クイックに取り掛かりやすいテーマから進め、よく使用するデータを理解しながらデータ統合をアジャイル的に進めていくことが重要となってきます。小さな失敗や成功を積み重ねていくことで、何が必要なのかが実際に見えてくるのです。

最後に

最後に、本稿で考察した項目を箇条書きでまとめてみます。

  • データ分析となった途端に「AI でデータから何か見つけられないか」という話になってしまうケースが少なくない
  • AI・機械学習の利用自体が目的になってしまうことを避けるためにも、前もって課題整理と状況把握に必要なデータ整理を進めていくことが成功する鍵となる
  • 重要な施策や惰性で頻度高く行っている施策については指標をトラックし、効果を測定する計画を立てることが重要。計画的な検証計画がないまま過去に遡って施策の効果を見極める方がむずかしくなる
  • 市場予測から新規処方・処方増・処方中止防止のステージ毎に、AI・機械学習が適用できるテーマを紹介したが、AI・機械学習が得意な領域を見極めながら着実なテーマを段階的に進めることが重要
  • 製薬営業のデータはヒアリングや手入力が情報源となることがあるため、データの性質の理解が必要
  • データ分析に必要なデータ収集や整形に毎回時間がかかるケースが多いため、データの一元管理、よく使用するデータテーブルの統合フロー構築が重要になる

製薬業界に限らず営業の最適化を進めるためには、上記のような内容だけでなく、課題を整理・管理するマーケティング・キャンペーン・マネジメント(MCM)の組織能力や、それらを支えるデータベース・データ管理などのインフラ、上層部の巻き込み、分析能力がある人材の確保・育成などの体制構築も進めていかなければなりませんが、そういった体制構築に向けてのデータ活用イメージを本稿で少しでも掴んでいただけると幸いです。

参考文献

[1] Mark Jeffery (2010), “Data-Driven Marketing: The 15 Metrics Everyone in Marketing Should Know”, Wiley (日本語訳: 佐藤 純 他 (2017)  “データ・ドリブン・マーケティング -最低限知っておくべき15の指標” , ダイヤモンド社)

オンデマンドビデオ
AI Experience Virtual Conference 2021

「DataRobot AI Cloud」に関する基調講演や、業界をリードするDX推進企業の取り組み、AIサクセスを実現するビジネスリーダーによるパネルセッションをオンデマンドビデオで確認

オンデマンドで見る

投稿 データに基づく営業・マーケティング(製薬企業での実践)DataRobot に最初に表示されました。

]]>
金融業界における AI 利活用 – 顧客ターゲティング Part 1 https://www.datarobot.com/jp/blog/ai-project-in-the-financial-industry-customer-targeting-part-1/ Wed, 17 Mar 2021 02:55:03 +0000 https://www.datarobot.com/jp/?post_type=blog&p=5623 昨今の金融業界では法律・規制の変更による FinTech 企業や非金融事業者の参入に伴い、顧客獲得競争が激化しております。本稿ではそのような環境下でいかに顧客獲得を実現し、顧客理解を深化していくのかについて、具体的なプロジェクトのフローに沿ってご説明します。

投稿 金融業界における AI 利活用 – 顧客ターゲティング Part 1DataRobot に最初に表示されました。

]]>
DataRobot で金融分野のお客様を担当しているデータサイエンティストの香西です。

昨今の金融業界は法律・規制の変更による FinTech 企業や非金融事業者の参入に伴い、顧客獲得競争が激化しております。本稿ではそのような環境下でいかに顧客をターゲティングし、ビジネスで活用していくのかについてご説明します。

AIを活用した顧客ターゲティングとは

既存の顧客ターゲティングにおいては、顧客リストが作成されてから各担当者の勘と経験によってターゲットを決めて DM や訪問営業を実施するといったビジネスフローが一般的です。しかし、既存の手法ではターゲット選定への分析に時間がかかる点や各担当者のスキルに依存しすぎる点が課題として挙げられます(下図1の左側)。

一方で AI を活用した顧客ターゲティングでは、過去のデータから成約や解約に至ったパターンを AI が自動で学習し、将来的に成約や解約につながる顧客を予測するためのモデルを構築します。営業担当者はその予測モデルによって顧客ごとに算出された成約確率などのスコアとその予測スコアに至った説明が付帯する顧客リストを作成することが可能となり、リストに基づいて DM や訪問営業を実施できます。その結果、ターゲットの選定に時間がかかることがなく、各担当者のスキルに依存しない顧客ターゲティングを実施することが可能になります(下図1の右側)。

図1. 顧客ターゲティングにおける新旧ビジネスフローの比較

金融業界における取組事例

ここからは金融業界における顧客ターゲティングの取り組み事例をご紹介いたします。特に昨今ではコロナウィルスの影響による顧客行動の大幅な変化により、従来のやり方だと訪問先や DM の対象者を上手く選定できなくなったとの理由から、数多くの DataRobot のお客様が様々なテーマで取り組んで成功しています。本日はその中からいわゆる『鉄板』のユースケース『優良顧客予測』と『商品提案最適化』の2つをピックアップしてご説明します。

優良顧客予測による営業収益の向上

金融業界には預金、投資信託、株式、保険といった様々な金融商品が存在しますが、これらの商品の購入を検討している顧客を DataRobot によって予測し、優先的に営業活動を行う仕組みを構築することで営業収益の向上を実現した事例です。まず始めに、識別するデータとして

・予測対象と過去一定期間内にある金融商品を”購入した顧客”と”購入しなかった顧客”のフラグ
さらに過去のパターンを学習するデータとして
・顧客属性
・販促状況・過去の口座利用状況
・ビジネス環境
・商品状況… など
のデータを結合したデータセットを用意します(下図2)。

100 Image 2
図2. 用意するデータセットの派生イメージ

それらのデータを DataRobot に投入すると商品を購入しそうな優良顧客に共通するパターンをデータから自動で学習し、予測モデルを構築します。そうすることで、あるお客様では翌月などの新たな顧客リストに AI スコアを適用して優先的に営業活動を行うべき顧客を特定し(下図3)、ターゲット精緻化による営業収益の向上を実現しました。

また、これらのデータ取得から DataRobot への連携、顧客抽出までのフローをシステムで自動化し、週次や月次で自動的に営業職員に情報(ターゲットリスト等)を提供する仕組みを構築することでさらなるビジネスインパクトを創出した事例もあります。

図3. 優良顧客予測の処理フロー

顧客毎にパーソナライズ化した提案による案件成約率の向上

先ほどは単体の商品に対する AI スコアの活用でしたが、次は複数の商品に対する AI スコアを用いることで顧客毎にパーソナライズ化した提案を実現し、案件の成約率が向上した事例です。例えば、銀行の窓口営業で外貨預金と投資信託と保険の3つの商品を保有していたとします。そうした場合に、まず始めに、識別するデータとして

・予測対象と過去一定期間内にある金融商品を”購入した顧客”と”購入しなかった顧客”のフラグ
さらに過去のパターンを学習するデータとして
・顧客属性
・販促状況
・過去の口座利用状況
・ビジネス環境
・商品状況… など

のデータを結合したデータセットを用意します(上図2)。ここまでは1つ目の事例と同様ですが今回は、データセットをそれぞれの商品で用意し、3つの予測モデルを分けて作成します。そして、新たな顧客リストに対して3つのモデルを適用し、顧客 ID で紐づけると各顧客ごとに各商品の購買スコアが算出されます(下図4)。これらの購買スコアをもとに提案商品を選定した結果、顧客のニーズに沿った商品を提案することができるようになり、案件の成約率の向上を実現しました。

図4. 商品の提案最適化事例の処理フロー

金融業界特有のポイント

顧客ターゲティングは金融業界に限らず様々な業界で実施されますが、金融業界特有の要諦が存在します。ここでは3つの要諦をご紹介します。

ルールとの組み合わせ

金融業界では金融商品取引/販売法といった法律に加えて各金融機関毎にも厳格な取引ルール等が定められている場合がほとんどです。それらのルールを予測モデルに学習させてしまうことも一部可能ではありますが、完全に抜け漏れなくルールを網羅することは現実的ではなく外した場合のリスクは非常に大きいです。そのような場合には、AI スコアを振る前に特定の条件を適用させてターゲットリストを調整します。例えば、AI スコアを降順に並べて上から○○人の顧客にダイレクトメッセージを送る施策を打つ場合には、AIスコアを振る前に過去に拒絶された実績がないか、ブラックリストに載っていないかなどのルールを適用し、対象顧客をリストから除きます。その後に上から○○人の顧客を AI スコアをもとに抽出します。このように、逸脱した場合のリスクが高いルールであればなおさら予測モデルと組み合わせて抽出し、抜け漏れがないようにする必要があります。

予測値同士の組み合わせ

先ほどのルールとの組み合わせに発想は近しいですが、複数のターゲティングの予測結果を組み合わせるパターンもあります。例えば、カードローン業界においてリボ払い顧客のターゲティングをしたい場合にリボ払いをしたい顧客を特定し、施策を打って案件が成約したとしても、実は与信リスクが高い顧客でその後、貸し倒れてしまってはコストの方がかかってしまいます。そのような場合には、事前にリボ払いの見込みスコアと与信の貸し倒れスコアを組み合わせ、『リボ払いの見込みスコアが高い、かつ貸し倒れスコアが低い顧客』をターゲティングする必要があります。他にも休眠スコアと復帰スコア、メールの開封スコアと成約スコアなど組み合わせは様々ですが、このように予測値同士を組み合わせることでターゲティングの効果が増幅することがあります(下図5)。

図5. 予測スコアの組み合わせの例 (リボ払い見込みスコアと貸倒れスコア)

バイアスの考慮

金融商品取引法第156条には差別的取扱いの禁止の条項があるように金融商品の販売において、ある特定の顧客のみが恣意的に優先されるといったことはあってはなりません。他方、AI/機械学習モデルが過去のパターンを学習する際にそれらのバイアスを取り込んでしまい、それに気づかずに施策を打ってしまった故に社会的問題に発展した事案が国内外を問わず起きているのも事実です。DataRobot では構築された予測モデルの学習結果に対する解釈性が非常に高いため、このようなバイアスが起きていないかの確認を容易に行うことができます。また最新バージョン(Ver. 7.0)のDataRobot からは、性別や人種といったカテゴリデータから意図しないバイアスが見つかった場合にはクラス間のデータの相違を検知し、バイアスの発生源を容易に特定することが可能です(下図6:バイアスの存在を確認したいカテゴリーデータは予め選択します)。このように、『意図しないバイアス』を考慮してモデリングを行うことは金融業界では特に重要になります。

図6. DataRobot Ver7.0以降でご利用可能なバイアス検知機能

まとめと次回予告

ここまでを纏めると顧客ターゲティングの金融業界における事例と業界特有のポイントについて以下のことをお伝えしてきました。

・金融業界における取組事例
 - 優良顧客予測を活用することにより、営業担当者のスキルに依存しないターゲティングを実現
 - 顧客のリスト化だけでなく顧客毎にパーソナライズ化した提案による案件成約率の向上を実現
・金融業界特有のポイント
 - ルールと組み合わせることでルールを逸脱するリスクを回避する
 - 予測値の組み合わせることでより複雑なパターンにも対応する
 - モデリング結果のバイアスを考慮し、公平性を担保する

本稿では事例やポイントの概要をご紹介しましたが、「金融業界におけるAI利活用-顧客ターゲティング」の次回は具体的なプロジェクトベースでターゲットの設定方法から効果測定、実運用の作法までをまとめてご説明予定です。

イベント
AI で銀行業務をさらに活性化

AIの導入・開発・運用まで導く 少人数CoE成功の秘訣:
本セッションでは楽天グループの金融事業でデータの利活用を推進するベストプラクティスをご紹介

登録はこちら

投稿 金融業界における AI 利活用 – 顧客ターゲティング Part 1DataRobot に最初に表示されました。

]]>
AI を用いた新商品需要予測 https://www.datarobot.com/jp/blog/ai-based-demand-forecasting-for-new-products/ Wed, 17 Feb 2021 03:00:32 +0000 https://www.datarobot.com/jp/?post_type=blog&p=5472 需要予測は、企業のサプライチェーンを改善する上で重要な役割を果たします。需要予測の様々なシナリオの中で、新製品の需要予測は、過去の販売データがないため、最も困難な問題となっています。本ブログでは、新製品の需要予測をAIで行う方法と、それに伴う注意点を紹介します。

投稿 AI を用いた新商品需要予測DataRobot に最初に表示されました。

]]>
新商品需要予測における課題

サプライチェーンを改善するに当たり、正確な需要予測は1つの重要なポイントです1。その中でも食品・消費財メーカーやアパレル業界では新商品の需要予測は非常に大きな課題となっています。例えば、「在庫廃棄のうち3割は新商品の予測ミス」(A社)、「在庫廃棄の原因のうち最も大きいのは新商品の予測ミス」(B社)の様な現状が複数の CPG メーカーから報告されています2。毎シーズン新作品がリリースされるアパレル業界でも、三陽商会が建値消化率(「正価」販売率)45%、総消化率70%という状況にある様に、3割もの商品が売れ残っています。この問題の原因の1つもシーズン前に新作品の需要を正しく見極め、生産を行えていない事にあると思われます。

同様の結果は弊社が行ったウェビナー参加者へのアンケートからもわかります。下図1にある様に、新商品需要予測の精度が悪いという課題が60%以上を締め、最大の課題となりました。

99 image0a

一方で下図2にある様に、現状の新商品の需要予測は、50%以上の企業で営業担当の感覚や経験に基づいた予測で行われています。この傾向は一般的な需要予測テーマの中でも新商品で特に顕著で、実際に我々が会話を行った CPG のお客様でも、過去の売上データが存在する定番品については簡単な統計的手法で当てる事ができるが、過去の売上データが存在しない新商品では現場の感覚に頼る以外に無く精度が出ていない、あるいはどの様に改善できるか分からず全く手を付けられていないという声がよく聞かれました。

99 image0b

人間による予測にはどうしてもバイアスが存在します。例えば、営業担当者は得意先への欠品を恐れ過剰な見通しの数字を出しがちです。また需要に影響を及ぼす無数の要素を人間が正確に考慮して、複雑なパターンを見極め、予測を行う事は例え熟練者であっても難しいのが実情です。

しかし、データサイエンスの進歩と共に、AI の技術を使った新商品需要予測の利用が始まっており、資生堂様の事例にある様に、上記の課題を乗り越えた事例も報告されています。モデリング技術の進歩により数値やカテゴリデータのみならず、テキスト、画像、地理空間情報データなど多様な型の多数の特徴量(AI で予測を行うために利用される変数)を考慮し、より高精度な AI 予測を行う事が可能になりました。つまり過去に上市した自社の新商品の販売実績だけでなく、パッケージングや外観の画像データ、研究開発データ、小売パネルデータ、SNS のテキストデータを含めた外部データなどの多くの特徴量から、複雑なパターンを学習し、正確な予測を行う事ができる技術が現実のものとなってきています。

本ブログでは、まず AI を使った新商品の需要予測のプロセスを説明します。次に、新商品の需要予測で気をつけなければいけないポイントを解説します。

AI を使った新製品需要予測のプロセス

需要予測の目的の明確化

新商品の需要予測を行う前に、まず『需要予測を行う要件』を明確にする必要があります。要件には大きく分けて以下の3つがあります。

  1. 予測の目的(何のために予測するか)
  2. 予測ポイント(例:発売の Xヶ月前に予測)
  3. 予測対象(例:SKU ごとの上市後 X週間の総需要を予測)

目的は、この記事を読んでおられる需要予測に関わっている方からすると自明でしょう。例えば、商品開発を行っている方であれば、商品の機能/質とコストを考慮して利益を最大化する、SCM 担当の方であれば、正確な需要計画を策定して適正な調達計画や生産計画につなげるという事になるでしょう。

99 image 1 new

2つ目の要件「予測ポイント」は、予測の目的から自然と決まってくる事がほとんどです。もちろん上市タイミングよりも前もって予測できればできるほど良いですが、予測する時点が早ければ早いほど予測の精度も下がってくる場合がほとんどです。そこで調達や生産のリードタイムなどを考慮した上で許す限り遅らせて予測は行われます。

また、この予測ポイントに従って予測に使える情報が変わってくるため、モデリングを行うデータ収集のプロセスに大きな影響を及ぼします。新商品の需要予測では、需要量の原因となる事象がどれだけデータとして利用できるかが予測の精度に直結します。上図3の商品開発の時点での予測であれば、まだ大まかな商品属性情報しか予測に利用できませんが、需要計画の時点では、新商品の価格や広告予算、上市時により近い時点のマーケットの状況など売上を左右する他の多くの要素を考慮した予測モデルを作成できるため、より精度の高い需要予測を行える事が多いです。

最後に、どの様な粒度(日/週/月次、顧客/支店/統括支店/全体)の予測を行うか「予測対象」の選定も重要です。一般的には大きな粒度の予測(月次、全体)になればなるほど簡単で、細かい粒度(日次、顧客単位)になればなるほど難しくなります。ビジネス側の立場からすると、理想としては日次の顧客単位の上市後の需要が正確にわかるのが一番良いのは自明です。しかし、人が行ってきた既存のプロセスに縛られず、需要予測精度への影響も考慮しながら、ビジネスを行うために最低限必要な大きさの粒度で予測を行うべきです。

データの準備とモデリング

新商品需要予測に使えるデータは、前のパートで決定した『需要予測の要件』で自然と決まります。需要に影響を及ぼす可能性があり、利用可能なデータをリストアップした後、精度の高いAIモデルを生成するために、以下の3つのステップで進めていきます。

  1. モデリングに適したデータセットの生成(特徴量エンジニアリング
  2. モデリング
  3. 不要な特徴量の取捨選択

機械学習のモデリングを行う時には、特徴量エンジニアリングと呼ばれるモデリングに適した変数をデータから作成する作業が非常に重要です。以下に主要な理由2つを列記します。

  1. 単に収集した素のデータを使ってモデリングするのではなく、より予測にダイレクトに関係する特徴量を作る事でモデルの精度が向上します。例えば人間は単に気温だけでなく、湿度や風の有無でも暑さの感じ方が異なります。つまり、単に気温を使うのではなく、体感気温を使うというのも特徴量エンジニアリングの1つです。
  2. 新商品需要予測のモデルを生成するには、1つの商品が1行として表されるデータが必要です。しかし新商品の全国の総需要を予測する際、POS データや気温データなどは、1商品に対して複数存在します。そこで複数行のデータを集約し商品に特徴付けるデータとする必要があります。例えば全国の総需要予測で気温を使う場合、地域で異なった気温が存在します(1商品に対して複数のデータ)。そこで「全国の最低気温」、「最高気温」、「平均気温」、あるいは「人口で重みづけした平均気温」など様々な「1商品を特徴付けるデータ」に集約します。これも特徴量エンジニアリングの一種です。

特徴量エンジニアリングのアプローチは大きく分けて2つに大別されます。

  1. 機械的なアプローチ:1対複数のデータを様々な粒度や期間で集約した特徴量や、特徴量間の差や比など、複数の特徴量を組み合わせた新たな特徴量を機械的に生成し、その中から重要な変数を探索する
  2. ビジネスナレッジに基づいたアプローチ:現場熟練担当者の経験・ナレッジに基づいて、需要への影響が大きい要素を特定し、特徴量とする。先ほどの体感気温もビジネスナレッジに基づいたアプローチです。

DataRobot では上記のそれぞれのアプローチをサポートする機能/商品を用意しています。

  1. 自動特徴量生成:複数のデータセット間の関係性を指定する事で、複数のテーブルを自動的に集約し、特徴量エンジニアリングを行い、モデルを生成します。また単一データソースからも予測に有用な相互作用項を探索する事も可能です。
99 Image 4 new
  1. Data Prep:元は Paxata と呼ばれていた GUI で行える ETL ツールです。大量のデータを扱えると同時に、エクセルによく似たUIを持っているため、ユーザーは簡単にデータを可視化し処理する事が可能です。
99 image 4b new

しかしこれらの方法で生成した特徴量全て使ってモデリングを行った場合、全ての特徴量がモデルに有用なケースはまずありません。

機械的アプローチで生成すると、単にデータとしてその中からパターンを抽出するだけで、機械学習はそのビジネスがどのようなビジネスなのかを考えて特徴量を生成する訳ではありません。その結果、ビジネス的に意味をなさない、不要な特徴量が多く生成される事は想像に難しくありません。

ビジネスナレッジに基づいたアプローチの場合でも、経験豊富な担当者の考えは単に仮説であり、本当に重要かどうかはモデリングを行い精度向上に寄与するか検証するまで分かりません。

この様な不要な特徴量は、モデルを理解する事が難しくするだけでなく、時にはモデルの精度を悪化させる可能性があります。実際にビジネスで使えるモデルとするには、多数の特徴量の中からモデルの精度に寄与していないものを特定し取り除く必要があります。

DataRobot では特徴量のインパクトというモデルの可視化技術を使う事で、全てのモデルで各特徴量の予測精度への影響度を定量化する事ができます。この機能を用いて、影響度の小さい特徴量を削除していく事で、機械的に生成した多数の特徴量から、重要なものを特定する事ができます。不要な特徴量を徐々に削除しモデリングするプロセスを繰り返す事で、多くのデータの中から最終的に新商品の需要に影響の大きい特徴量を特定し、モデルの精度も向上させる事が可能になります。

また、特徴量のインパクト以外にも、特定の特徴量が変化すると予測値がどれほど変化するかを表す部分依存や1行1行の予測に対して影響の大きい特徴量を可視化してくれる予測の説明など、DataRobot は豊富なモデル可視化の機能を備えており、不要な特徴量の発見に利用できます。

在庫・欠品リスクのバランス

通常の回帰モデルのアウトプット予測値は、説明変数を与えたときの条件付き平均値であり、ビジネスで使うに当たっては満足いかない場合が多くあります。例えば CPG メーカーが顧客(小売・卸)との関係性を重要視する場合、過剰と欠品のリスクを同等に評価するのではなく、少々の過剰在庫を持ってでも欠品を回避したいという判断を下します。この様なビジネスニーズに答えるため、DataRobot では非対称絶対損失関数を使って最適化を行い、分位点回帰をおこなう機能を用意しています。ビジネスニーズに基づき、適切な分位点を設定してモデリングを行う事で、より在庫/欠品を回避するモデルを生成する事ができます。例えば、先ほどの少々過剰在庫のリスクを負って欠品を抑えたい場合は、75%の分位点でモデリングを行う事で50%の分位点でモデリングを行った場合より欠品を半減する事ができます。

99 image 5 new

シミュレーションと最適化

最終的に意思決定を行うために、いくつかのシナリオでの需要を考えたり、限られたリソースをどの様に分配すれば売上が最大になるのか最適化などを行う場合が多くみられます。

そこで、DataRobot では生成したモデルを用いてシミュレーションや最適化を行うアプリケーションを提供しており、逆問題ソルバーなどのその他のツール GUI が必要なく GUI インターフェースでシミュレーション/最適化を行う事ができます。

例えば、いくつかの価格シナリオでの需要を予測し比較する(図6)、あるいは新商品のマーケティング予算を決定する時に売上を最大化する最適な予算配分の探索(図7)も行う事ができます。

99 image 6 new
99 image 7 new

AI 需要予測を行う際の注意点

制約された需要

AI 需要予測に限った話ではありませんが、過去にリリースされた新商品によく欠品が出ていたのであれば、制約された需要(constrained demand)に注意が必要です。機械学習では過去の販売実績を正解としてモデルを学習し予測を行います。つまり過去の販売実績に欠品のケースが含まれていた場合、実績は本来の需要を下回った値となり、それを用いて学習したモデルも同様の傾向を持つものになってしまいます。

この問題を回避するために一番シンプルな方法は、欠品があった実績を除いて、本当の需要を表す結果のみを学習データに用いる方法です。

ただ元々の新商品の数が少なく、欠品となるケースが多い場合は、モデリングに使えるデータが少なくなり十分な精度がでない事も考えられます。そこで欠品が発生した実績から、モデルを使って本来売れたであろう需要を推定する事で、予測に活用する事も可能です。

欠品があった商品から本来の需要を予測するためには、下図にある様に、欠品がなかった商品の実績データを用いて、多くの商品で欠品のない『上市直後の短期間での販売実績』と商品属性などから本来の需要を予測するモデルを生成します。このモデルを使う事で、欠品のあった商品の本来の需要が推定できます。欠品があった商品に対しては、このモデルの予測値を需要量としてモデリングを行う事で、データ量が増し、予測精度の向上に繋がります。

99 Image 8 New

データ数が少ない場合

AI・機械学習モデルで新商品需要予測モデルを生成するにあたり、過去にリリースされた学習用データとなる新商品の数は重要なポイントです。十分なデータがない場合、過学習したモデルができてしまう場合や、学習/検定データのサンプル数も少ないため、精度やインサイトなどが不安定なモデルとなる傾向があります。

清涼飲料や酒類では絶え間なく数多くの新商品がリリースされていますが、日雑品などの業界では新商品の数が少ないのが現実です。そこで無理やりデータを増やそうとすると、より過去に遡る以外に道はなく、10年以上前の商品データを使う様な事態になります。しかし一般的に、10年前の古いデータは現在と全くトレンドの変わっており予測の役に立たない、時には予測に悪影響を及ぼす事が多くみられます。そこで、近年のデータのみを用いて少ないデータで予測モデルを作る以外に道はありません。

その場合、こちらのブログにまとめられている少数データ、横長データでよりロバストなモデルを生成する方法を活用する事が有効です。具体的には、以下の様な手法を使う事でよりロバストなモデリングが可能になります。

  1. 多様なモデルを組み合わせたよりロバストなアンサンブルモデルを利用する
  2. ランダムシードを変えパーティショニングの条件を変えた複数のケースでモデリングを行い、それらの複数の結果を元に特徴量選択を行う

予測できる新製品と予測できない新製品

機械学習・AIは過去のデータからパターンを学習し、予測を行うデータサイエンスの技術です。逆説的に言うと、AI では過去のデータと全く異質な新商品に対しての予測は難しいという限界を理解しておく必要があります

既存品のリニューアルやこれまでの自社商品の類似品などは AI を用いた需要予測である程度信頼できる予測を行う事ができる可能性がありますが、これまで自社で一度もリリースされた事の無い商品や市場に類似品すら存在しない商品、あるいは自社最高の売上を上げる様な商品の需要予測は AI を使って行う事はできません。この限界を理解し、AI モデルで予測を行う商品と行わない商品をしっかり分類する事が重要です。

最後に

AI は、これまで営業やエキスパートパネルの勘/経験に基づいて行われて来た新商品需要予測を、データに基づきより正確に行う事ができる可能性のある技術です。しかも DataRobot を用いて、これまで一部の人間しか使えなかった AI モデリングが、誰でも手軽/短時間にできる様になってきました。その結果、精度のみならず、属人化や予測にかかる工数など、多くの新商品需要予測に関わる問題が解決されています。

このブログを読まれて、もっと具体的な新商品需要予測のプロセスを知りたい方は、Pathfinder 具体的なデータとステップ毎の詳細が入った記事があるのでご参照ください。

また、AI を使った新商品需要予測の事例を知りたい方は、弊社オンラインイベント「AI Experience Virtual Conference」で資生堂の山口様に講演いただいた事例ビデオをオンデマンドで公開しています。化粧品新商品需要予測での AI 活用方法や、精度改善の結果と成功要因、需要予測での DX を成功させるスキルや組織体制などを詳しくご説明されていますのでご参照ください。

参考文献

[1] 石川 和幸 (2017) この1冊ですべてわかる SCMの基本 (日本実業出版社)

[2] 月刊ロジスティクス ・ビジネス2010年10月号 (2010) 日本型SCMが次世代を拓く第5回 (ライノス・パブリケーションズ)

[3] 元山 斉 (2015) Commentary 分位点回帰-理論と応用- (社会と調査)

オンデマンドビデオ
AI Experience Virtual Conference 2021

「DataRobot AI Cloud」に関する基調講演や、業界をリードするDX推進企業の取り組み、AIサクセスを実現するビジネスリーダーによるパネルセッションをオンデマンドビデオで確認

オンデマンドで見る

投稿 AI を用いた新商品需要予測DataRobot に最初に表示されました。

]]>
金融市場におけるAI Part 3:機械学習の自動化 https://www.datarobot.com/jp/blog/ai-in-financial-markets-part-3-whats-your-problem/ Wed, 28 Oct 2020 01:44:59 +0000 https://www.datarobot.com/jp/?post_type=blog&p=4896 フロントオフィスで機械学習を自動化することのメリット、問題をフレーミングすることの重要性、機械学習の自動化技術を導入することで調査可能な問題空間がどのように広がるのかを見ていきます。さらに、機械学習アルゴリズムの選択が、単に探求対象のパラメーターの1つとして考えるべき理由についても説明します。

投稿 金融市場におけるAI<br> Part 3:機械学習の自動化DataRobot に最初に表示されました。

]]>
(このブログポストは AI in Financial Markets, Part 3: What’s Your Problem? の和訳です)

ここでは、フロントオフィスで機械学習を自動化することのメリット、問題をフレーミングすることの重要性、機械学習の自動化技術を導入することで調査可能な問題空間がどのように広がるのかを見ていきます。さらに、機械学習アルゴリズムの選択が、単に探求対象のパラメーターの1つとして考えるべき理由についても説明します。

本シリーズの Part 1(英語のみ)と Part 2 (英語のみ)では、現代のデータサイエンス技術、特に機械学習が、金融市場の参加者にとって興味深い理由について考えました。また、機械学習を自動化することで、機械学習の敷居が低くなる、規制関連部門が機械学習を受け入れやすくなる、経験豊富なクオンツ、ストラテジスト、金融データサイエンティストがリターンの探求において生産性と効率性が大幅にアップするのはなぜなのか、その理由を調べ始めました。  

強い会社には優れた秘密保持契約が必要

「通常、他社との競争で圧倒的優位に立っていられるのはほんのわずかな期間だけである。  本当にいつも熾烈な競争を繰り広げてきた。」
– Jody Kochansky (Head of Aladdin Product Group, BlackRock)

前述の点についてもう少し詳しく見てみましょう。証券業界のフロントオフィスで働く上級ユーザーは、生産性と効率性が大幅にアップすると、具体的に何ができるのでしょうか?他のほとんどの業界、そして実際に証券業界の他の部門においては(本シリーズのPart 1 を参照)、すでにビジネスで成果を上げているユースケースがたくさんあります。しかし、金融市場では、事情が少し異なります。競争上の優位性が広く知られ、そこから利益を得て、やがて価値が失われる前に、そうした優位性を発見し、それを利用しようと、常に熾烈な競争が繰り広げられています。業界全体で成果を上げているユースケース(活用方法)について、どのように使われているかはもちろん、どのようなユースケースがあるのかさえ詳細に話すことはクライアントの競争上の優位性を損なう危険性があるため困難です。いずれにしても、このブログをお読みになっているイノベーターや逆張り投資家の皆さんはむしろ、証明されていることとは逆のことをするかもしれません。大胆に未知の領域に踏み込むほうが、より多くの報酬を得られるからです。 

代わりに、別の方法を取りましょう。たとえば、金融市場の専門家としてフロントオフィスで勤務している人が、市場のどこが非効率であるのかをだいたい把握できていて、そこをうまく突きたいと考えているとします。所属するチームに(その人を含めて)優秀なクオンツがいたとしても、効率が悪いことを探すのは骨の折れる作業です。また、優秀なクオンツやストラテジストは希少で、高給を約束する必要があります(博士号を持つ人材は簡単に獲得できません)。プロセスの中の繰り返し部分を自動化し、自動化できないタイプのタスクに時間を集中させることは理にかなっています。実際の業務に携わる人が同じ時間でより多くのアプローチを試すことができる技術は、適材適所に変革をもたらすことができます。それが DataRobot の技術です。

92 image 1

基本的に、DataRobot は機械学習モデルの自動構築のためのエンタープライズ AI プラットフォームであり、2つの非常に一般的な種類の AI 問題に対処します:

  • 教師あり機械学習。過去の観測値(データ)を所有し、それらについてさまざまなことを知っていて(変数/特徴量)、それら観測値の結果(ターゲット変数)もわかっています。教師あり機械学習は、新たな観測値が加わったとき、起こりそうな結果を適度に正確に予測することが重要である場合に、真価を発揮します。 
  • 教師あり機械学習のユースケースには様々な形態があります: 
    • 分類タスク(はい/いいえの質問に答える、または観測値を複数のカテゴリーに分類する)
    • 連続値タスク(数値を予測する)
  • 教師あり機械学習モデルは、次のいずれかになります:
    • 横断的(互いに独立した観測値)
    • 時系列(時間依存性/連続相関を示す観測値。証券業界でのモデルの多くがこの形態に該当)
  • 教師なし異常検知 過去の観測値(データ)があり、それらについてさまざまなこと(変数/特徴量)を知っていて、新たな観測値が加わったときに、それが過去の観測値とどれだけ似ているか、あるいは違うかをスコア化したい時価値があります。これは、横断的にも時系列アプローチを用いて行うこともできます。

私達の経験では、ビジネスにおける機械学習の問題の約80%は、この2つのタイプのいずれかに分類できます。金融市場も例外ではありません。ある時点でわかっていることに基づいて、さまざまな数値を予測するために多くの作業が行われます。これらの数値が何を表しているかは、次のような場合にはほとんど重要ではありません:

  • その数値が予測される原因となるような重要な行動/ファクターをよく表したデータがある
  • 基礎となるデータと予測される数値との関係が十分に安定している(あるいは少なくとも一貫している)ため、モデルの構築に十分なデータを収集できる
  • 興味深い数値を前もって予測できることに価値がある

問題空間。最後のフロンティア。

しかし、これは実際にはどういう意味でしょうか?JPモルガンの DeepFin シリーズと Open Data Science Conference のために作った「おもちゃ」のようなクオンツファイナンスの問題を使って説明するのがベストかもしれません。配当予想の引き下げがその後の株価に与える影響について、過去10年間に世界の株式市場で下方修正が行われた約5万件の事例を用いて検証しました。従来のクオンツファイナンスでは、これは連続値として定義されるかもしれません(配当予想の引き下げ幅を基準とした3か月分の先渡し利益、など)。または、この問題を経験則として考えることもできます。株式の配当予想が10%引き下げられた場合、どのような行動が予想されるでしょうか?

問題文をデータサイエンスの言語に置き換える

92 image 2

上の図は、「問題空間」で探求される可能性のある問題の一部を示しています。ここでの限定的で小規模な例では、以下について探求しました:

  • これは分類の問題として見た方がよいか? それとも連続値

注目している利益をモデル化したい場合は、連続値問題のほうがより正確です。一方、利益が特定のしきい値を超える(あるいは下回る)かどうかに注目する場合は、分類問題のほうがうまくいく可能性が高いかもしれません。

  • 分類問題の場合、利益に対してどのようなしきい値を設定すればよいか?ゼロ?5%?10%?50%?
  • そもそも、どの利益が気になるのか?

私達は、絶対利益と株式が発行された国における相対利益に注目しました(業界から見た相対利益についても同様に調べることができました)。(私の仮説は、特異なリスクに焦点を当てること、つまり市場要因を排除することで、モデルがうまくいく可能性が高くなるというものでした。悲しいかな、過去10年間の投資の成果を見ると、そのとおりにはいかなかったようです。)

  • 期待を裏切るとは具体的にはどういうことだったのか?前月比での下落率は何パーセントでも良かったのか?それとも、もっと具体的に、特定のしきい値を超えた下落率だけに注目したかったのか?

問題文を適度にコンパクトで扱いやすいものにするために、ここでは検索条件の定義をやめました。それによって、どの機械学習アルゴリズムを検討して使うべきかという問題に取り組む(この判断は、DataRobot により自動化された機械学習に喜んで任せました)前に、110通りの 「スーパーハイパーパラメーター」 の組み合わせを得られました。私達はこれらの問題に対して計算処理を行い、DataRobot の Python API を使って、週末に(9時間かけて)4,300以上の機械学習モデルの候補を含む110の機械学習プロジェクトを構築しました。そこでは、わずか150行のコードでモデルのフルセットを生成でき、さらに120行のコードで結果を取得できました。¹

この時点で、JPモルガンの Ayub Hanif 氏は(DeepFin イベントの概要をまとめた調査報告書の中で)「従来の機械学習のコーディング手法を使って人間が構築しようとすると、どれだけ複雑になり、実行にかかる時間がどれだけ長くなるかなど、言わずと知れたことである。」と述べています。

ほかにも、以下のような点に注目することもできました:

  • どの時期にモデルをトレーニングするか?

さまざまなモデリング期間を評価することで、要因の安定性や、データが明確に管理されているかどうかについてのインサイトを得ることができます。

  • どのような利益の計測期間を使うか?

私達は3か月と仮定していますが、他の期間も同様に、あるいは実際にはそれ以上に重要だったかもしれません。

  • 特定の市場に焦点を絞るのか? それとも時価総額区分に集中するのか?

まだまだありますが、このリストの長さは、モデル作成者の想像力と、最終的には時間があるかどうか次第です。しかし、時間があるかどうかは、「従来の」クオンツよりもはるかに軽い制約です。似たようなアプローチが、他の多くの財務変数についての予測に応用できることは想像に難くありません。したがって、機械学習の自動化にはスケールメリットがあります。投資家による多様な仮説をさまざまなトピックで検証する際、効率化が促進されて、変革的効果がもたらされます。

まぐれへの対処:ベストプラクティスに従っていれば、選択バイアスではありません

機械学習の自動化では有名な「猿のダーツ投げ」の AI 版が作られているだけではないのかという疑問をお持ちなのもよくわかります。どうしたら、機械学習で構築され、特定されたモデルを自信を持って一般化できるでしょうか?来週投稿するブログでは、モデルを構築する際のベストプラクティスや、それを機械学習のアプローチに確実に組み込むことの重要性、DataRobot による機械学習の自動化が機械学習モデルの構築と検定の両方のベストプラクティスを確保する上でどのように役立つのかを考えながら、詳しく検証していきます。

¹ どちらの場合も、コードの大部分は、実際の機械学習ではなく、データの反復処理や、必要に応じたデータのスライス、そしてどの機械学習プロジェクトがどのような種類の問題文に関連しているかを実際に把握しました。

ソリューション
エンタープライズ AI を活用して成功を収める銀行​​

銀行が AI を使用してどのように成功を収めているかをご確認ください

詳しくはこちら

投稿 金融市場におけるAI<br> Part 3:機械学習の自動化DataRobot に最初に表示されました。

]]>
証券業界における機械学習の活用 https://www.datarobot.com/jp/blog/machine-learning-in-securities-industry/ Thu, 09 Jul 2020 01:22:44 +0000 https://www.datarobot.com/jp/?post_type=blog&p=4096 昨今、証券業界では規制緩和やグローバル化に伴い、新たなFinTechサービスの誕生や異業種からの参入などが相次いでいます。その結果、既存のビジネスを変革しなければいけないフェーズにきており、その変革の一つに機械学習の導入が挙げられます。本稿では、証券業界の変遷と課題、証券業界での機械学習の活用事例についてご紹介します。

投稿 証券業界における機械学習の活用DataRobot に最初に表示されました。

]]>
DataRobotで証券分野のお客様を担当しているデータサイエンティストの香西です。

昨今、証券業界では規制緩和やグローバル化に伴い、スマホで株式投資ができる新たな FinTech サ ービスの誕生や異業種からの参入などが相次いでいます。その結果、既存のビジネスや枠組みを変革しなければいけないフェーズにきており、その変革の一つに機械学習の導入が挙げられます。

本稿では、まずこれまでの証券業界の変遷と課題を述べたのち、証券業界での機械学習の活用事例についてご紹介します。

証券業界のこれまでの変遷と課題

証券業界は顧客チャネルとサービス内容において大きく3つのフェーズで変遷しており、それぞれのフェーズの特徴と課題についてご紹介します。

証券業の始まりは対面営業が中心の証券1.0のフェーズです。総合証券とも言われ、各支店に営業担当者が配属され、対面で顧客の応対をします。そのため、顧客へのサポートが手厚く顧客接点が多い点が特徴です。一方で、顧客応対にかかる業務の非効率さや手数料の高さが課題として挙げられます。

次にオンライン上で取引が可能な証券2.0のフェーズです。ネット証券とも言われ、口座開設や商品の売買の処理がオンライン上で完結します。そのため証券1.0の時代に比べると手数料が安価な点や金融商品の種類の豊富さが特徴です。他方、処理がオンライン上で完結するが故に顧客接点の少なさやネット上で不特定多数の投資家が売買できるため、詐欺や不正、情報漏洩などのリスクの高さが課題として挙げられます。

最後にアプリ上で取引が可能な証券3.0のフェーズです。アプリ証券やフィンテック系証券とも言われ、

サービスの一部にロボアドなど新しいテクノロジーが組み込まれているのが特徴です。一方で、ネット証券と同様、セキュリティリスクの高さやアプリで取引ができる便利さとの引き換えに銘柄数や指値注文ができないといったサービスの利用制限が課題として挙げられます。

これまで証券1.0から3.0までのフェーズをご紹介してきましたが、いづれのフェーズにおいても①法人・個人部門、②市場部門、③管理・システム部門の基幹部門については概ね共通して存在します。次章以降で各部門ごとに機械学習の活用シーンと詳細のユースケースについてご紹介します。

法人・個人部門

法人・個人部門では顧客への営業に関する業務が中心となるため「いかに顧客理解を深化させるか」が非常に重要になってきます。そのため、機械学習を活用して顧客理解を促進するためのユースケースが数多く存在し、法人部門では企業の業績予測、個人部門では顧客のポテンシャル推定などがあります。今回はその中でも特に法人・個人部門で鉄板のユースケースとされる顧客ターゲティングについて詳細に紹介します。

2.1 顧客ターゲティング – 従来と機械学習を使ったビジネスフローの比較

既存の顧客ターゲティングでは顧客リストが作成されてから、各担当者の勘と経験によってターゲットを決めて DM や訪問営業を実施するといったフローが一般的です。そのため、既存のフローではターゲット選定に時間がかかり過ぎる点や各担当者のスキルに依存しすぎる点が課題となります。一方で DataRobot を活用した顧客ターゲティングでは過去の成約した or しなかったデータを用いて優良顧客を分類するモデルを活用します。そのため、営業担当者はその分類モデルによって顧客ごとに算出された予測確率とその予測確率に至った説明が付帯する顧客リストを作成し、それに基づいて DM や訪問営業を実施することができます。その結果、ターゲットの選定に時間がかかることも各担当者のスキルに依存しない顧客ターゲティングが実現可能になります。

2.2 顧客ターゲティング – ターゲット対象とモデリングの多様化の実現

ターゲティングにおいて実施するターゲットの対象とモデリングの組み合わせは多岐に渡ります。新規獲得数を増やしたい場合は新規顧客や見込顧客がターゲットになりますし、口座解約数を減らしたい場合は大口出金顧客や口座解約見込顧客がターゲットになります。これらの各対象と各モデリングをスクラッチで作るのは非常に手間がかかりますが、DataRobot を使うことでデータセットを大きく変えることなくターゲットを変えるだけで手早くモデル構築が可能になるため、幅広い対象のターゲティングとモデリングが実現可能になります。

2.3 顧客ターゲティング – 必要なデータと実運用までのイメージ

法人・個人部門では顧客属性や取引状況、サービスの利用状況等のデータが蓄積されている場合が多いです。それらのデータと予測したいターゲットフラグ(例:過去半年以内に成約した場合は1、それ以外は0)を結合して DataRobot に投入すると、予測確率として結果を得ることができます。これらの確率を用いることで予測確率が一定以上の顧客に対して効率的に営業訪問や DM 送付を実施することができます。

市場部門

市場部門では株式関連商品を中心とした資本調達に関する業務が中心となるため「市況の先読み」や「価格/金利の最適化」が重要なミッションとなります。そのため、各経済指標のベースラインの予測や為替/金利の先物レートの予測といったユースケースがあります。今回はその中でも RFQ 注文時の価格/金利のダイナミックプライシングのユースケースについて詳しくご紹介します。

3.1   RFQとダイナミックプライシングとは

RFQ とダイナミックプライシングについては少し聞きなれない語句のため簡単に解説します。

RFQ とは Request for Quotation の略で主に機関投資家が売買を希望する銘柄・数量等を多数のマーケットメイカーに打診し、個別に提示された価格で売買をすることができる取引制度のことです。マーケットメイカーは機関投資家からの希望と過去の勝率や収益から適切な価格を設定し、提示する必要があります。

次にダイナミックプライシング(Dynamic Pricing)とは、需要と供給のバランスに応じてリアルタイムに価格を設定することです。身近な例だと、飛行機のチケットやホテルなどの宿泊施設の価格設定に使われています。搭乗日や宿泊日よりもかなり前(需要が少ないとき)に予約するとチケット代が安く、間近(需要が大きいとき)になって予約するとチケット代が高くなるという経験が1度はあると思いますが、これらはダイナミックプライシングによるものです。ダイナミックプライシングによって、需要が高い時期には商品の品質を変えることなく高価で売ることができ、需要が低い時期には安価で売ることができます。そのため、収益や在庫の最大化といったメリットが企業側に期待できます。一方で、市場の需要と大きく乖離しすぎると消費者への不信感へと繋がったり、収益が減少したりするといったデメリットがあります。

3.2  従来と機械学習を使ったビジネスフローの比較

既存の RFQ の業務では顧客から注文を受け人力で過去取引の調査を行い、勝率や収益から価格を算出し、顧客へ注文内容を返答するといったフローが一般的です。しかし、過去取引の調査に時間がかかる点や担当者の力量に依存する点が課題です。一方で、DataRobot を活用した場合には過去取引の状況から勝率を予測し、勝率と収益が最適となる価格を選定します。そのため、これまで過去取引の調査や価格選定にかかっていた工数の削減や顧客満足度の向上が実現可能になります。

3.3 必要なデータと実運用までのイメージ

市場部門では取引属性や顧客情報、市況状況等のデータが蓄積されている場合が多いです。それらのデータとターゲットとして過去の勝敗フラグをDataRobotに投入すると、勝率を結果として得ることができます。その後、「特徴量ごとの作用」の部分依存を用いて勝率と収益が最適になる価格を選定することが可能になります。部分依存については以下のURLの記事をご参照下さい。

https://blog.datarobot.com/jp/2018/02/15/modelxray

管理・システム編

管理・システム部門では IT インフラの管理やコンプライアンス統括に関する業務が中心となるため「不正や異常のいち早い検知」が重要なミッションとなります。そのため、システムの異常検知や証拠金/信用取引の査定といったユースケースがあります。今回はその中でも不正取引検知について詳しくご紹介します。

4.1 不正取引検知 – 従来と機械学習を使ったビジネスフローの比較

既存の不正取引検知の業務ではルールによって不正ログを検知し、その検出ログを担当者が総当たりで判定するといったフローが一般的です。しかし、検出ログは膨大である場合が多く、時間と人員コストがかかる点が課題です。一方でDataRobot を活用した場合には不正ログを検知した後に検出ログに対してリスクスコアリングを実施し、検出すべきログの優先順位をつけます。その結果、担当者が効率的に不正を判定することが可能になります。

4.2 不正取引検知 – 必要なデータと実運用までのイメージ

管理・システム部門では取引属性や顧客情報、顧客が売買時のデバイス状況等のデータが蓄積されている場合が多いです。それらのデータとターゲットとして過去の不正フラグを DataRobot に投入すると、不正スコアを確率として得ることができます。それらの不正スコアが低い検出ログについては判定が不要になり、判定すべき検出ログの総数が減ります。その結果、誤って不正と判断する数の割合を減らすことが可能になります。またこれらを監視モニターやアラートメールのシステムと連携することで検知のスピードもあげることができます。

まとめ

ここまで法人・個人部門、市場部門、管理・システム部門において、機械学習の活用とユースケースの詳細について説明してきました。DataRobot 活用することで証券会社のあらゆる部署の業務に AI を活用し、既存のビジネスを変革することや新たな FinTech サービスをさらに高度化することができます。

証券分野における AI 活用にご興味がある方は是非ご相談下さい。

オンデマンドビデオ
AI Experience Virtual Conference 2021

「DataRobot AI Cloud」に関する基調講演や、業界をリードするDX推進企業の取り組み、AIサクセスを実現するビジネスリーダーによるパネルセッションをオンデマンドビデオで確認

オンデマンドで見る

投稿 証券業界における機械学習の活用DataRobot に最初に表示されました。

]]>
製造業:センサデータを機械学習に使う https://www.datarobot.com/jp/blog/use_manufacturing_sensor_data_for_machine_learning/ Wed, 18 Mar 2020 15:55:59 +0000 https://www.datarobot.com/jp/blog/jp-use_manufacturing_sensor_data_for_machine_learning/ 製造業やユーティリティー業界では、従来から製造設備やインフラ設備で多くのセンサが用いられてきました。近年ではビッグデータやIoTの機運の高まりから、センサの計測波形を蓄積して機械学習で活用する動きも活発になっています。本稿ではセンサの計測波形を機械学習に使用するためのプロセスについてご説明します。

投稿 製造業:センサデータを機械学習に使うDataRobot に最初に表示されました。

]]>
DataRobotで製造業やユーティリティー業界のお客様を担当しているデータサイエンティストの川越雄介です。今回は、データサイエンティストの詹金、顧毅夫と連名での投稿です。

製造業やユーティリティー業界では、従来から製造設備やインフラ設備で多くのセンサが用いられてきました。近年ではビッグデータやIoTの機運の高まりから、センサの計測波形を蓄積し、機械学習で活用する動きも活発になっています。設備の異常検知・不良品の発生予測など製造プロセス・インフラ保守への活用や、R&Dにおける実験での利用に加え、昨今ではエンドユーザーのデータを製品に搭載したセンサを介して取得し、新たなサービスに繋げようとする動きも見られます。

そこで本稿では、センサの計測波形データを機械学習に使用するためのプロセスについてご説明します。

センサデータが取得されるシーン

まずは時系列のセンサデータが取得されるシーンを想定してみましょう。

ある製造設備では、製造ロットごとに良品・不良品が発生しています。工程の改善を行うために、機械学習で良品・不良品を分類するモデルを作り、不良品が発生する要因を探っていきたいと考えています。

製造設備には、状態計測や制御のために多種多様なセンサが付いています。温度センサ、湿度センサ、圧力センサ、流量センサ、加速度センサ、変位センサ、振動センサ、電力センサ、電流センサ……など、数え上げればキリがありませんが、これらの計測値はデータロガー等でロギングすることで、時間に対する計測値、すなわち時系列の波形データとして容易に取得することができます。(もちろんデータロガーを使わずとも、定期的な「目視」により一定の時間間隔で記録したデータも立派な時系列データです。)

製造プロセスのフィードバック制御に使う計測センサでしたら、その設定値(SP: Set Point)は各プロセスにおいて一意ですので、良品・不良品を分類する特徴量の一つとして使えそうです。「工程1のSP」「工程2のSP」・・・といった具合に特徴量としてデータに持たせるのはおそらく有用でしょう。

データセットのイメージ

一方で、センサの現在値(PV: Present Value)をロギングして取得した時系列データ(波形データ)も、各工程における設備の状態の履歴を表すため、重要な特徴量となり得ます。こうした時系列データをこのデータセットに追加するには、どのようにすればよいでしょうか?

時系列データを特徴量に使うには

生データをそのまま使えるか?

まずはじめに浮かぶアイデアが、取得した生データを「そのまま」使うことです。例えば1秒ごとに取得されたデータであれば、製造を開始してから「10秒後のPV」「20秒後のPV」・・・といった具合に追加することです。

計測値をそのまま特徴量に使う場合のイメージ

しかし、この場合は注意すべき欠点があります。まず、カラム一つ一つが独立して扱われるために時間の連続性を完全に失ってしまうことです。周期性を持つ音や振動のように時間的要素が極めて重要な時系列データでは、全く無意味なカラムとなってしまうでしょう。

また、各サンプリング時刻における計測値は、ロット間で本当に比較できるものなのかを十分に考慮する必要があります。もしロットごとに取得した波形データの時間長がバラバラ(可変長データ)だったり、同じ時間長であっても計測開始点にオフセットがある場合は、それぞれのデータの同じサンプリング時刻(例えば上図のt = 20)に記録された計測値が表すものは、全くの別物かもしれません。

このように、時系列データの各サンプリング時刻における計測値そのものを特徴量として使うことは、多くの場合で有用ではありません。

時系列データの特徴抽出

そこで行うのが、センサで取得した時系列データを加工し、その波形の様々な特徴を表す値を得る特徴抽出です。具体的なステップは下記の通りになります。

  1. 固定時間長で切り出す(ウィンドウイング)
    • 波形で注目する箇所を決め、固定時間長(ウィンドウ)で波形を切り出す。
    • 機械的に切り出すウィンドウを時間方向にスライドし、連続的に切り出すことも有用。
  2. 必要に応じてノイズを除去する。
    • 移動平均、フィルタなど
  3. 加工し、特徴量として抽出する(特徴抽出)。
    • 統計量(平均、分散、最大値、最小値など)
    • 差分変換(前後のデータ間での差分をとり、その統計量をとる)
    • 微積分(傾き、面積など)
    • ピーク検出(数、高さ)
    • 周波数分析(フーリエ変換など)
    • 自己相関
    • その他、手法は多数
  4. 生成した特徴量をデータセットに加える。

このように抽出した特徴は、機械学習モデルの予測ターゲットを説明する有用な特徴量となり得ます。次の章で、特徴抽出の具体例を見てみましょう。

音声データの前処理例

想定ケース

センサで取得できる時系列データの一つに音声データがあります。本章ではポンプやファンなど、製造設備が発する音で設備の異常を判断するケースを想定して、音声データの前処理例について述べたいと思います。

次のようなケースを想定して見ましょう。これまでは、経験豊富な現場の職人が音を聞いただけでその設備が異常かどうかを判断し、大事に至る前に設備を修繕してきました。しかし、その職人はまもなく引退してしまいます。適切に修繕ができないと重大な故障に繋がり、莫大なコスト損失を招きかねません。

幸い、これまで設備の音声データと、その音は正常か異常かの記録はしっかりと蓄積してきました。音声の波形データは、次のように時間ごとの振幅で表されます。

波形データを眺めてみると、何となく正常と異常とで波形が違いそうだなと感じるかもしれませんが、明瞭ではありません。では、このデータからは、どのような特徴を抽出できるのでしょうか?

メル周波数ケプストラム(MFCC)

一般的に、音声や振動のようなデータはフーリエ変換によって時間領域から周波数領域に変換してその特徴を調べることが最初のステップですが、今回はさらに「メル周波数ケプストラム(MFCC)」によって特徴抽出を行いました。(DataRobotコミュニティでサンプルコードを公開しています。)

MFCCは、Stanley Smith Stevensらが1937年に提案したメル尺度を用いています。人の聴覚上重要な周波数成分が引き伸ばされてケプストラム全体における割合が増え、人が聞いた音の特徴をよく表すと考えられています。また、N次のメルフィルタバンクを通すことにより、人の聴覚上重要な特徴を保ちながらケプストラムの次元をNまで減らすことができ、機械学習における計算負荷を減らせるメリットもあります。

本章の想定ケースでは、およそ4500ロットの音声データより20次のMFCCを得ました。次の図は、一段目のグラフが各ロットに対して付与された正常(Normal : 0)または異常(Anomaly : 1)のラベルをロットごとに並べたもの、そして二段目・三段目のグラフが20次元のMFCCの中から3次および12次のケプストラムをロットごとに並べたものです。正常と異常とで、ケプストラムの傾向が異なることが目視でも分かります。これは期待できそうです。

MFCCにより、生の波形データから20の特徴量を抽出することができました。いよいよDataRobotで機械学習モデルを作成しましょう!

抽出した特徴量を使ってDataRobotでモデリング

MFCCにより抽出した20個の特徴量を使って、正常か異常かを分類する予測モデルをDataRobotで作成しました(モデルA)。比較のために、生の波形データをカラム方向に連結し、およそ1800個の特徴量として作成したモデルも示します(モデルB)。

モデルA:MFCCで抽出した20個の特徴量で作成したモデル

モデルB:生の波形データをカラム方向に連結して作成したモデル

評価指標のAUCは、モデルAは0.8914、モデルBは0.6025(いずれも交差検定)と、大きな違いとなりました。リフトチャートでもモデルAは予実の乖離がわずかです。(評価指標についてはこちらのブログ、リフトチャートについてはこちらのブログで詳しく説明しています。)生の波形データをそのまま使うモデルよりも、MFCCでその波形の特徴を抽出したモデルの方が圧倒的に優れた性能であることが分かります。

波形データから特徴を抽出することの重要さとその効果について実感できたことと思います。今回は短い周期性が極めて重要な音声の波形データ処理についてご説明しましたが、音声に似た振動データでも同様の手法が使えます。一方で、温度や流量など変化が遅い波形データではまた別の方法で処理し特徴抽出することが必要でしょう。次の章では、また別の波形データを例に、実装方法を示したいと思います。

その他の波形データの前処理例

前章では音声データの前処理について述べましたが、波形データはもちろん音声だけではありません。多種多様な波形データを処理するために、オープンソース言語のPythonでは有用なライブラリが様々用意されています。代表的なものを挙げると、例えば以下のようなものがあります。

  • numpy: 統計量(平均値、標準偏差、中央値、四分位など)
  • scipy.integrate: 積分(定積分(scipy.integrate.quad)など)
  • scipy.signal: 信号処理(フーリエ変換、ピーク抽出など)
  • librosa: 音声処理に特化したモジュール
  • tsfresh: 時系列波形から様々な特徴量を抽出するモジュール

この章ではおすすめのtsfreshを使って下記のサンプル波形データ(S1, S2, S3)から時間領域の様々な特徴量を抽出する方法を示したいと思います。

このサンプルデータはS1 ~ S3の系列ごとの1000行のテーブルデータですが、tsfreshでは一旦、整然データに整形する必要があります。(pandas.DataFrame.meltが便利です。)

# データを整然データに整形
df = df.melt(var_name="sample", value_name="A")
df.head()

整然データに整形したら、tsfreshで特徴量を抽出します。

# tsfreshのextract_featuresをインポート
from tsfresh import extract_features

# 特徴量の抽出
df_extracted_features = extract_features(df, column_id="sample")

# 抽出された特徴量のデータフレームを確認
df_extracted_features.head()

# 抽出された特徴量(カラム名)を確認
print(df_extracted_features.head())

全部で794個もの特徴量を自動で抽出できました。抽出する特徴量の一覧はこちらで確認できます。これらの特徴量をデータセットに加え、DataRobotでモデリングすることで、予測モデルの精度を向上できる可能性が高まります。

取得したセンサデータを有効に利用し、DataRobotでの機械学習モデルの性能を一層と高めてください。

オンデマンドビデオ
AI Experience Virtual Conference 2021

「DataRobot AI Cloud」に関する基調講演や、業界をリードするDX推進企業の取り組み、AIサクセスを実現するビジネスリーダーによるパネルセッションをオンデマンドビデオで確認

オンデマンドで見る

投稿 製造業:センサデータを機械学習に使うDataRobot に最初に表示されました。

]]>