DataRobot JP 094 DRU new course system background V2.0

金融市場におけるAI
Part 3:機械学習の自動化

2020/10/28
執筆者:
· 推定読書時間 3  分

(このブログポストは AI in Financial Markets, Part 3: What’s Your Problem? の和訳です)

ここでは、フロントオフィスで機械学習を自動化することのメリット、問題をフレーミングすることの重要性、機械学習の自動化技術を導入することで調査可能な問題空間がどのように広がるのかを見ていきます。さらに、機械学習アルゴリズムの選択が、単に探求対象のパラメーターの1つとして考えるべき理由についても説明します。

本シリーズの Part 1(英語のみ)と Part 2 (英語のみ)では、現代のデータサイエンス技術、特に機械学習が、金融市場の参加者にとって興味深い理由について考えました。また、機械学習を自動化することで、機械学習の敷居が低くなる、規制関連部門が機械学習を受け入れやすくなる、経験豊富なクオンツ、ストラテジスト、金融データサイエンティストがリターンの探求において生産性と効率性が大幅にアップするのはなぜなのか、その理由を調べ始めました。  

強い会社には優れた秘密保持契約が必要

「通常、他社との競争で圧倒的優位に立っていられるのはほんのわずかな期間だけである。  本当にいつも熾烈な競争を繰り広げてきた。」
– Jody Kochansky (Head of Aladdin Product Group, BlackRock)

前述の点についてもう少し詳しく見てみましょう。証券業界のフロントオフィスで働く上級ユーザーは、生産性と効率性が大幅にアップすると、具体的に何ができるのでしょうか?他のほとんどの業界、そして実際に証券業界の他の部門においては(本シリーズのPart 1 を参照)、すでにビジネスで成果を上げているユースケースがたくさんあります。しかし、金融市場では、事情が少し異なります。競争上の優位性が広く知られ、そこから利益を得て、やがて価値が失われる前に、そうした優位性を発見し、それを利用しようと、常に熾烈な競争が繰り広げられています。業界全体で成果を上げているユースケース(活用方法)について、どのように使われているかはもちろん、どのようなユースケースがあるのかさえ詳細に話すことはクライアントの競争上の優位性を損なう危険性があるため困難です。いずれにしても、このブログをお読みになっているイノベーターや逆張り投資家の皆さんはむしろ、証明されていることとは逆のことをするかもしれません。大胆に未知の領域に踏み込むほうが、より多くの報酬を得られるからです。 

代わりに、別の方法を取りましょう。たとえば、金融市場の専門家としてフロントオフィスで勤務している人が、市場のどこが非効率であるのかをだいたい把握できていて、そこをうまく突きたいと考えているとします。所属するチームに(その人を含めて)優秀なクオンツがいたとしても、効率が悪いことを探すのは骨の折れる作業です。また、優秀なクオンツやストラテジストは希少で、高給を約束する必要があります(博士号を持つ人材は簡単に獲得できません)。プロセスの中の繰り返し部分を自動化し、自動化できないタイプのタスクに時間を集中させることは理にかなっています。実際の業務に携わる人が同じ時間でより多くのアプローチを試すことができる技術は、適材適所に変革をもたらすことができます。それが DataRobot の技術です。

92 image 1

基本的に、DataRobot は機械学習モデルの自動構築のためのエンタープライズ AI プラットフォームであり、2つの非常に一般的な種類の AI 問題に対処します:

  • 教師あり機械学習。過去の観測値(データ)を所有し、それらについてさまざまなことを知っていて(変数/特徴量)、それら観測値の結果(ターゲット変数)もわかっています。教師あり機械学習は、新たな観測値が加わったとき、起こりそうな結果を適度に正確に予測することが重要である場合に、真価を発揮します。 
  • 教師あり機械学習のユースケースには様々な形態があります: 
    • 分類タスク(はい/いいえの質問に答える、または観測値を複数のカテゴリーに分類する)
    • 連続値タスク(数値を予測する)
  • 教師あり機械学習モデルは、次のいずれかになります:
    • 横断的(互いに独立した観測値)
    • 時系列(時間依存性/連続相関を示す観測値。証券業界でのモデルの多くがこの形態に該当)
  • 教師なし異常検知 過去の観測値(データ)があり、それらについてさまざまなこと(変数/特徴量)を知っていて、新たな観測値が加わったときに、それが過去の観測値とどれだけ似ているか、あるいは違うかをスコア化したい時価値があります。これは、横断的にも時系列アプローチを用いて行うこともできます。

私達の経験では、ビジネスにおける機械学習の問題の約80%は、この2つのタイプのいずれかに分類できます。金融市場も例外ではありません。ある時点でわかっていることに基づいて、さまざまな数値を予測するために多くの作業が行われます。これらの数値が何を表しているかは、次のような場合にはほとんど重要ではありません:

  • その数値が予測される原因となるような重要な行動/ファクターをよく表したデータがある
  • 基礎となるデータと予測される数値との関係が十分に安定している(あるいは少なくとも一貫している)ため、モデルの構築に十分なデータを収集できる
  • 興味深い数値を前もって予測できることに価値がある

問題空間。最後のフロンティア。

しかし、これは実際にはどういう意味でしょうか?JPモルガンの DeepFin シリーズと Open Data Science Conference のために作った「おもちゃ」のようなクオンツファイナンスの問題を使って説明するのがベストかもしれません。配当予想の引き下げがその後の株価に与える影響について、過去10年間に世界の株式市場で下方修正が行われた約5万件の事例を用いて検証しました。従来のクオンツファイナンスでは、これは連続値として定義されるかもしれません(配当予想の引き下げ幅を基準とした3か月分の先渡し利益、など)。または、この問題を経験則として考えることもできます。株式の配当予想が10%引き下げられた場合、どのような行動が予想されるでしょうか?

問題文をデータサイエンスの言語に置き換える

92 image 2

上の図は、「問題空間」で探求される可能性のある問題の一部を示しています。ここでの限定的で小規模な例では、以下について探求しました:

  • これは分類の問題として見た方がよいか? それとも連続値

注目している利益をモデル化したい場合は、連続値問題のほうがより正確です。一方、利益が特定のしきい値を超える(あるいは下回る)かどうかに注目する場合は、分類問題のほうがうまくいく可能性が高いかもしれません。

  • 分類問題の場合、利益に対してどのようなしきい値を設定すればよいか?ゼロ?5%?10%?50%?
  • そもそも、どの利益が気になるのか?

私達は、絶対利益と株式が発行された国における相対利益に注目しました(業界から見た相対利益についても同様に調べることができました)。(私の仮説は、特異なリスクに焦点を当てること、つまり市場要因を排除することで、モデルがうまくいく可能性が高くなるというものでした。悲しいかな、過去10年間の投資の成果を見ると、そのとおりにはいかなかったようです。)

  • 期待を裏切るとは具体的にはどういうことだったのか?前月比での下落率は何パーセントでも良かったのか?それとも、もっと具体的に、特定のしきい値を超えた下落率だけに注目したかったのか?

問題文を適度にコンパクトで扱いやすいものにするために、ここでは検索条件の定義をやめました。それによって、どの機械学習アルゴリズムを検討して使うべきかという問題に取り組む(この判断は、DataRobot により自動化された機械学習に喜んで任せました)前に、110通りの 「スーパーハイパーパラメーター」 の組み合わせを得られました。私達はこれらの問題に対して計算処理を行い、DataRobot の Python API を使って、週末に(9時間かけて)4,300以上の機械学習モデルの候補を含む110の機械学習プロジェクトを構築しました。そこでは、わずか150行のコードでモデルのフルセットを生成でき、さらに120行のコードで結果を取得できました。¹

この時点で、JPモルガンの Ayub Hanif 氏は(DeepFin イベントの概要をまとめた調査報告書の中で)「従来の機械学習のコーディング手法を使って人間が構築しようとすると、どれだけ複雑になり、実行にかかる時間がどれだけ長くなるかなど、言わずと知れたことである。」と述べています。

ほかにも、以下のような点に注目することもできました:

  • どの時期にモデルをトレーニングするか?

さまざまなモデリング期間を評価することで、要因の安定性や、データが明確に管理されているかどうかについてのインサイトを得ることができます。

  • どのような利益の計測期間を使うか?

私達は3か月と仮定していますが、他の期間も同様に、あるいは実際にはそれ以上に重要だったかもしれません。

  • 特定の市場に焦点を絞るのか? それとも時価総額区分に集中するのか?

まだまだありますが、このリストの長さは、モデル作成者の想像力と、最終的には時間があるかどうか次第です。しかし、時間があるかどうかは、「従来の」クオンツよりもはるかに軽い制約です。似たようなアプローチが、他の多くの財務変数についての予測に応用できることは想像に難くありません。したがって、機械学習の自動化にはスケールメリットがあります。投資家による多様な仮説をさまざまなトピックで検証する際、効率化が促進されて、変革的効果がもたらされます。

まぐれへの対処:ベストプラクティスに従っていれば、選択バイアスではありません

機械学習の自動化では有名な「猿のダーツ投げ」の AI 版が作られているだけではないのかという疑問をお持ちなのもよくわかります。どうしたら、機械学習で構築され、特定されたモデルを自信を持って一般化できるでしょうか?来週投稿するブログでは、モデルを構築する際のベストプラクティスや、それを機械学習のアプローチに確実に組み込むことの重要性、DataRobot による機械学習の自動化が機械学習モデルの構築と検定の両方のベストプラクティスを確保する上でどのように役立つのかを考えながら、詳しく検証していきます。

¹ どちらの場合も、コードの大部分は、実際の機械学習ではなく、データの反復処理や、必要に応じたデータのスライス、そしてどの機械学習プロジェクトがどのような種類の問題文に関連しているかを実際に把握しました。

ソリューション
エンタープライズ AI を活用して成功を収める銀行​​

銀行が AI を使用してどのように成功を収めているかをご確認ください

詳しくはこちら
執筆者について
Peter Simon(ピーター・サイモン)
Peter Simon(ピーター・サイモン)

リードデータサイエンティスト

DataRobot の金融市場向けデータサイエンスプラクティスのリーダー。クライアントであるフィンテック企業、銀行、資産運用会社と緊密に連携し、業界をリードする DataRobot の機械学習自動化プラットフォームにおいて数多くの高 ROI ユースケースを実現。 DataRobot に入社する前は、モルガン・スタンレー、ウォーバーグ・ピンカス、ゴールドマン・サックス、クレディ・スイス、ランズダウン・パートナーズ、インベスコなどの投資銀行や資産運用会社にて、定量調査、ポートフォリオ管理、トレーディング、リスク管理、データサイエンスの職務で25年の経験を積む。また、新興のグローバル株式ヘッジファンドで数年にわたり共同経営者を務める。ロンドン大学シティ校でデータサイエンスの修士号、クランフィールド大学スクールオブマネジメントで MBA、ウォーリック大学で会計・財務分析の学士号を取得。 執筆した論文「Hunting High and Low: Visualising Shifting Correlations in Financial Markets」が、Computer Graphics Forum 誌2018年7月号に掲載された。

Peter Simon (ピーター・サイモン) についてもっとくわしく

香西 哲弥(Tetsuya Kozai)
香西 哲弥(Tetsuya Kozai)

データサイエンティスト

DataRobot データサイエンティストとして、主に金融業界のお客さまの AI 活用/推進をご支援。メガバンクと外資系コンサルティングファームでの勤務を経て現職。これまで、AI 導入に向けた組織改革から数理モデリングの技術支援、実運用化支援まで幅広い業務に従事。

香西 哲弥(Tetsuya Kozai) についてもっとくわしく
投稿をシェアする