Cloudera + DataRobot
エンタープライズデータハブが支える機械学習の自動化
Clouderaは、2008年、Google、Yahoo!、Oracle、そしてFacebookなど、シリコンバレーのトップ企業で働く数名のひときわ有能な人物によって創設されました。そして2011年には、Yahoo!に在籍していたオリジナルのHadoopチームがスピンアウトして、Hortonworksを創設しました。両企業は共に、オープンソース、オープンスタンダード、そしてオープンマーケットが最も優れているという信念の下に創設されました。この信念は今でも両社の中核を成すものであり、オープンソースコミュニティに対する膨大な投資やコミッターの提供がこれを証明しています。米国カリフォルニア州シリコンバレーに本社を構えるClouderaは、世界各地にオフィスを展開しています。
Benefits
管理
Cloudera Manager を使用して Hadoop データノードにランタイムライブラリを配布できるので、ノードの追加時に新たなインストール作業や設定作業は不要です。
セキュリティと暗号化
DataRobot では、Sentry を使ってきめ細かなロールベース認証が行われ、Kerberos プロトコルと LDAP プロトコルがサポートされます。 また、セキュリティプロトコルは他のアプリケーションと同じものを使用できます。さらに、HDFS がネイティブに統合および利用され、Cloudera で実装している暗号化ポリシーが引き継がれます。そのため、データを保護するための機能を別途導入する必要はありません。
監査とリネージ
Cloudera Manager では、DataRobot のライフサイクルイベントとセキュリティ関連イベントが、Cloudera クラスタで実行されている他のプロセスと同様に追跡されます。また、DataRobot の分析ファイルとモデルファイルも追跡され、Cloudera Navigator でデータリネージを視覚的に表示できます。
YARN によるワークロード管理
DataRobot ワークロードは YARN コンテナ内で実行されるので、DataRobot と他のアプリケーションを共存させることができます。クラスターをパーティション分割しなくても、YARN によってリソースの競合を回避できます。
柔軟性
DataRobot は、Hadoop の要件に対応した標準的なハードウェアで動作します。Hadoop データノードに長期実行プロセスは必要ありません。他の一部の商用ツールとは異なり、Hadoop サーバーを取り替えたり、アップグレードする必要はありません。さらに専用のストレージレイヤーも不要であり、HDFS と直接連携します。DataRobot ユーザーは HDFS ファイルを直接操作でき、アプリケーションでは HDFS を使用して予測データセットや予測モデルが保存されます。
Spark によるスコアリング
DataRobot では、Apache Spark によってモデルのスコアリングがインメモリで高速に行われます。Cloudera のスケールアウトアーキテクチャを適用できるため、必要なスコアリング量を必要なスループットで処理するようにプロビジョニングできます。