Wiki トピック

テキストマイニング

テキストマイニングとは

テキストアルゴリズムにより、アナリストは未加工のテキストから有益なインサイトを引き出すことができます。これは通院内容やローン申請書などのメモまたは説明形式の情報がデータセット内にある場合に便利です。 

従来の機械学習モデルを構築する場合、データサイエンティストはローン金額(ドル単位)、借り手の雇用種別(1 つまたは 2 つの単語)などの数値およびカテゴリデータを特徴量として使用していました。アナリストがテキストマイニングアルゴリズムによってローンの目的に関する情報を活用できれば、モデルの精度は大幅に向上します。テキストマイニングにより、未加工のテキスト内のどの単語または語句が特定の結果と関連付けられているかを識別できるため、ターゲット変数つまり分析対象に関連する要素に関してより多くのインサイトが提供されます。

一般的なテキストマイニングアルゴリズムには次のものがあります。

  1. 感情分析特定のトピックまたはイベントに対して書き手がどのように感じ、反応するかを判断します。新製品への消費者の反応を評価するためにマーケティングでよく使用されます。
  2. 固有表現抽出固有の人名、組織名、地名、日付を検索して分類します。
    たとえば、「DataRobot acquired Nutonian, another Boston-based company, in 2017」という文では、アルゴリズムは DataRobotNutonian を組織、Boston を地名、2017 を日付として認識します。
  3. トピックモデリング。未加工のテキストドキュメントのコレクションから隠れたセマンティック構造を見つけ出します。トピックの普及率を測定し、どの用語が各ドキュメントで最も代表的かを記述するために使用されます。
  4. 要約およびキーフレーズ抽出。大規模なドキュメントを文または用語のセットへと抽出して、重要な情報を損なうことなく要約します。

テキストマイニングが重要である理由

データの大半は画像、オーディオ、またはビデオ形式で構造化されていませんが、テキストデータはどの業種にも存在します。クレーム調査担当者のレポート、診療メモ、ソーシャルネットワークのコメント、ソフトウェアのログなどには、特定の将来のイベントを予測する上で重要な情報が含まれていますが、正式に構造化されていることはほとんどありません。テキストマイニングによって、アナリストはこのデータを最大限活用し、高い精度でより実用的なモデルを構築できます。

テキストマイニング + DataRobot

DataRobot 自動機械学習プラットフォームのモデルの大半がテキストデータをサポートしています。テキスト内の単語または文字の特定の組み合わせがターゲット変数と非常に高い関連性を示している場合、DataRobot はパターンを自動的に取得し、他のインサイトと共に表示します。DataRobot は多言語に対応しており、テキストデータの自動言語識別を使用し、検出された言語に基づくさまざまなテキストマイニングアルゴリズムをサポートします。

従来の方法でフリーテキストデータを特徴量エンジニアリングするプロセスは複雑で難しく、データサイエンティストのほとんどが手動で行うことを避けてきました。DataRobot なら、データセットにとって最適なテキストマイニングアルゴリズムを自動的に見つけ、チューニングし、解釈するため、時間と労力の節約につながります。