テキストマイニングとは｜自然言語処理技術を活用して高精度な分析を可能とする「コトバ」に強い日本発AIソリューションTRAINA／トレイナ

テキストマイニングとは？

大量の文章データ（テキストデータ）から、有益な情報を取り出すことを総称してテキストマイニングと呼びます。自然言語解析の手法を使って、文章を単語（名詞、動詞、形容詞等）に分割し、それらの出現頻度や相関関係を分析することで有益な情報を抽出します。
ビッグデータの活用においても、テキストマイニングは非常に重要な要素となります。ビッグデータ解析の対象となるデータは数値などの形であらわされる比較的取扱いの簡単な「構造化・定量データ」、数値に表すことのできない感覚的な側面を持つ、「非構造化・定性データ」に大別されます。

テキストデータは、「定性データ」の代表的なもので、この「定性データ」から付加価値の高い情報を収集することがテキストマイニングの目的です。
ビッグデータ時代と言われる昨今では、コールセンターでのお客様とオペレータのやり取りの記録や、WEBページでのお客様からの問い合わせ文、アンケート調査の自由記述文などの企業内に蓄積されたデータの他、インターネット掲示板での書き込み、口コミサイトや、SNS（Facebook、Twitter　etc.）の記事などのソーシャルメディア上にも有益なテキストデータが溢れています。また、昨今音声認識技術の向上に伴い、音声データがテキスト化されるなど、分析が必要なデータは爆発的に増加しています。これらのデータは、大量であるということだけではなく、その時々の市場の状況・環境、消費者の製品・サービスに対するマインド等をリアルタイムに表しており、これらをいち早くキャッチし、企業活動に活用していくことが今後のビジネスにおいても非常に重要な要因となります。インターネット上では情報の拡散スピードが速いため、気づかぬうちに企業ブランドやイメージを損なうような事象が発生することも充分に考えられます。これらの予兆を未然に察知し、的確なタイミングで予防措置や対応施策を打っていくためにはテキストマイニングを有効活用することが当たり前となっています。

また、分析の際には、その領域において固有の言葉づかい（語彙、辞書）が必要になり、これらの有効な活用が分析の成否を分けると言っても過言ではありません。
分析を行う際には、テキストマイニングツールと呼ばれるソフトウェアを利用することが一般的です。

お客様の声から「なぜ？」を発見する

ある商品が売れない事実は、販売数をみることで把握が可能ですが、なぜそれが売れないのかを知るための最適な方法は、直接、お客様の声に耳を傾けることです。近年では、コールセンターの問い合わせ等の明示的に表明されるお客様の声のみならず、インターネット上には、該当の製品に対するお客様の不満・満足・要望のデータが大量に溢れており、多くのお客様の声が埋もれています。これらのテキストデータの中には、販売実績での売上低下より早い段階で、なぜ売れていないかを説明する理由となるキーワードやヒントが埋もれているのです。「いつ」「どのような層のお客様」から「どういった内容の声（満足、苦情、要望等）」が「どの程度の量」寄せられているかは、これらのテキストデータの中に埋まっているのです。
テキストマイニングを行うことで、これらの要素の関係性を分析し、いち早く商品の売れない理由、機会損失を起こしている理由が分かり、適切な対応が可能となります。

このような分析を行うためには、テキストデータとそれに紐付く顧客データ、実績データ等を組み合わせることが必要となり、これにより男女別での意見の違い、購入金額別のクレームの違い、商品別の営業アプローチの違いなどを浮き彫りにしていくことが可能となります。

活用には、分析結果の共有と課題管理が鍵

テキストマイニングの成果を有効活用するためには、分析結果を社内の関連部署で分かりやすく、スピーディに共有すると共に、経営戦略・商品開発・CS推進・営業などの各部門においてそれぞれの施策にうまく結び付け実行していくことが大切です。そのため、分析結果の「可視化」「見える化」も重要な要素です。また、分析結果から導かれた施策の進捗をトレースするとともに、施策実施後のお客様の声を再度分析し改善度合をチェックしていくPDCAサイクルを確実に回してくことが重要です。

TRAINAを支える、野村総合研究所のテキスト解析エンジン

昨今のビッグデータ化の流れを受けて、大量のテキストデータを、素早く、確実に、高い精度で処理することが求められるようになってきました。そこで野村総合研究所は、自然言語処理の解析ロジックを一から見直し、最先端のテキスト解析エンジンを開発してそれらのニーズに応えることに成功しました。

野村総合研究所の新しいテキスト解析エンジンは、以下の４つの特徴を備えています。

圧倒的に高速
大幅な精度の向上
業界随一の新語対応力
業務を支える安定性

圧倒的に高速

今回、野村総合研究所はテキスト解析エンジンを開発するにあたり、最先端の自然言語処理技術を導入。さらにこれまで培った独自技術とノウハウを組み合わせ、最大で従来エンジンの12倍の処理速度を実現しました(注1)。大量のテキストデータの解析時間が大幅に短縮され、分析の質と効率が向上しました。
大幅な精度の向上

野村総合研究所はこれまで多くのお客様への適用事例の経験を活かし、業界・商品ごとの「辞書」構築ノウハウを蓄積してきました。今回、野村総合研究所はこの辞書に組み合わせる意味・感情解析技術を独自に開発。その結果、解析時に発生するノイズを除去する性能は維持しつつ、解析精度が従来比1.6倍に向上(注2)し、より正確な分析が可能となり、更なる分析精度の向上を実現しました。
業界随一の新語対応力

これまで手作業での追加対応が必要であった、新語・造語の辞書登録の自動化を実現しました(注2)。それにより、流行り言葉や俗語なども解析することが可能になり、テキスト解析の質や柔軟性を大幅に向上します。SNSやアンケートデータの分析など、お客様の声をそのまま解析するシーンにおいて、大いに威力を発揮します。
業務を支える安定性

新しいテキスト解析エンジンのメモリ利用量は、従来のエンジンと比べてほぼ半分(注3)。システムの安定性向上に大きく貢献します。さらに、大量・長文データの解析においても解析エラーを起こすことなく、確実に処理結果を返すことで、システムの信頼性が大幅にアップ。ミッションクリティカルな業務システムへの組み込みが可能となりました。

野村総合研究所が独自に開発したテキスト解析エンジンによって、TRAINAはお客様の経営課題の解決を強力にサポートします。

形態素解析および構文解析の処理にかかる処理時間を、当社環境において比較。
当機能のTRAINAテキストマイニングへの搭載は順次実施していく予定です。
当社環境において比較。

TRAINA テキストマイニングについて
詳しく見る