IBM SPSS Modeler のご紹介

多機能データマイニングツール「IBM SPSS Modeler」の紹介

IBM(R) SPSS Modelerは、様々な業界のデータマイニングの最前線で活躍しているデータマイニングツールです。
多機能である一方、導入しやすいツールでもあるのでこれから本格的な分析をしたいという企業様にオススメな製品です。

SPSS Modelerの特徴


【 データマイニング一連のプロセス 】

SPSS Modelerは、データの入力や加工・予測モデルの作成・検証、ビジュアル化など
データマイニングの一連のプロセスで求められる機能は高い水準で備わっていますが、特に下記のような特徴があります。

GUIでのデータ加工 ~直感的なUI~

SPSS Modelerの最大の特徴は、歴史ある本格的な分析ツールでありながら、GUIによる直感的な操作を前提としていることです。 このため、本格的な分析ツールの中では、分析入門者にとっても馴染みやすいインターフェースを備えています。 プログラミングが必要な分析ツールの場合、慣れていないとコマンドを調べながら記述していく必要がありますが GUIでの操作が可能であれば、操作がうろ覚えでも、関係のありそうな部分をクリックして開いて、ダイアログに従っていくだけで、正しい処理を探り当てることが可能です。 これは、分析入門者にとっては非常に心強いプロセスとなります。

また習熟した人であっても、コードのみで記述する他の多くのツールに比べると、SPSS Modelerの画面は処理の全体像を把握しやすい利点があります。 特に複数人で分析プロセスを共有する際には、その威力を発揮します。

GUIだけでなく、スクリプトによる自動化・バッチ処理も可能

扱うデータの種類が大規模化・多様化して、例えば変数が100個を超えるようなケースでは
それぞれの変数の名前を少し変えるという簡単な操作でも、作業量はそれなりにかかることになります。
そのような作業を積み重ねたプロジェクト全体の作業量は膨大なものになってしまいがちです。
SPSS Modelerでは、GUI操作を前提としながらもスクリプトによる処理も可能であるため
そのような処理を一括で行うといった高度な使い方も可能です。

スクリプトを利用する他のメリットとしてルーティーンの処理を自動化することも挙げられます。
例えば、特定のフォルダにCSV形式でデータを貯めておいて夜間にSPSS Modelerを起動させてそれを読み込み、
翌朝までに分析結果をExcel形式ではき出しておくという使い方をすることが出来ます。

導入されているアルゴリズム

SPSS Modelerでは、CHAID, Quest, C&R, C5.0, 判別分析, 時系列分析(ARIMA等), ニューラルネット,
ロジスティック回帰, SVM, ベイジアンネットワーク, アソシエーション, クラスター分析などが備わっており、
データマイニングの現場で多用されるものはほとんどがカバーされていると言えます。
もしこれらのアルゴリズムだけでは足りない場合は、RのモデルをSPSS Modeler上で使用する機能もあります。

また、上級者向けですが例えばランダムフォレストなどデフォルトで用意されていない
アルゴリズムをSPSS Modelerのスクリプトで実装してしまうといった方法もあります。
このあたりは、自由度の高い汎用分析ツールならではの応用方法と言えます。

R言語との連携

アルゴリズムについては、SPSS Modeler単体だけでも強力なラインナップが揃っていますが
オープンソースのR言語には世界中の開発者によってより豊富なアルゴリズムなどが実装されています。
SPSS Modelerで、そのアルゴリズムを取り込んで利用することが可能です。

SPSS ModelerのGUIによるデータ処理とR言語の豊富なアルゴリズムを組み合わせることで
快適な操作性と最先端の分析を実現することができます。

以上の特徴により、アクセスログやPOSデータなど日々膨大なデータを
スピード感を持って高度な集計・分析したいシーンではSPSS Modelerは特に本領を発揮します。

SPSS Modelerによるデータマイニング事例の紹介


大手消費財メーカー様のデータマイニング事例(ID付きPOSデータの活用事例)

分析対象データ

・全国の小売店のID付きPOSデータ(=会員の購買履歴)
・お客様が運営するオンラインショップでの購買履歴
・会員属性データ など

分析目的

お客様は、国内だけでも取り扱い商品数は相当規模におよぶ、業界トップメーカー。従来より、優良顧客へのレコメンド(オススメ商品)リストを作成していたが、下記を実現するために各種データ加工・モデル作成・リスト作成の一連の流れをSPSS Modelerとそのスクリプト機能を用いて自動化。

・顧客属性ごとのレコメンドリスト作成
・月例の作成を自動化
・分析手法の高度化

結果

月次単位でデータを更新して運用することで、最新データによる効果的なマーケティング施策を実現。

大手商社様のデータマイニング事例

分析対象

・取引先企業の財務データ
・取引先との各種接触履歴

分析目的

・財務データをもとにした企業の将来予測を行うデータマイニングプロジェクト
・相当数にのぼる取引先の財務データや過年度からの接触状況等から企業の予測モデルを作成するデータマイニングプロジェクトを実施。
・その際に企業特性に応じて100個以上のモデルを作成。
・すべてのモデルを人力で作成、検証するには相当数の時間を要することからSPSS Modelerのスクリプトを利用し、
 データ加工、モデル作成、分析結果の検証の一連のプロセスを自動化。

結果

・対象企業の属性や財務データによる高度な将来予測を実現
・自動化により財務データの更新が容易となった

ソーシャルゲームを開発・運営しているベンチャー企業様のデータマイニング事例

分析対象

・ユーザーによるアクセスログ
・顧客属性データ
・各種キャンペーンデータ

分析目的

・ソーシャルゲーム業界の特性により下記のニーズをお持ちでした。
・膨大なアクセスログを毎日分析し、ユーザーの行動を理解したい。
・ルーティーンとしての集計は外部に任せるのではなく社員が自社内で行いたい。ただし人手が足りておらず、
 社員の負担は最小限に留めたい。
・人材の流動性が高い業界であり、特定の分析者に任せるのでなく複数の社員がデータ加工、集計、モデル作成を行えるようにしたい。

結果

SPSS Modelerを利用してお客様で行っている集計を自動的に実施し、エクセルファイルで出力するスクリプトを作成。
分析の途中経過はGUIで扱うことができることから、SQLなどの専門知識を持たない担当者様でも操作しやすい分析環境を構築。

SPSS Modelerのエディションと価格 ~デスクトップ版とSPSS Modeler Serverの違い~


デスクトップ版

デスクトップ版は、WordやExcel、Accessと同じように通常のPC上で動作します。
まず分析を始めてみよう。ということであれば、お手元のPCにインストールすることで分析業務を開始することができます。
そして分析の有効性を確認した段階でデータ量が膨大などのためにPCの処理能力が足りないという場合には、
より高性能のPCを導入して分析環境を増強することができます。

サーバー版

サーバー版は、Oracleなどのデーターベースに接続して使用することを前提としています。
分散して処理をすることが可能なため、大量のデータ処理に向いており、デスクトップ版より処理能力が高くなるケースが多いです

【 分析ニーズに応じた段階的アプローチ 】

* IBM、IBM ロゴ、ibm.com、SPSSは、世界の多くの国で登録されたInternational Business Machines Corp.の商標です。