HOME

ビッグデータが「見える!」
〜可視化ミドルウェアの実現〜

株式会社toor
取締役COO
金田 哲也 氏

1 2 3

ビッグデータの現状

インターネットの誕生から30年、日々2.5 x 1018バイトのデータが新たに生成されています。
このような膨大なデータを高速計算するため、Hadoopに代表されるいろいろなプラットフォームが考案されていますが、それらを利用して行うデータの分析は、高い専門技術を持つビッグデータアナリストと呼ばれる人たちが、業務課題を十分に理解した上で、言わば職人芸で行ってきました。顧客は自ら分析することはできず、アナリストの結果を「信じる」しかないのが現状です。

しかし、膨大なビッグデータを広く活用するためには、業務課題を一番理解している担当者が、ビッグデータに関する専門的知識を必要とせずに、簡単にビッグデータを分析できることが重要です。そのためには、ビッグデータを人間の直感が働くように「可視化」することが非常に有効な方法です。

ここでは、革新的なビッグデータの「可視化」のためのミドルウェア技術をご紹介します。


図1.誰でもビッグデータを分析できる時代が来る

従来のビッグデータ分析の課題

ミドルウェアがない!

現在のビッグデータ分析は、MacやWidowsが出現する以前の時代に似ています。高い専門スキルを持つエンジニアが、OS上に直接アプリケーションを開発していました。現在のビッグデータ分析でも、Hadoop、MapReduce、統計解析、時系列解析、データマイニング、機械学習、自然言語処理などなどを駆使した上に、「顧客の業務と課題の理解」まで必要になるため、極めて限られた専門集団しか対応できない状況です。

逆に言えば、「業務と課題を十分理解」している顧客が簡単にビッグデータを分析できるためには、MacやWindowsに対応するようなミドルウェアの出現が待たれるわけです。

「次元の呪い」に代表されるビッグデータ独特の問題の解決

多くのデータを扱う場合、まず似たような情報をひとまとめにするクラスタリングを行うことが一般的です。しかし、多次元の情報であるビッグデータの場合、「次元の呪い」の制約があります。多次元空間で、「ある対象」を中心にした半径がそれぞれ r と ar, (0<a<1) の n次元超球 S1 と S2 があるとします。それぞれの体積 V1 と V2 の比は V2/V1=an となります。つまり次元数が大きくなると、S1 と S2 の差の殻の部分が体積の大部分を占め、S1 内のほとんどの情報はこの薄い殻の部分に存在することになり、「ある対象」と他のほとんどの情報とが等距離になってしまいます。この結果、クラスタリングがうまくいかなくなります。

この問題を解決するためには、有効な次元のみを選別して次元を圧縮することが有効ですが、どの次元が有効かを人間が判断したのでは、分析の客観性が失われてしまいます。この課題への有効な対策が必要になります。

1 2 3