「情報可視化」について 〜大規模データの全貌を一画面でみる「平安京ビュー」〜
お茶の水女子大学 理学部情報科学科 伊藤 貴之 准教授

今回は、「情報可視化」について、お茶の水女子大学の伊藤先生にインタビューしました。


お茶の水女子大学 理学部情報科学科 伊藤 貴之 准教授

情報可視化とは?

エクセルに入っている数字をグラフ化すること、あるいは、WindowsやMacでファイルの内訳を見ることも、広い意味で情報可視化に含まれます。情報可視化の研究は、非常に大量のデータや複雑なデータに隠れている情報、文字で見ていては見逃してしまう重要な情報を、早く、正確に、確実に見つける目的で進んでいます。
例えば、10年ほど前にWebページがどうリンクされていて、どの様にリンクを辿って行く人が多いのかという全体像を一画面で見せることが流行しました。それから、新聞や特許の文書データベースから傾向や流行を発見するために可視化を使う事が流行しました。ここ何年かは、遺伝子情報のように、世界中のいろんな人が実験していて、あっと言う間に情報が蓄積されるものを可視化することが重要と言われています。
ここでお話する"可視化"は、本来の情報に3次元的な意味の無いものが主体です。多分、御社のサイトを見られる方は、"可視化"と言うと圧倒的に3次元的な意味のある情報を想像すると思いますが、情報可視化は少し違います。
僕は授業で、情報可視化を"もう一つの可視化"と言っています。

大規模データの全貌を一画面でみる「平安京ビュー」

まず、私の研究の中心「平安京ビュー」について紹介しましょう。

モニタリングによる異常の発見

図は、平安京ビューを使って、ある大学のネットワークの不正アクセスをモニタリングしている様子です。1つ1つの棒グラフが1個の計算機を表し、さらに、それらが学部とか研究科とかの単位でブロック化されています。 異常があると棒グラフが高くなります。


(図1)平安京ビューを使ったネットワークの不正アクセスモニタリング

これを時系列で観察していると、結構面白い現象が見えます。例えば、学校の外から攻撃されて、そのマシンが乗っ取られると、そのマシンが学内の他のマシンを攻撃するという、攻撃の伝搬みたいなものが見えます。このような場合、被害を受けているマシンや、学内を攻撃しているマシンを、ネットワークから切断する措置をとります。
その他に、原子力発電所やセキュリティの事例があります。
原子力発電所には温度計や気圧計が何百個も設置され、運転員は、それら計測データをモニタリングしています。1つ1つのメータを見ていては、大量の情報から1箇所だけの異常を見つける事は困難です。それを平安京ビューで上手く整理して表示することで見逃しを防ぐことができます。
セキュリティでは、現在、クレジットカードの不正使用の発見を試みています。クレジットカードの履歴をモニタリングしていると、その急激な変化や、地域的な変動から、不正を見抜くことができます。
原子力もセキュリティも、いろんな要因が重なって問題が起こります。単純に閾値を設けて、1つの情報から、ある値を超えるとトラブルと決めることが困難です。全体の総合的な情報から、これはホントに異常であるとか、これは異常な数字を見せているけど問題ない、と言うのがわかるんですね。このような判断は計算機には難しく、可視化によって上手く情報を提示し、人間が目で見て判断をするという事になります。
このように、平安京ビューの1つの利用方法は、時々刻々と変化するデータのモニタリングすることで、見逃しを無くし、そこから重要な情報を取り出すことです。

「平安京ビュー」のバリエーションツール

次に、平安京ビューの進化したバリエーションツールと利用方法を紹介しましょう。

平安京ビュー「左京/右京」

平安京ビューを左右に2つ並べた「左京と右京」を紹介しましょう。
これは1999年の2000個程度の記事の情報を示しています。左側(右京)の棒グラフは1つ1つがキーワードで、その度数を示し、よく一緒に出てくるものがグループになる構造になっています。右側(左京)は、1つ1つのドットが記事で、類似キーワードがたくさん混ざっているものが1つのグループになっています。キーワード(右京)によるグラフで、デジカメとパソコンは同じグループに入っており、記事(左京)の分類でもデジカメに関する記事(赤)とパソコンに関する記事(緑)が並んでいて、さらにデジカメとパソコンを含む記事(黄色や黄緑)も多く見られることから、1990年代から既にデジカメとパソコンは同時に語られていたということがわかります。


(図2)平安京ビュー「左京/右京」