クラスタリング (Clustering)
クラスタリング (Clustering) とは、データを類似性に基づいて複数のグループに分類する教師なし学習の手法です。
あらかじめラベルのないデータ を構造化・分析するのに用いられます。
より簡単な言い方をすれば、データに内在する未知の構造を発見するための手法です。
既知の構造に基づきデータを領域分割するセグメンテーションとは意味が異なる点に注意してください。
クラスタリングの手法の種類
クラスタリングの手法は以下のように分けることができます。
距離ベースクラスタリング
特徴: データ間の距離を基準としてクラスタを決定
手法: k-means, x-means, k-means++, k-medoids, GMMなど
密度ベースクラスタリング
特徴: データの密度を基準にクラスタを決定
手法: BDSCAN, OPTICSなど
階層的クラスタリング
特徴: データの階層構図から木構造でクラスタを決定
手法: 凝集型(メジアン法、重心法、最短距離法、最長距離法、群平均法、ウォード法など)
分割型(Diana法など)
グラフベースクラスタリング
特徴: グラフ構造のデータを扱いクラスタを決定
手法: スペクトルクラスタリング、Louvain法など
階層的クラスタリングと対比して、距離ベースクラスタリングと密度ベースクラスタリングは非階層的クラスタリングと呼ばれることもあります。
近年は、金融・製造など多様な業種のビッグデータからの異常検知で注目を浴びています。そこで用いられる手法はGMMが定番となっています。
CAE分野におけるAI活用においてもクラスタリングは不可欠な手法です。
例えば、サロゲートモデル構築・チューニングの効率化のためには、データセットを効率的に収集・拡張する必要があり、クラスタリングを用いることで必要なデータの傾向を把握することが可能です。