HDBSCAN 简介

HDBSCAN 全称 (Hierachical Density-Based Spatial Clustering of Applications with Noise)，不严谨的说，是DBSCAN 的升级版（多了一个H嘛），H 代表 hierachical （层次的）。如果在看 HDBSCAN 之前还不了解DBSCAN，那得去补课了。

核心距离和相互可达距离

为了理解 HDBSCAN 我们需要了解两个新定义：

核心距离(core distance)： $core_k(x)$ 定义为距离点第近的点到点的距离。
相互可达距离(mutual reachability distance)： $d_{mreach-k}(a,b)=max{core_k(a), core_k(b),d(a,b)}$,其中 $d(a,b)$ 表示点$a$和点$b$的原始距离（如欧式距离，余弦距离等）。

让我们借助下图来理解一下上面两个概念：

图中，核心距离的参数k为6，蓝色圈圈、红色圈圈和绿色圈圈分别是蓝点、红点和绿点的核心距离所覆盖的范围。蓝点和绿点的相互可达距离$d_{mreach-k}($●,●$)$=$max(core_k($●$), core_k($●$), d($●$,$●$))$,=$core_k($●$)$。

如果 $d_{mreach-MinPts}(a, b) \le \epsilon$，那么点 $a$ 和点 $a$ 都是核心对象，且点 $a$ 和点 $b$ 相互密度直达。

重新认识 DBSCAN

细化讲 HDBSCAN 之前，先用新的定义，重新review一下DBSCAN：

取参数 k 为MinPts，计算相互可达距离邻接矩阵；
删除图中所有长度大于 eps 的边；
求解图的所有最大连通区域，每个最大连通区域为一个聚类类别。

最小生成树

借助最小生成树，可以很简单来完成 DBSCAN：先生成一棵最小生成树，然后删除大于 eps 的边，就得到了聚类结果。

再看 HDBSCAN。HDBSCAN 设计的初衷是想要支持不同密度的类簇。DBSCAN在聚类前，需要确定2个参数 MinPts 和 eps ，即确定核心对象的超球体半径和近邻数量。 eps 是一个很不直观的参数，如果不事先观察和分析数据分布，参数 eps 可能难以调节。而 HDBSCAN 舍弃了 eps 参数，采用新参数 min_cluster_size，这个参数可以理解为我期望的类簇的最小尺寸是多少？怎么样，这个参数简直就是陈独秀！这个参数让你不用事先观察数据分布，只要设置你期望的最小类簇大小即可。比如，你认为一个标准问题被问了多少次希望被你挖掘出来！太6了。

回到上面的最小生成树。拆解最小生成树的时候，有个暧昧的地方是，删除哪些边，留下哪些边，删除边的标准是什么？这一点，在DBSCAN中是确定的，就选择 eps 作为阈值，大于 eps 的所有边都将删除，而这点在HDBSCAN中却是不同的，这也就是我觉得 HDBSCAN 和 DBSCAN 的根本区别。

最小生成树只是一个没有环的图，这是不行的，我们要把其转化成一个真正的树才能继续计算，产出的树要满足从根节点到任意叶节点路径上的边的长度是递减的！这个树的生成过程为：

首先删除最小生成树中所有的边，使所有的点孤立
按照最小生成树的边由小到大，逐次把边加入到树中，每次合并两棵子树，直到最后1条边加入进来把所有点连通。

通过上面的过程产出的树如下图：

此图，左边坐标是距离，右边坐标是点的数量。

再来看DBSCAN，DBSCAN取某个距离 eps 作为阈值，在图中水平画一条线，保留了水平线之下的子树结构。

最小生成树子树提取

HDBSCAN,为了进一步把删除边的范围缩小，可以进一步通过参数min_cluster_size把树化简。我们从上面的这个图中，自上而下逐个边遍历，每条边视作一个候选切分，在每个切分处，如下做：

如果在此处切分后生成的两棵子树中，存在一棵子树的节点数量小于min_cluster_size，则把这棵子树中的所有点定义为“聚类之外的点(points falling out of a cluster)”，同时把另一个较大的子树标记为父亲的ID。
如果在此处切分后生成的两棵子树的节点数量都大于min_cluster_size，那么把这个候选切分视为一个真正的切分，并保留这个切分。

把所有ID相同的切分合并在一起，可以把上图转化成下面这幅图。

最后一步就是如何从这个图中选择合适的类簇。说到类簇抽取这一部分，估计是最不直观的地方了。首先引入一个保持变量$\lambda = \frac{1}{dinstance}$，其实就是相互可达距离的反比函数。给定一个类簇，$\lambda_{birth}$ 定义为类簇被父类簇切分所生成时，切分边的λ值；$\lambda_{death}$ 定义为类簇被切分生成子类簇时，切分边的λ。对于每个点p，定义为当点p成为聚类之外的点时，切分边的λ值。进而我们可以定义每个类簇的稳定性(stability):

\[\sum_{p \in cluster}(\lambda_p - \lambda_{birth})\]

一个类簇的稳定性越大，其在图中的表现为面积越大。于是我们期望选择的聚类其实就是希望稳定性越大越好。最简单的选择类簇是否被切分的标准就是，把当前类簇的稳定性和将要切分成的子类簇的稳定性的和进行比较，如果大则不切分，反之需要切分。

自底向上遍历化简树，

如果子树稳定性的和大于当前树的稳定性，则把当前树的稳定性的值设置为子树稳定性的和；
反之，把当前树选择为类簇，并从已选择的类簇中删除其所有子孙。

通过这种方法，最终选择出的聚类类簇如下图。

牛刀小试

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from hdbscan import HDBSCAN

# 数据集构造，两个环形
X1, y1 = datasets.make_circles(n_samples=5000, factor=.6, noise=.05)
X2, y2 = datasets.make_blobs(n_samples=1000, n_features=2, centers=[[1.2, 1.2]], cluster_std=[[.1]], random_state=9)

X = np.concatenate((X1, X2))
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()

# 使用 HDBSCAN 聚类
y_pred = HDBSCAN(min_cluster_size=10, min_samples=5, alpha=1.0).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

HDBSCAN 简介

一种基于密度的聚类方法

HDBSCAN 简介

核心距离和相互可达距离

重新认识 DBSCAN

最小生成树

最小生成树子树提取

牛刀小试

CATALOG

FEATURED TAGS

FRIENDS