肌萎缩

首页 » 常识 » 诊断 » 无监督机器学习算法主成分分析边际实验室
TUhjnbcbe - 2024/10/6 16:22:00
白癜风规范化诊疗 https://m.39.net/disease/a_6195089.html

之前我们曾经讲过,无监督学习是一种不使用标记数据(无目标变量)的机器学习。因此,算法的任务是在数据本身中寻找模式。无监督机器学习算法的两种主要类型分别是使用主成分分析的降维算法和聚类算法(包括K-Means和层次聚类算法)。下面将依次介绍这些内容。

主成分分析

降维是一种重要的无监督学习方法,在实践中得到了广泛的应用。当数据集中有许多特征时,可视化地表示数据或将模型拟合到数据中可能会变得非常复杂。在这种情况下,可能需要降维。降维的目的是通过一组更小的特征来表示具有许多(通常存在相关性)特征的数据集,这些特征仍然可以很好地描述数据。

主成分分析(PCA)是一种最常见降维统计方法。PCA将高度相关的多个数据特征减少到几个主要的、不相关的复合变量。复合变量是将两个或多个在统计上紧密相关的变量组合在一起的变量。PCA涉及到特征的协方差矩阵的变换,在这里会有两个关键的概念:特征向量和特征值。特征向量定义了新的、相互不相关的复合变量,它们是原始特征的线性组合。

作为一个向量,一个特征向量也代表着一个方向。与每个特征向量相关的是一个特征值。一个特征值给出了初始数据中总方差的比例,该比例由每个特征向量来解释。PCA算法根据特征值将特征向量从高到低排序——也就是说,根据它们在解释初始数据的总方差方面的有用性程度排序。主成分分析选择解释数据集中变化比例最大的特征向量(特征值最大的特征向量)作为第一个主成分。第二主成分解释了在第一主成分之后的下一个最大的方差比例;接着是第三、第四和其后的主要成分。由于主成分是初始特征集的线性组合,通常只需要几个主成分就可以解释初始特征协方差矩阵中大部分的总方差。

下表显示了一个具有三个特征的假设数据集,因此它是沿着x、y和z轴在三维空间中绘制的。每个数据点都有一个测量值(x、y、z)。首先我们将数据进行标准化,以便每个系列(x、y、z)的均值为0,标准偏差为1。假设我们通过PCA,得出了前两个主成分,PC1和PC2。对于PC1,每个数据点到PC1的垂线距离表示投影误差,平行于PC1方向上的每个数据点之间的距离表示数据沿PC1的变化或延伸。PCA算法通过选择所有数据点的投影误差之和最小,所有数据点之间的距离之和最大的直线来找到PC1。

作为结果,PC1是唯一的向量,它在初始数据的方差中占了最大比例。剩下的方差中,第二大部分由PC2来解释,它与PC1成直角,因此与PC1不存在相关关系。现在,数据点由前两个主成分表示。这个例子演示了PCA算法在降维方面的有效性

了解需要保留多少主成分非常重要,我们需要在复杂数据集的维度数量、信息丢失程度之间进行权衡。碎石图(Screeplots),显示了每个主成分解释的数据中总方差的比例。在实践中,应该保留的主成分的最小数量可以根据碎石图判断,一般要求所有主成分解释初始数据总方差的85%到95%。

案例DLC和VLC30股票指数收益的主成分分析碎石图

在本案例中,研究人员使用碎石图发现,三个主成分足以解释过去10年期间DLC和VLC30股票指数的回报率。DLC是涵盖所有行业大盘股的多元化指数,VLC30则是30家最大的上市公司的指数。数据集包括指数价格和多种特征。特征之间的多重共线性是最重要的干扰因素,因为许多特征或特征组合往往存在着重叠问题。为了解决这个问题,我们使用PCA来捕获数据中的信息和差异。下面的碎石图显示,在生成的20个主成分中,前3个主成分共解释了DLC和VLC30指数的90%和86%的方差。从碎石图可以看出,在第5个主成分之后,解释数据方差的增量贡献都很小。因此,这些不太有用的主成分可以被忽略,不会丢失太多信息。

主成分分析的缺点是,由于主成分是数据集的初始特征的组合,它们不能被分析人员轻松地解释。与已经被定义好的变量数据相比,PCA的结果可能会被视为“黑箱”。

即使处理只有10个左右特征的数据集时,将特征的数量减少到最相关的几个也非常有用。另外,降维有助于在二维或三维空间中可视化地表示数据。

主成分分析通常作为数据分析的一部分执行,然后用来训练另一个监督或非监督学习模型。这样,机器学习模型训练的速度更快,倾向于减少过拟合的情况。

本文由“边际实验室”原创,转载请务必注明出处。如果喜欢本文,请点转发让更多人看到。

原创不易,感谢您的支持!

更多原创文章:

有监督学习算法介绍:K近邻与决策树(分类与回归树)惩罚回归算法与支持向量机有监督学习中防止过拟合的方法算法的性能评估及过拟合

1
查看完整版本: 无监督机器学习算法主成分分析边际实验室