聚类分析原理(k均值聚类分析原理)

聚类是一种发现数据之间内部结构的技术。将所有数据实例聚类到一些相似的组中，这些相似的组称为聚类。同一集群中的数据实例彼此相同，而不同集群中的实例彼此不同。

聚类分析定义

聚类是根据数据中描述对象及其关系的信息对数据对象进行分组。目的是一个组中的对象彼此相似(相关)，而不同组中的对象不同(不相关)。组间相似度越大，组间差距越大，说明聚类效果越好。

聚集效应取决于两个因素:1 .距离测量；2.聚类算法。

聚类分析的常用算法

k均值

K- means聚类，也称为快速聚类方法，在最小化误差函数的基础上，将数据分成预定数量的类K。该算法原理简单，易于处理大量数据。

k中心点

K- means算法对孤立点的敏感性，K- center算法不使用一个聚类中对象的平均值作为聚类中心，而是选择最接近平均值的对象作为聚类中心。

系统聚类

也称为层次聚类，被分类的单元具有从高到低的树形结构，位置越低，包含的对象越少，但这些对象具有的共同特征越多。这种聚类方法只适合数据量小的情况，数据量大的时候速度会很慢。

情况

12盎司啤酒的成分和价格有20种数据。变量包括啤酒名称、卡路里、钠含量、酒精含量和价格。

问题1:选择哪些变量进行聚类？——采用“R型聚类”

现在我们有四个变量来分类啤酒。有必要把四个变量都包括进来作为分类变量吗？热量、钠含量、酒精含量这三个指标都要经过化验员的辛苦测定，还是要花不少钱的。

因此，有必要降低四个变量的维数。这里，spss R型聚类(变量聚类)用于降低四个变量的维度。输出“相似矩阵”有助于我们理解降维的过程。

这四个分类变量是不同的。这一次，我们首先用相似度来衡量它们。选取皮尔逊系数作为度量标准，选取最远元素作为聚类方法。此时，涉及到相关性时，四个变量无需标准化，未来相似度矩阵中的数字就是相关系数。如果某两个变量的相关系数接近1或-1，则这两个变量可以互相替换。

只需输出“树形图”。从贴近度矩阵表可以看出，热量和酒精含量两个变量的相关系数为0.903，最大。你可以选择其中一个，没必要把它们作为聚类变量，导致成本增加。

至于选择两个变量中的哪一个作为典型指标来代替原来的两个变量，可以根据专业知识或者测量的难易程度来决定。(不同于因子分析，完全踢出其中一个变量，实现降维。这里选择酒精含量。到目前为止，用于聚类的变量确定如下:酒精含量、钠含量和价格。

问题2:中国啤酒可以分为多少种？——采用“Q型聚类”

现在来20瓶啤酒。起初，我不确定它应该分为几类。目前，我将尝试3-5个类别范围。Q-cluster需要相同的维度，所以我们需要标准化数据。这一次，我们用欧几里德距离的平方来衡量。

通过主树形图和冰柱图了解类别。最终是分为4类还是3类，是一个复杂的过程，需要专业知识和最初的目的来鉴别。

在这里，尽量确定分为四类。选择“保存”,在数据区自动生成聚类结果。

问题3:用于聚类的变量对聚类过程和结果有贡献吗，有用吗？——使用“单因素方差分析”

在聚类分析中，除了类别的确定，还有一个关键问题，即分类变量是否对聚类有贡献。如果任何单个变量对分类没有影响，它们应该被消除。

这个过程一般用单向方差分析来判断。注意，此时因素变量被聚类成四类，三个聚类变量作为因变量处理。方差分析结果表明，三个聚类变量的sig值极显著，我们用于分类的三个变量对分类有影响，可以使用，作为聚类变量是合理的。

问题4:聚类结果的解释是什么？——使用“均值比较描述统计法”

聚类分析最后也是最难的一步是对分离出来的类别进行定义和解释，并描述每个类别的特征，即每个类别的特征描述。这需要专业知识作为基础和分析的目的。

我们可以用spss的均值比较过程或者excel的透视表功能来描述各类指标。报告报告用于描述聚类结果。类别是通过比较各种指标初步界定的，主要根据专业知识判断。就在这里。

以上过程涉及到spss层次聚类中的Q-cluster和R-cluster，单因素方差分析，均值过程等。，这是多种分析方法结合使用的一个很好的例子。

聚类分析的应用

商业上

聚类分析是市场细分的有效工具，用于发现不同的客户群体，通过刻画不同客户群体的特征来研究消费者行为，发现新的潜在市场。

吴尚

聚类分析用于对动物、植物和基因进行分类，从而获得种群内在结构的知识。

在保险行业

聚类分析可以通过平均消费来识别汽车保险保单持有人的群体，并根据住宅类型、价值和地理位置来识别城市中房地产的群体。

互联网应用

聚类分析用于对互联网上的文档进行分类。

电子商务

聚类分析通过分组对浏览行为相似的客户进行聚类，分析客户的共同特征，从而帮助电子商务企业了解客户，为客户提供更合适的服务。

社会阶层划分是怎么进行划分的