聚类是一种发现数据之间内部结构的技术。将所有数据实例聚类到一些相似的组中,这些相似的组称为聚类。同一集群中的数据实例彼此相同,而不同集群中的实例彼此不同。
聚类分析定义
聚类是根据数据中描述对象及其关系的信息对数据对象进行分组。目的是一个组中的对象彼此相似(相关),而不同组中的对象不同(不相关)。组间相似度越大,组间差距越大,说明聚类效果越好。
聚集效应取决于两个因素:1 .距离测量;2.聚类算法。
聚类分析的常用算法
k均值
K- means聚类,也称为快速聚类方法,在最小化误差函数的基础上,将数据分成预定数量的类K。该算法原理简单,易于处理大量数据。
k中心点
K- means算法对孤立点的敏感性,K- center算法不使用一个聚类中对象的平均值作为聚类中心,而是选择最接近平均值的对象作为聚类中心。
系统聚类
也称为层次聚类,被分类的单元具有从高到低的树形结构,位置越低,包含的对象越少,但这些对象具有的共同特征越多。这种聚类方法只适合数据量小的情况,数据量大的时候速度会很慢。
情况
12盎司啤酒的成分和价格有20种数据。变量包括啤酒名称、卡路里、钠含量、酒精含量和价格。
问题1:选择哪些变量进行聚类?——采用“R型聚类”
现在我们有四个变量来分类啤酒。有必要把四个变量都包括进来作为分类变量吗?热量、钠含量、酒精含量这三个指标都要经过化验员的辛苦测定,还是要花不少钱的。
因此,有必要降低四个变量的维数。这里,spss R型聚类(变量聚类)用于降低四个变量的维度。输出“相似矩阵”有助于我们理解降维的过程。
这四个分类变量是不同的。这一次,我们首先用相似度来衡量它们。选取皮尔逊系数作为度量标准,选取最远元素作为聚类方法。此时,涉及到相关性时,四个变量无需标准化,未来相似度矩阵中的数字就是相关系数。如果某两个变量的相关系数接近1或-1,则这两个变量可以互相替换。
只需输出“树形图”。从贴近度矩阵表可以看出,热量和酒精含量两个变量的相关系数为0.903,最大。你可以选择其中一个,没必要把它们作为聚类变量,导致成本增加。
至于选择两个变量中的哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或者测量的难易程度来决定。(不同于因子分析,完全踢出其中一个变量,实现降维。这里选择酒精含量。到目前为止,用于聚类的变量确定如下:酒精含量、钠含量和价格。
问题2:中国啤酒可以分为多少种?——采用“Q型聚类”
现在来20瓶啤酒。起初,我不确定它应该分为几类。目前,我将尝试3-5个类别范围。Q-cluster需要相同的维度,所以我们需要标准化数据。这一次,我们用欧几里德距离的平方来衡量。
通过主树形图和冰柱图了解类别。最终是分为4类还是3类,是一个复杂的过程,需要专业知识和最初的目的来鉴别。
在这里,尽量确定分为四类。选择“保存”,在数据区自动生成聚类结果。
问题3:用于聚类的变量对聚类过程和结果有贡献吗,有用吗?——使用“单因素方差分析”
在聚类分析中,除了类别的确定,还有一个关键问题,即分类变量是否对聚类有贡献。如果任何单个变量对分类没有影响,它们应该被消除。
这个过程一般用单向方差分析来判断。注意,此时因素变量被聚类成四类,三个聚类变量作为因变量处理。方差分析结果表明,三个聚类变量的sig值极显著,我们用于分类的三个变量对分类有影响,可以使用,作为聚类变量是合理的。
问题4:聚类结果的解释是什么?——使用“均值比较描述统计法”
聚类分析最后也是最难的一步是对分离出来的类别进行定义和解释,并描述每个类别的特征,即每个类别的特征描述。这需要专业知识作为基础和分析的目的。
我们可以用spss的均值比较过程或者excel的透视表功能来描述各类指标。报告报告用于描述聚类结果。类别是通过比较各种指标初步界定的,主要根据专业知识判断。就在这里。
以上过程涉及到spss层次聚类中的Q-cluster和R-cluster,单因素方差分析,均值过程等。,这是多种分析方法结合使用的一个很好的例子。
聚类分析的应用
商业上
聚类分析是市场细分的有效工具,用于发现不同的客户群体,通过刻画不同客户群体的特征来研究消费者行为,发现新的潜在市场。
吴尚
聚类分析用于对动物、植物和基因进行分类,从而获得种群内在结构的知识。
在保险行业
聚类分析可以通过平均消费来识别汽车保险保单持有人的群体,并根据住宅类型、价值和地理位置来识别城市中房地产的群体。
互联网应用
聚类分析用于对互联网上的文档进行分类。
电子商务
聚类分析通过分组对浏览行为相似的客户进行聚类,分析客户的共同特征,从而帮助电子商务企业了解客户,为客户提供更合适的服务。
社会阶层划分是怎么进行划分的
