聚类半径的意思?聚类半径的确定?

来源:百度知道 编辑:UC知道 时间:2024/09/24 01:21:23
聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.
我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具体的还是抽象的?能否用数值关系表现出来?
最好举个例子!谢谢!
回答这个问题需要自己的理解。
不需要写太多,把问题解决就行,最好能说到点子上,谢谢各位的crl+c,ctrl+v了。
诚盼高手给与解疑!

1.聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。聚类分析的算法可以分为分裂法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。
2.一种新的聚类算法枣逐级均值聚类算法。该方法① 通过逐步增加聚类数目来逐层搜索初值中心点(本文中聚类数与层相对应,其含意显然)。考虑到在进行聚类分析时,总希望将一些特性相似的样本数据划分在同一类中,而它们在空间中的相互关系可以按照某些范数度量的大小关系来表征,逐级均值聚类的思想正是充分利用这些关系,选择相对分散在样本数据空间中的点为初始中心向量,它相当于取初值使得其接近最优解,从而避免局部最优,其基本思路是首先将所有数据看成一类,求出中心向量,然后逐步增加聚类数,寻找前一层中特性与各个中心差异最大的点,命名该点为“逐级点”,将该点和前一层的中心向量结合起来作为该层的初始中心向量,再对该层进行分析,计算新的中心向量;② 对空间内部的关系逐层分析,以便确定聚类数目。每层类与类之间的关系和类自身的关系可以通过某种范数来进行度量,随着数据空间不断地被细分,这种关系将发生变化,可以根据聚类分析的目的,制定某种准则来刻画它,一旦达到要求,就表示聚类完成,此时聚类数也便确定下来。
该算法的步骤和分析如下:
(1)初始化
定义要进行聚类分析的样本数据集合为:X={X1,X2,…,Xm},其中m为样本空间数