高维数据对象聚类算法效果分析(2)

来源:网络(转载) 作者:郝媛 高学东 孟海东 发表于:2012-05-08 13:18  点击:
【关健词】高维数据;聚类效果;复相关系数;降维
4.1 复相关系数倒数加权 复相关系数的倒数赋权法是在方差倒数赋权法的基础上提出来的。假设数据对象的某一属性为Xk,则它的复相关系数记为k。k越大,表明Xk与其余的属性越相关,越能被非Xk代替,也就是说Xk属性

  4.1 复相关系数倒数加权
  复相关系数的倒数赋权法是在方差倒数赋权法的基础上提出来的。假设数据对象的某一属性为Xk,则它的复相关系数记为ρk。ρk越大,表明Xk与其余的属性越相关,越能被非Xk代替,也就是说Xk属性对聚类的作用越小;反之,ρk越小,Xk与其余的属性越不相关,Xk属性对聚类的作用越大。所以可以用|ρi|-1计算数据对象属性权重系数wk。
  4.2 降维实验
   我们也可以采用复相关系数的倒数赋权法作为一种特征选择方法,对数据集中数据对象的每个属性加权后,得到了每个属性的权值,然后根据权值的大小,我们设定一个阈值参数σ,选择权值大于σ的属性,从而实现了对数据集的降维,然后对降维后数据集进行聚类。为了说明此方法的有效性,采用k-means算法、层次聚类算法、CADD (基于密度和密度可达聚类算法)算法对WDBC数据集和SPECT Heart数据集进行聚类,来对比降维前和降维后的结果。  WDBC数据集有30个属性,取权值σ≥0.036时,该数据集降为3维;取权值大于0.034时,该数据集降为6维;取权值大于0.033时,该数据集降为15维。降为3维、6维、15维的数据集和原数据集的聚类精度如图6所示,实验结果表明该数据集降为6维时聚类效果最好。
  SPECT Heart数据集有44个属性,取权值大于0.024时,该数据集降为5维;取权值大于0.023时,该数据集降为18维;取权值大于0.022时,该数据集降为28维。降为5维、18维、28维的数据集和原数据集的聚类精度如图7所示,实验结果表明该数据集降为18维时聚类效果最好。
  Libras Movement数据集有90个属性,取权值大于0.011 113时,该数据集降为10维;取权值大于0.011 111时,该数据集降为34维;取权值大于0.011 110时,该数据集降为47维。降为10维、34维、47维的数据集和原数据集的聚类精度如图8所示。实验结果表明聚类算法对该数据集的聚类效果较差,原因是此数据集包含15个类,类比较多,聚类算法不能很好地识别,但是该数据集降为47维时聚类效果有所提高,仍能体现出本文降维方法的有效性,CADD算法的聚类效果相对好一些,从而体现了CADD算法的优越性。
  由以上实验结果表明:①采用复相关系数的倒数赋权法作为一种属性选择方法是有效的,并且计算量较小,适合处理高维数据;②降维要降到合适的维度,如果维数太少,则会丢失对聚类重要的属性信息,如果维数太多,则会产生“噪声”,影响聚类结果;③一般的聚类算法不能很好地处理高维且类比较多的数据集,因此有待于进一步研究能处理高维且类比较多的数据集的聚类算法。
  5 结 论
  对于传统的基于距离的聚类算法,当数据对象的维数小于或等于30时,聚类分析往往能够取得良好的聚类效果;维数高于30时,聚类效果不佳。甚至使用PCA降维后,聚类算法对高维数据的聚类效果的改进也不是很明显。用复相关系数的倒数赋权法为差异度加权,并且把复相关系数的倒数赋权法用作一种属性选择方法,通过设定属性加权系数的阈值参数对数据对象进行降维也能取得较好的聚类结果。
  
  主要参考文献
  
  [1]冯永,吴开贵,熊忠阳,等.一种有效的并行高维聚类算法[J].计算机科学,2005,32(3):216-218.
  [2]王永卿.高维海量数据聚类算法研究[D].南宁:广西大学,2007.
  [3][加]Jiawei Han,[加] Micheline Kamber. 数据挖掘概念与技术[M].北京:机械工业出版社,2001.
  [4]G Govaert.Simultaneous Clustering of Rows and Columns[J]. Control and Cyberyretics,1995,24(4):437-458.
  [5]Inderjit S Dhillon. Co-clustering Documents and Words Using Bipartite Spectral Graph Partitioning[C]//Proceedings and the 7th ACM SIGKDD, New York,NY,2001.
  [6]Shigeru Oyanagi,Kazuto Kubota,Ahihiko Nakase. Application of Matrix Clustering to Web Log Analysis and Access Prediction[C]//7th ACM SIGKDD, San Francisco,CA,2001.
  [7]宋宇辰,张玉英,孟海东.一种基于加权欧氏距离聚类方法的研究[J].计算机工程与应用,2007,43(4):179-180.
  [8]孟海东,宋飞燕,宋宇辰.面向复杂簇的聚类算法研究与实现[J].计算机应用与软件,2008,25(10):32-34.

 

(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.