|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘要:密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率.最后,本文在云计算平台上对DP-z算法进行了验证,实验表明在保证DP-z算法与原始密度峰值聚类算法聚类结果相同的情况下有效的提高了算法执行效率.8 _' r5 d1 o0 G5 E7 l1 l0 P ~
关键词:聚类;分布式计算;云计算;z填充曲线;密度峰值, M( s# v3 E% a9 [& K
: e/ ]' _' e1 Z' o$ A5 k& O 聚类分析是数据挖掘和模式识别等领域广为研究的问题之一.它将数据库中的数据分割成不同的族(类) ,并使族内数据之间的相似性比族间数据之间的相似性大.大量聚类分析算法在社会网络分析﹑统计数据分析、智能商务、图像模式识别、Web搜索等领域得到广泛应用.7 Z: F$ A F+ U0 K+ F8 y! E2 S
; f$ z8 A! R0 X$ L; l, W- i
3 f* u: Z1 V j+ G7 P
7 `& \( [+ L0 w) m7 K9 x/ V% w; Z( t9 y/ b: C/ [" W
/ K) C$ G' G# U8 u1 l' f$ _, Z/ V# ^' O0 h9 ?- n$ B# X
( n! ?4 o$ {, F/ U& _ |
|