|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
打开Matlab输入doc dendrogram,可以发现如下描述:
p7 s+ |$ p1 P% _/ a& v3 X8 q+ v: E' l, m$ }' `! U' {
* _) e) L) G7 g) N1 O4 K
y0 T7 I# E3 i- dendrogram(tree) generates a dendrogram plot of the hierarchical binary cluster tree. A dendrogram consists of many U-shaped lines that connect data points in a hierarchical tree. The height of each U represents the distance between the two data points being connected.
- If there are 30 or fewer data points in the original data set, then each leaf in the dendrogram corresponds to one data point.
- If there are more than 30 data points, then dendrogram collapses lower branches so that there are 30 leaf nodes. As a result, some leaves in the plot correspond to more than one data point.5 K9 U- h1 g7 G2 r
) b2 K2 P: [* P @: M
) v4 x6 Z+ H, \- G4 r% A9 Q根据参考文献的思路,可能下面的说法更加好理解一些。
9 U; C# U2 j; x4 g
* `0 c, ~0 \- k 在教材P301页( Q( |. L; T3 W5 w9 `. `: x5 w
1)H=dendrogram(Z)
2 U3 J. v5 o( M2 m! `% C4 R" s 有这么一句话,“当原始数据中观测数多于30个时,整个树形图会显得比较拥挤,可能会忽略某些底层节点,也就是说此时树形图中的某个叶节点可能对应多个观测。”) z6 y$ x8 |" m" x$ }
请问,可能会忽略某些底层节点是什么意思啊?某个叶节点可能对应多个观测又是什么意思呢?3 o- B' C1 g' L
还有这里的底层节点和叶节点分别是什么意思啊?
1 c% W; U! q2 U2)H=dendrogram(Z,P)$ S# u. K' A) H
若P为正整数,并且原始数据中的观测数多于P个时,将忽略某些底层节点,使得树形图的叶节点不多于P个。若P为0,则显示全部节点,此时树形图可能会显得比较拥挤。
: J/ I" i4 f+ w4 C- ` l6 S+ B$ g5 ]' H
聚类树形图上显示(注意是显示出来的)的最底层称为叶节点,当观测数目不太多时,聚类树形图能显示所有观测,此时叶节点就是各个观测;当观测过多时,聚类树形图无法显示所有观测点,也就是说某些细节会被掩盖,换句话说就是某些细小的树枝(由某些观测构成的一个小树枝)会显示为一个叶节点,此时某个叶节点可能对应多个观测。 |/ H( g( N& M: J* i- @
6 z& i! Y- N: [" A8 N& h# C; ?
( [( h) f4 ~3 E/ E/ @3 o. }, |7 e2 K2 g% R2 L: X! h/ h3 v
|
|