|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要:在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义
i7 b2 O8 p. p7 m0 B: X; N4 i4 C性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感: u! K+ g0 l2 m4 c3 _$ a
哈希(E2LSH)和显著图加权的目标分类方法。首先,引入 E2LSH 算法对训练图像集的特征点聚类生成一组视觉词
- D4 y- l( S) I3 J5 R4 m- A! }& z典,并提出一种弱监督策略对 E2LSH 中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然
7 Q& B. _2 ?+ p- c- m6 v后,利用 GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显
% a7 i* B* _. T% D! k/ m; E著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集 Caltech-256 和 Pascal VOC
, s9 C! N3 P: d# M& R# O' C2007 上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优5 k7 Z$ ~1 \" c! [2 J9 O8 j! @0 B
于当前主流方法。 ^4 z4 | m! F6 C! g M
关键词:目标分类;视觉词典模型;精确位置敏感哈希;视觉显著图;视觉语言模型7 {% e' `; Z a% M7 x" |/ p
1 引言
: R4 j# z5 A4 n! L( Q6 I+ A9 t {* |视觉词典模型(Bag of Visual Words Model, N t/ U* F' Y# w1 N: r
BoVWM)[1 4]的出现迈出了由图像底层特征向高层
e' ~- K+ {+ L: v5 p视觉语义过渡的第 1 步。由于其性能优越,在图像" W1 w) f2 w+ b- _! e* F3 j
5 \+ Z7 T; d6 W) E# s0 @9 g分类[5]等领域的应用十分广泛,然而,以下几个关键9 S2 {5 T6 p+ i" o" y
问题的存在却极大地限制了其性能。首先是词典生1 \8 {# Q9 H" f. T4 M- l
成效率低,当前主要的词典生成算法(如 K-Means[1]): g. a! c+ Y* E" {9 o6 O& {
在对特征点[6]聚类时都需要多次迭代高维近似近邻9 j" Y f) _% W- B; [
计算,随着数据量的增大时间效率会急剧下降。其
, C7 l6 `. _9 F/ G/ ], L2 h次是传统聚类算法的初始聚类中心大都是随机生成4 Y0 |$ G9 `/ ?/ ~4 Z
的,导致聚类结果对噪声的鲁棒性较差且容易引起
2 k+ P; b4 F* y视觉单词同义性和歧义性问题[7]。此外,传统的视觉
8 l; @4 ~1 O3 J2 i' o词典模型都面临视觉单词空间信息缺失的问题,极$ \2 B. a' `# S/ Y7 U' b% H# _7 q
大地降低了该模型的语义表达能力。
7 Y; O* T( Z$ u6 `1 @+ V/ W0 X$ T2 Q2 G! b+ a# l) t( c* G Q
& L& A; \$ v3 O& w; i0 y1 }
$ h7 V! k5 P/ B$ J/ R6 k+ W2 a1 _/ ~& q4 z& s' ?+ H
3 j7 J0 \, j# E附件下载:( F4 R {' |2 {: S
\% X3 W6 \! U, x
|
|