|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
基于凝聚信息瓶颈的音频事件聚类方法 - m& G6 v: P: y0 ^
摘要:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出- -种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一-种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值) ,而且运算速度更快.
B' w) O- m& J. Q, @' n' N' I c( M/ H
关键词:凝聚信息瓶颈; 音频事件聚类;音频内容分析
0 `/ G3 M @0 G9 o9 |2 o
& H& J6 r1 q4 g# u. B1引言
! D3 V/ \7 \5 r5 R6 B随着多媒体技术的发展,记录有各种音频事件的音频文档(影视剧音轨、智能手机录制的音频等),正迅猛增长.如何有效检测、辨识音频文档中的各类音频事件,受到越来越多的关注".目前主要采用两种处理方法: (1)有监督识别;(2)无监督聚类.前者首先从各个音频事件中提取特征参数,再通过训练好的分类器,例如隐马尔科夫模型( Hidden Markov Model , HMM)、高斯混合模型(Gaussian Mixture Model , GMM)、支持向量机( Support Vector Machine, SVM)、深度神经网络( Deep Neural Network,DNN)等,将各音频样本辨识为预先定义的类别.后者首先提取特征参数,但无需事先训练分类器,而是采用某种聚类算法将相同类别的音频段合并在一起,并分配-一个标签给各类别.
: R( `7 D6 L. A& U目前监督式识别音频事件的研究报道比较多.这些方法所采用的特征基本相同,例如梅尔频率倒谱系数( Mel-Frequency Cepstral Coefficients, MFCC)、 感知线性预测( Perceptual Linear Prediction) 、过零率( Zero Crossing Rate)、基频( Pitch)等,或者上述特征的组合.它们的差异主要是采用不同分类器.采用DNN作为分类器的有lan McLoughlin'[2]、Oguzhan[3]等人提出的方! I! D" l9 l# K& V/ m
0 ]) ]- V% V3 @8 E7 m+ R5 ]
7 [7 l" h7 A* n: O3 G% O# i
$ W( Y& u$ U1 o! r* n
+ x# ]6 M+ H& f( @ p: g |
|