基于凝聚信息瓶颈的音频事件聚类方法

uqHZau · 发表于 2021-5-10 18:18

EDA365欢迎您登录！

您需要登录才可以下载或查看，没有帐号？注册

x

基于凝聚信息瓶颈的音频事件聚类方法

摘要:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出- -种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一-种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义，聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值) ,而且运算速度更快.

关键词:凝聚信息瓶颈; 音频事件聚类;音频内容分析

1引言
随着多媒体技术的发展，记录有各种音频事件的音频文档(影视剧音轨、智能手机录制的音频等),正迅猛增长.如何有效检测、辨识音频文档中的各类音频事件,受到越来越多的关注".目前主要采用两种处理方法: (1)有监督识别;(2)无监督聚类.前者首先从各个音频事件中提取特征参数,再通过训练好的分类器,例如隐马尔科夫模型( Hidden Markov Model , HMM)、高斯混合模型(Gaussian Mixture Model , GMM)、支持向量机( Support Vector Machine, SVM)、深度神经网络( Deep Neural Network,DNN)等,将各音频样本辨识为预先定义的类别.后者首先提取特征参数,但无需事先训练分类器,而是采用某种聚类算法将相同类别的音频段合并在一起,并分配-一个标签给各类别.
目前监督式识别音频事件的研究报道比较多.这些方法所采用的特征基本相同，例如梅尔频率倒谱系数( Mel-Frequency Cepstral Coefficients, MFCC)、感知线性预测( Perceptual Linear Prediction) 、过零率( Zero Crossing Rate)、基频( Pitch)等，或者上述特征的组合.它们的差异主要是采用不同分类器.采用DNN作为分类器的有lan McLoughlin'[2]、Oguzhan[3]等人提出的方

游客，如果您要查看本帖隐藏内容请回复

yin123 · 发表于 2021-5-10 19:01

基于凝聚信息瓶颈的音频事件聚类方法

帐号		自动登录	找回密码
密码			注册

[毕业设计] 基于凝聚信息瓶颈的音频事件聚类方法

EDA365欢迎您登录！

推荐内容 /1