找回密码
 注册
关于网站域名变更的通知
查看: 711|回复: 1
打印 上一主题 下一主题

[毕业设计] 基于凝聚信息瓶颈的音频事件聚类方法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-5-10 18:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
基于凝聚信息瓶颈的音频事件聚类方法
: D) x/ c! r& H- ?
摘要:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出- -种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一-种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值) ,而且运算速度更快.
4 X6 |- u& V1 p/ c" e! Q7 o/ r
' X, l$ B/ k+ Y关键词:凝聚信息瓶颈; 音频事件聚类;音频内容分析
6 c& g% |0 A/ V! [
8 g3 ]2 n7 e1 _1 b3 {5 S) y' b1引言
! T: p, ?+ C. d! k$ S( b随着多媒体技术的发展,记录有各种音频事件的音频文档(影视剧音轨、智能手机录制的音频等),正迅猛增长.如何有效检测、辨识音频文档中的各类音频事件,受到越来越多的关注".目前主要采用两种处理方法: (1)有监督识别;(2)无监督聚类.前者首先从各个音频事件中提取特征参数,再通过训练好的分类器,例如隐马尔科夫模型( Hidden Markov Model , HMM)、高斯混合模型(Gaussian Mixture Model , GMM)、支持向量机( Support Vector Machine, SVM)、深度神经网络( Deep Neural Network,DNN)等,将各音频样本辨识为预先定义的类别.后者首先提取特征参数,但无需事先训练分类器,而是采用某种聚类算法将相同类别的音频段合并在一起,并分配-一个标签给各类别.
. B/ b( n7 [$ t) G  S" `: N4 O目前监督式识别音频事件的研究报道比较多.这些方法所采用的特征基本相同,例如梅尔频率倒谱系数( Mel-Frequency Cepstral Coefficients, MFCC)、 感知线性预测( Perceptual Linear Prediction) 、过零率( Zero Crossing Rate)、基频( Pitch)等,或者上述特征的组合.它们的差异主要是采用不同分类器.采用DNN作为分类器的有lan McLoughlin'[2]、Oguzhan[3]等人提出的方- K( b8 ?$ e9 H8 f

, V7 b: b5 t9 {
游客,如果您要查看本帖隐藏内容请回复
* s# k- c& K4 J9 j' X$ d% V7 W3 M

& z/ ?/ ]0 b9 q  p" s3 \7 n0 [3 X+ [% r9 s% A( S
  • TA的每日心情

    2019-11-29 15:37
  • 签到天数: 1 天

    [LV.1]初来乍到

    2#
    发表于 2021-5-10 19:01 | 只看该作者
    基于凝聚信息瓶颈的音频事件聚类方法
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-8-14 11:26 , Processed in 0.156250 second(s), 26 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表