TA的每日心情 | 奋斗 2020-9-8 15:12 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及 特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态 演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新 旧概念的过渡.利用改进的隐含 Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征 的裁剪问题.在公开的语料库 CCERT和 Trec06上的测试实验证明了所提出算法的有效性. 0 }7 J( g& z1 P W C, K
, M7 g/ ~# N1 I6 `9 T; I关键词: 概念漂移;LDA模型;特征项分布;信息熵
6 C1 |, \3 f1 R2 Z& A( m9 [) Q2 k1 I* \/ G
: u: J+ {+ c- N2 ~
* l! Q* U2 ^: r4 @( K 近年来,随着信息技术的高速发展,数据流作为承 载信息的重要媒介受到越来越广泛的关注,其与生俱有 的实时性、随机性、多样性和开放性等特点,为数据的分 析带来极大挑战[1].概念漂移(conceptdrift)是大规模数 据流中存在的普遍现象,它是指随着时间的推移,数据 流内部发生动态变化,使得原有训练数据与应用数据发 生不匹配的现象.概念漂移问题的提出为数据流的优化 决策提供了一条有效的途径,其相关研究在搜索引擎, 入侵检测,网络安全等领域得到了较多的关注[2~4]。
8 S- |6 i% S$ Q, P3 B
) N9 G( a. I# I( P' M7 v, k, z+ t
# b. {3 u) f! h) H附件下载:* k o. G' @0 g6 `, f9 j
|
|