|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
( c m1 X5 S3 @! I, t
摘要:针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.! t2 z' ]+ N; d. Z" l) ~) ]) o7 p8 t
; O% @9 b2 d4 B1 r
关键词:文本分类;垃圾邮件检测;主动学习;否定选择;双向用户兴趣集, ?# W; |/ W' d' k+ C
) H% \% E: u5 i- y
4 ^% ?2 [% H0 u9 }; ~! t" U
随着互联网的发展,邮件、微信﹑QQ等网络通信设施已成为人们平时交流的必备方式.而种类繁多的垃圾邮件和信息却时时困扰用户,如何高效检测出这些垃圾信息成为研究热点.目前垃圾邮件识别的研究现状是 1)由于专家标注的经济代价太大,且无法对大规模问题进行有效标注,无标记样本数据数量巨大且容易获取;(2)现有解决方法中的传统机器学习算法,尤其是有监督学习算法,必须大量标记样本数据,否则泛化性能较低;( 3)对于垃圾邮件过滤问题,用户的个人喜好对分类结果影响较大;(4)在线进行人工样本标注时,专家无法直接选择最佳标注时机.在这种情况下,主动学习(Active Learning ,AL)方法成为解决上述问题的主流技术.+ r+ @% R ?' z% a$ W
6 @: `, r8 W; q) _' M
2 G/ m, H: `$ `
基于主动学习和否定选择的垃圾邮件分类算法.pdf
(4.35 MB, 下载次数: 0)
) b/ J( h R( \- @
9 Z6 u: L9 s! c/ j. f- a7 A* ^( P% d7 d* g% p/ G' B p
0 a* ~! O) @$ F5 j( c
|
|