本站联系方式
   联系QQ  :1095080675
   联系QQ  :1223950575
  技术指导:1353934434
  
  电子邮箱:1095080675@qq.com
标题  SVDD在类别不平衡学习中的应用研究
编号  22100
资料明细  学术论文
推荐指数  ★★★★★
论文内容

在机器学习的实际应用中经常会出现样本实例中一些类的实例很多 ,而另一些类实例很少的情况 , 但这些应用往往就是为了预测这些很少出现却很重要的少数类 ,这就是模式分类中的数据类别不平衡 问题.数据类别不平衡问题普遍存在于各种领域 ,如金融欺诈检测中 ,可能 10万起信用卡交易中只有一 起是欺诈;反垃圾邮件处理中遇到的大部分是有意义的邮件 ,垃圾邮件只是少数;故障监视中 ,很容易 获取大量正常实例 ,但异常实例就很难获得.传统的机器学习技术通常以分类精度作为评价目标 ,解决 不平衡问题时倾向于忽视少数类数据,因为把任何一个新样本预测为大类就已经可以获得很高的预 测精度.可见采用分类精度作为评价准则不适用于数据不平衡情况下的机器学习.类别不平衡学习正 受到越来越广泛的关注. AAA I分别在 2000年和2003年举办两届研讨会,专题讨论不平衡学习问题.这两届研讨会可以看作是这一问题引起全面 关注的标志.
解决数据不平衡问题已有的方法可大致分为处理实例学习、 集成学习以及代价敏感学习 3类.不平 衡问题解决方法中通常假定少数类为正类( + ) ,多数类为反类 ( - ) .处理实例是对训练集中的实例进 行处理使之变得平衡 ,可以通过对反类的欠取样、 对正类的过取样、 压缩反类、 人造正类实例、 复制正类实例等方法实现.数目上的平衡并不能从本质上解决数据不平衡问题 ,处理实例方法往往导致信 息的丢失、 过拟合等现象. 集成学习 ( ensemblelearning)中的 AdaBoost是一种应用于不平衡类别学 习的效果较好的方法.把集成学习应用于解决类别不平衡问题时可以有 2种基本思路:一是使用对 不平衡类别有很好适应性的基分类器 ,而综合算法不变;二是使用传统分类器 ,通过修改综合算法使最 终得到的分类器能够适应类别不平衡问题.集成学习和传统的机器学习方法一样 ,是以分类精度作为 学习目标 ,用来解决不平衡问题时经常以损失少类样本的精度来获得高的分类精度 ,与解决不平衡问 题的思路相违背.代价敏感学习是解决不平衡类别的另一种流行的解决方法.通过将小样本赋予高于 大样本的错分代价 ,期望以此来平衡样本之间的差异. Veropoul os等对正类和反类赋予不同的代价 , 作为 SVM的惩罚因子. Raskutti等人进一步改进了 Veropoul os的代价选取方式. Ting等用 cost2 boosting增强 C4 . 5的性能 ,在 Boosting的权值更新过程中考虑了代价.本文提出的算法也是基于对 不同样本赋予不同权值的思想提出来的.
本文采用单类分类器支持向量描述 ( SVDD support vect or date descri p ti on)来解决不平衡学习问 题. SVDD是解决单类问题的一种方法 ,通常单类学习器只对一类样本进行学习.本文提出的算法将样 本数量的不平衡信息与测试样本分布信息统一起来进行样本权值调整. 实验证明 ,本文中改进后的 SVDD算法与 Tax . D. M. J提出的带野值的 SVDD算法相比 ,性能大大提高;与处理实例、 集成学习等类 别不平衡问题解决方法相比 ,既提高了少数类样本分类精度 ,还保证了全样本的高分类精度 ,更符合现实不平衡问题的处理要求.
1  基于不平衡学习的 SVDD算法
Tax . D. M. J建立了支持向量数据描述(SVDD)算法 ,适用于解决极端的不平衡学习即单分类学习 问题.该算法利用高斯核函数把样本空间映射到核空间 ,在核空间找到一个能够包含所有训练数据的 球体.当判别时 ,如果测试样本位于这个高维球体中 ,就认为正常 ,否则认为异常 ,球面上的样本点 即为 SVDD所求得的支持向量.由于支持向量的个数是稀疏的 ,因此计算量相应减少. Tax . D. M. J为 了增强算法的鲁棒性 ,在单类样本中增加了野值点.带野值点的 SVDD基本思想是:在经过核映射的高 维空间里构造一个包含目标训练样本的球体 ,而野值点排除在球外.关于 SVDD算法在此不详述 ,请参 考文献 [ 10 ]. 为了将单分类学习器进一步推广 ,本文对带野值的 SVDD进行改进 ,设计了适用于不平 衡学习的 I2 SVDD算法. 文献 [ 12 ]从代价敏感的角度对 SVDD算法进行了改进 ,用来解决不平衡问题, 但该方法通过人工给实例加噪 ,根据噪声大小确定代价 ,这种改进的方式没有考虑不平衡问题的特征, 性能提高有限. KiYoung Lee通过增加样本密度来改进 SVDD算法 ,但该方法也不适合类别不平衡问题 的解决.在不平衡学习中 ,由于少数类样本的珍贵 ,误分代价远大于多数类样本的误分代价 ,因此本 文更强调少数类样本的分类精度.在这种考虑下,本文试图在核空间中找到一个包围少数类样本的球 体 ,将多数类样本排除在球外 ,给少数类样本误识的惩罚远大于多数类样本的误识惩罚.

说明
 以上是论文部分内容。如果对以上内容感兴趣,可以QQ:1095080675或邮件1095080675@qq.com继续联系我们。
  • 上一篇:基于存储空间的P2P激励机制的研究
  • 下一篇:基于中间件的NAT与IPSEC兼容性问题的研究