本站联系方式
   联系QQ  :1095080675
   联系QQ  :1223950575
  技术指导:1353934434
  
  电子邮箱:1095080675@qq.com
标题  基于相关系数的加权朴素贝叶斯分类算法
编号  22102
资料明细  学术论文
推荐指数  ★★★★★
论文内容

数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样本 ,产生关于类别的精确 描述· 分类的目的是构造一个分类模型(也常常称作分类器) ,该模型能把数据库中的数据项映射到 给定类别中的某一个· 分类技术解决问题的关键是构造分类器·
在众多分类方法和理论中 ,朴素贝叶斯(naive Bayes , NB)由于计算高效、精确度高,并具有坚实的理论基础而得到了广泛应用·朴素贝 叶斯分类基于一个简单的假定: 在给定分类特征条件下属性值之间是相互独立的·在现实世界 中 ,这种独立性假设经常是不满足的·因此 ,针对朴素贝叶斯分类的不足之处 ,许多学者学习研究贝叶斯网络(Bayes network) 来改进其分类性能·贝叶斯信念网络能够表达联合条件概率分布 ,允许在变量的子集间定义类条件独立性 ,它提供一种因果关系的图形 ,可以在其上进行学习· 然而文献[5 ]已证明 ,要学习得到一个最优贝叶斯网络是个 NP2hard问题·如何既能保持朴素贝叶 斯计算的简单性 ,又可以提高其分类性能呢?Harry等提出了加权朴素贝叶斯(weighted naiveBayes , WNB)分类模型[6 ] ,该模型根据条件属性对决策所起的作用赋给它们不同的权重 ,相比于贝叶斯网络 ,该方法更加简单可行·文献[ 6 ]分别 给出了采用信息增益、 爬山算法以及 Monte Carlo技术确定属性权值的方法 ,在此基础上 ,文献[ 7 ]又给出了基于粗糙集的属性权重求解方法·实验 发现以上的加权朴素贝叶斯分类算法能够提高分类性能 ,但改进的效果并不显著

相关系数是用来测定变量间相关关系程度及方向的统计指标· 对分类而言 ,条件属性和决策属性之间的相关程度越高 ,条件属性对分类 的重要性应越大· 因此本文针对加权贝叶斯分类模型提出了基于相关系数的权重求解方法 ,并对 算法原理进行了论证· 为了比较算法效果 ,本文对基于相关系数的加权贝叶斯分类(WNB2CC) 、 基 于爬山算法的加权贝叶斯分类(WNB2HC)和朴素贝叶斯分类(NB) 进行了 AUC测试 ,实验表 明 ,该算法要比文献[6 ]提出的方法更有效地提高朴素贝叶斯的分类性能·
1   加权朴素贝叶斯分类模型

说明
 以上是论文部分内容。如果对以上内容感兴趣,可以QQ:1095080675或邮件1095080675@qq.com继续联系我们。
  • 上一篇:基于中间件的NAT与IPSEC兼容性问题的研究
  • 下一篇:一种混合式P2P文件共享与检索模型