朴素贝叶斯与贝叶斯信念网络1

preview
需积分: 0 1 下载量 200 浏览量 更新于2022-08-08 收藏 68KB DOCX 举报
朴素贝叶斯与贝叶斯信念网络 朴素贝叶斯分类是统计学分类方法,能够预测类成员关系的可能性,如给定样本属于一个特定类的概率。贝叶斯定理是就是在给定的数据概率来表示未知的后验概率。朴素贝叶斯分类的基本思路就是把、、……的概率都算出来,当有未知分类的样本时,就认为这个样本是后验概率最大的那个分类的。 朴素贝叶斯分类实际情况要比上面的那个例子复杂一些,因为一个事物的属性是多维的,一个水果的属性可能就要包括:颜色、形状、重量、体积……。实际上的分类可能是要算这样一个概率:如果属性相互独立,那么朴素贝叶斯的朴素之处在于不管属性独不独立,都按独立来算,这样可以使运算大大简化。 朴素贝叶斯的运算流程: 1. 每个数据样本用一个 n 维特征向量表示,描述由属性对样本的 n 个度量。 2. 假定有 m 个类。给定一个未知的数据样本 X(即,没有类标号),分类法将预测 X 属于具有最高后验概率(条件 X 下)的类。即,朴素贝叶斯分类将未知的样本分配给类 Ci,当且仅当:这样,我们最大化。 3.由于 P(X) 对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,。并据此对只最大化。否则,我们最大化。 4.给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值条件地相互独立。即,在属性间,不存在依赖关系。 5.为对未知样本 X 分类,对每个类 Ci,计算。样本 X 被指派到类 Ci,当且仅当:换言之,X 被指派到其最大的类 Ci。 贝叶斯信念网络朴素贝叶斯假定属性之间是独立的。贝叶斯信念网络说明联合概率分布,它提供一种因果关系的图形,可以在其上进行学习。信念网络由两部分定义。第一部分是有向无环图,其每个结点代表一个随机变量,而每条弧代表一个概率依赖。如果一条弧由结点 Y 到 Z,则 Y 是 Z 的双亲或直接前驱,而 Z 是 Y 的后继。第二部分是每个属性一个条件概率表(CPT)。 在贝叶斯信念网络中对应于属性或变量的任意元组的联合概率由下式计算: 贝叶斯信念网络的问题: 1、如果贝叶斯信念网络的网络结构和所有数值都是给定的,那么可以直接进行计算。但是,数据是隐藏的,比如上图中的 FamilyHistory/Somker 到 LungCancer 的条件概率是未知的,只是知道存在这样的依存关系,这时就需要进行条件概率的估算。梯度训练算法和 EM 算法常被用于处理此问题。 2、贝叶斯网络的数据结构可能是未知的,这时就需要根据已知数据启发式学习贝叶斯网络结构。K2 算法可用于解决此问题。 梯度训练算法梯度训练是用于解决信念网络中隐藏数据问题的,就是已知上图(a),但是不知道上图(b)。设 D 是 d 个训练样本的集合,是具有双亲= 的变量 = 的 CPT 项。例如,如果是上图(b)左上角的 CPT 项,则是 LungCancer;是其值“yes”; 列出的双亲结点{FamilyHistory, Smoker};而列出双亲结点的值{“yes”, “yes”}。可以看作权,类似于神经网络中隐藏单元的权。权的集合记作。梯度训练算法就是求出最为满足训练版本集的权的集合,用数学公式表示就是最大(就表示)。具体的算法: 1、就是对每一个取偏导数, 2、更新权值:沿梯度方向前进