本文共 2248 字,大约阅读时间需要 7 分钟。
一、相对熵
相对熵,又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等。 设p(x),q(x)是X中取值的两个概率分布, 则p对q的相对熵是:二、互信息
两个随机变量X,Y的互信息定义为X,Y的联合分布和独立分布乘积的相对熵。 三、信息增益 信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。 定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(DIA)之差,即: 显然,这即为训练数据集D和特征A的互信息。 四、概率公式 1、条件概率: 2、全概率公式: 3、贝叶斯公式:概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。
对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。 概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表示相互依赖关系。 概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表 示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。朴素贝叶斯(Naive Bayesian)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。
朴素贝叶斯可以看做是贝叶斯网络的特殊情况:即该网络中无边,各个节点都是独立的。朴素贝叶斯的两个假设:
贝叶斯公式:
朴素贝叶斯法对条件概率分布做了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯也由此得名!这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。朴素贝叶斯优点:
朴素贝叶斯缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。 朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是"很简单很天真"地假设样本特征彼此独立. 这个假设现实中基本上不存在, 但特征相关性很小的实际情况还是很多的, 所以这个模型仍然能够工作得很好。一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量,是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)",另一个是“果(children)",两节点就会产生一个条件概率值。
每个结点在给定其直接前驱时,条件独立于其非后继。 一个简单的贝叶斯网络 贝叶斯网络的3种结构形式: D-Separation:是一种用来判断变量是否条件独立的图形化方法。即对于一个有向无环图,D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。形式1:head-to-head
在c未知的条件下,a、b被阻断(blocked),是独立的,称之为head-to-head条件独立。形式2:tail-to-tail
在c给定的条件下,a,b被阻断(blocked),是独立的,称之为tail-to-tail条件独立。形式3:head-to-tail
在c给定的条件下,a、b被阻断(blocked),是独立的,称之为head-to-tail条件独立。 当前状态只跟上一状态有关,跟上上或上上之前的状态无关。这种顺次演变的随机过程,就叫做马尔科夫链(Markov chain)。有向图、无向图、条件随机场:
1.有向图模型(Directed Graphical Models, DGM),又称作贝叶斯网络: 2. 无向图模型(UndirectedGraphical Models, UGM), 又被称为马尔科夫随机场或者马尔科夫网络: 3. 设X=(X1,X2…Xn)和Y=(Y1,Y2…Ym)都是联合随机变量,若随机变量Y构成一个无向图 G=(V,E)表示的马尔科夫随机场(MRF),则条件概率分布P(Y|X)称为条件随机场(Conditional Random Field, CRF)。如下图所示为一个线性链条件随机场的无向图模型: 边缘分布:多维随机变量中,只包含其中部分变量的概率分布。转载地址:http://xrmwi.baihongyu.com/