概率图模型
置顶:概率图模型体系:HMM、MEMM、CRF https://zhuanlan.zhihu.com/p/33397147
有向图模型,又称作贝叶斯网络。
无向图模型,又被称为马尔科夫随机场或者马尔科夫网络。
6、讲到crf势函数的由来
http://web.science.mq.edu.au/~mjohnson/papers/CRF-intro-slides05.pdf
势函数 *** machine learning a probabilistic perspective p666
5、类似统计学习方法中的介绍
图模型(二)条件随机场(Conditional random field,CRF) https://www.cnblogs.com/Determined22/p/6915730.html
4、最大熵马尔科夫与crf区别
最大熵马尔科夫存在马尔科夫假设,认为当前隐含状态x只受前一个隐含状态和全部观测状态的影响。所以是局部最优。
而条件随机场是 当前隐含状态受其他所有隐含状态 和 全部观测序列的影响。是全局最优。
标注偏置:

3、概率建模。参考资料:https://share.weiyun.com/5Z9olps
NB: 对联合概率建模。有向图。条件概率正比于联合概率。联合概率使用条件独立性假设,变成单维度条件概率连乘。

HMM:序列联合概率建模。有向图。求的是y向量与输入向量x的联合概率。当前y只受隐变量和前一状态的影响。

ME:条件概率建模。无向图。(x,y)认为是最大团。通过最大化熵求条件概率。
熵:

熵最大:

模型的解:

可以看到是 线性的指数函数。此类又称为对数线性模型,即取对数后是一个线性模型。
对数线性模型包括逻辑回归、最大熵模型和条件随机场等
CRF:序列条件概率建模。
从《概率图模型:原理与技术》书中读到,说CRF是部分有向图(partially directed graph)。终于解决了我心中的困惑。各种资料都说是无向图。
而实际上general CRF是无向图。但是,我们目前应用的均是线性链CRF。
Y_i依赖Y_i-1 , Y_i依赖于X向量。
书中原话:条件随机场定义了Y关于X的一个条件分布,隐刺可以将其视为一个部分有向图,其中,Y上存在一个无向的分量,X中的变量是其父节点。
即两个φ(Y_t, Y_t-1), φ(Y_t, X) 势函数。
拆解成最大团,是所有最大团的势的连乘。
【无向图G中任何两个结点均有边连接的子集,称作G的团(Clique)。若C是G的一个团,并且不能再加入任何一个G的结点使其称为团,则C称作G的最大团(Maximal Clique)。】
【UGM(概率无向图)的联合分布可以表示成最大团上的随机变量的函数的乘积的形式;这个操作叫做UGM的因子分解(Factorization)。】


个人感悟: 为什么势函数使用指数函数?
因为概率无向图的因子分解,是对其全部最大团的乘积形式。使用指数函数,则对于要求解的参数变成了连加。
# 势函数



模型的解:特征函数的对数线性模型。



2、概率图模型之间关系


1、最大熵ME
最大熵学习笔记(零)目录和引言 https://blog.csdn.net/itplus/article/details/26550597
0、hmm的基本问题
