@Agathe-Zhu
2015-08-30T10:19:00.000000Z
字数 2208
阅读 1404
MOOC Bioinformatics
在序列分析时,需要对gap open 和gap extending分别进行空位罚分,因此需要记住前一个位子的状态,即是否已经是一个空位。
对具体一个空位来说,有具体一下三种可能的状态:
- M: 残基相对(不一定相同)
- X: X链上残基与空位相对
- Y: y链上残基与空位相对
我们可以讲序列对比叙述成在不同状态之间的转换:
- M(i,j): Xi比对到Yj时,序列的最佳比对途径分数
- X(i,j): X(i,j)与空位相对时,序列的最佳比对途径分数
- Y(i,j): Y(i,j)与空位相对时,序列的最佳比对途径分数
Markov Chain describe a discrete stochastic(ramdon) process at successive times. The transitions from one state to all other states, including itself, are governed by a probability distribution.
用于描述一组离散的状态之间的转移关系(不需唯一缺点,能用概率分布描述即可)
唯一的要求:
t时刻的状态分布,由且只由之前有限的n个时刻状态的概率分布确定 ==> n阶马尔科夫链
上述两者不一定相等
假定转移的概率与t无关==>齐次马尔科夫链
假定:
gap openning的概率为
gap extending的概率是
根据全概率公式可以推出:
gap结束(从X或Y到M)概率为
非空位延续的概率是
所以转移矩阵是:
| - | M | X | Y |
|---|---|---|---|
| M | |||
| X | 0 | ||
| M | 0 |
根据乘法概率:
| X | L | S | P | _ |
|---|---|---|---|---|
| Y | _ | T | P | E |
所以上面的状态是X-->M-->M-->Y,则:
The observable symbols ("Token",y(t)) are generated according to their corresponding states(x(t))
即我们无法观测到具体的state path,但是可以观测其每一步的对应符号("Token path"),所以每一步的概率应该是:
Transition Probability + Emission Probability
根据Token path:
从状态路径x产生观测符号Y的概率:
假定:
Match,所有可能的残基取代,概率为
根据状态转换率,定义迭代函数:
Hidden Markov Chain --> A Pridictor
Most simple Gene Prediction
给定的DNA序列推测不可观察的 Hidden state: Coding / Non-Coding