[关闭]
@Agathe-Zhu 2015-08-30T10:19:00.000000Z 字数 2208 阅读 1404

Week4_Bioinformatics

MOOC Bioinformatics


Markov Chain

Introduction to Markov chain

序列比对时的状态变化

在序列分析时,需要对gap open 和gap extending分别进行空位罚分,因此需要记住前一个位子的状态,即是否已经是一个空位。

对具体一个空位来说,有具体一下三种可能的状态:
- M: 残基相对(不一定相同)
- X: X链上残基与空位相对
- Y: y链上残基与空位相对

我们可以讲序列对比叙述成在不同状态之间的转换:
- M(i,j): Xi比对到Yj时,序列的最佳比对途径分数
- X(i,j): X(i,j)与空位相对时,序列的最佳比对途径分数
- Y(i,j): Y(i,j)与空位相对时,序列的最佳比对途径分数

Markov Chain

n阶马尔科夫链

Markov Chain describe a discrete stochastic(ramdon) process at successive times. The transitions from one state to all other states, including itself, are governed by a probability distribution.

用于描述一组离散的状态之间的转移关系(不需唯一缺点,能用概率分布描述即可)

唯一的要求:
t时刻的状态分布,由且只由之前有限的n个时刻状态的概率分布确定 ==> n阶马尔科夫链

P(Xt|X1...Xt1)=P(Xi|Xtn...Xt1)
Xt=P(Xt1,Xt2...Xtn)

1阶马尔科夫链

P(Xt) 与且只与P(Xt1) 相关

转移概率

a(kl) t时刻从k状态到l状态的概率

a(kl)=P(Xt=Sl|Xt1=Sk)
a(lk)=P(Xt=Sk|Xt1=Sl)
上述两者不一定相等

转移矩阵(沿对角线不对称)

假定转移的概率与t无关==>齐次马尔科夫链

假定:
gap openning的概率为δ
gap extending的概率是ϵ
根据全概率公式可以推出:
gap结束(从X或Y到M)概率为1ϵ
非空位延续的概率是12δ

所以转移矩阵是:

- M X Y
M 12δ ϵ ϵ
X 1ϵ ϵ 0
M 1ϵ 0 ϵ

根据乘法概率:

X L S P _
Y _ T P E

所以上面的状态是X-->M-->M-->Y,则:
P(XMMY)=(1ϵ)(12δ)ϵ

隐形马尔科夫链(Hidden Markov Chain)

The observable symbols ("Token",y(t)) are generated according to their corresponding states(x(t))

即我们无法观测到具体的state path,但是可以观测其每一步的对应符号("Token path"),所以每一步的概率应该是:
Transition Probability + Emission Probability

根据Token path:
akl=P(Xt=Sl|Xt1=Sk)
ek(b)=P(yi=b|Xi=Sk) 从状态Sk产生b的概率
从状态路径x产生观测符号Y的概率:
P(X,Y)=Π(L,i=1)(exi(yi)×axi,xi+1)

假定:
Match,所有可能的残基取代,概率为Pab
Xinsertion,空位对所有可能的残基,概率为qa
Yinsertion,空位对所有可能的残基,概率为qa

PM(i,j)两残基相对,在x链上从第一位到Xi,在y链上从第一位到Yj最大的概率
PX(i,j),x链上的残基对空位,在x链上从第一位到Xi,在y链上从第一位到Yj最大的概率

根据状态转换率,定义迭代函数:
P(X,Y,ali)=max(PM(n,m),PX(n,m),PY(n,m))

Probability Interpretation

ϵ,在生物演化过程中发生序列插入或替换的概率

Hidden Markov Chain --> A Pridictor

Predictor of Hidden Markov Chain

Most simple Gene Prediction

给定的DNA序列推测不可观察的 Hidden state: Coding / Non-Coding

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注