@Emptyset 2015-07-16T12:13:35.000000Z 字数 2489 阅读 3176

概率论札记 - 2 - 用贝叶斯定理来讨论“医疗诊断的可靠性到底有多少”

概率论札记

只有愚蠢的人才会相信眼睛看到的。
——安·兰德

故事要从一道贝叶斯定理的简单习题讲起。大意是艾滋病患病率为万分之一，误诊率为5%，患有艾滋病者被诊断出来的概率为99%，请问在这样的设定下如果你被诊断为艾滋病阳性，那么你患艾滋病的概率是多少，原题如下——

Problem Denoted blood is screened for AIDS. Suppose the test has 99% accuracy, and that one in ten thousand people in your age group are HIV positive. The test has a 5% false positive rating, as well. Suppose the test screens you as positive. What is the probability you have AIDS? Is it 99%?

Solution: E_1="test positive", E_2="test negative". A_1="You have AIDS", A_2="You don't have AIDS". Now we know $P(E_1|A_1)=99\%$ , we need to find $P(A_1|E_1)$ . Since "one in ten thousand people in your age group are HIV positive", $P(A_1)=1/10000$ ."5% false positive rating" means $P(E_1|A_2)=5\%$ . By Bayes' Theorem

$P (A 1 | E 1) = = \approx P ( E 1 | A 1 ) P ( A 1 ) P ( E 1 | A 1 ) P ( A 1 ) + P ( E 1 | A 2 ) P ( A 2 ) 99 % \times 1 10000 99 % \times 1 10000 + 5 % \times 9999 10000 0.198 %$ $\begin{eqnarray*} P(A_1|E_1) &=& \frac{P(E_1|A_1)P(A_1)}{P(E_1|A_1)P(A_1)+P(E_1|A_2)P(A_2)} \\ &=& \frac{99\%\times\frac{1}{10000}}{99\%\times \frac{1}{10000}+5\%\times\frac{9999}{10000}} \\ &\approx& 0.198\% \end{eqnarray*}$

Note: 是不是看起来结论很不可思议？细细想来就知道是合理的，原因在于 $5\%$ 的false positive rating实在是有点高。粗略估计一下，9999个非艾滋病患者里大约会有500个被查出来有艾滋病，而实际上10000个人里大约1个，这个人有99%可能性会被查出来，也就是说这501个人里大约只有一个真正的艾滋病患者。所以在这个故事里，就算被查出了艾滋阳性，患有艾滋病的几率依然只有千分之二左右。

讨论：联想到实际医疗中的误诊，逻辑上说，误诊可以简单分为两种——没病的看成有病了，或者有病的没有看出来。如果我们简单把前者定义为误诊，即定义误诊为“把没病的诊断成有病”，那么上面这道题目其实是在计算艾滋病诊断成阳性的可靠性，而题目中的误诊率是 $5\%$ ，这样大的误诊率居然将诊断的可靠性降到了一个极小的数字——千分之二。我们如果将模型简化，假设“有某病且能诊断出来”的概率固定为99%，那么很显然诊断的可靠性主要由两个数据决定——(1)误诊率： $P(E_1|A_2)$ 。(2)发病率： $P(A_1)$
（1）让我们把 $P(E_1|A_2)$ 调节得更小一点，比如万分之一，那么 $P(A_1|E_1)$ 就会变成

P (A 1 | E 1) = = \approx P ( E 1 | A 1 ) P ( A 1 ) P ( E 1 | A 1 ) P ( A 1 ) + P ( E 1 | A 2 ) P ( A 2 ) 99 % \times 1 10000 99 % \times 1 10000 + 1 10000 \times 9999 10000 49.8 %

$\begin{eqnarray*} P(A_1|E_1) &=& \frac{P(E_1|A_1)P(A_1)}{P(E_1|A_1)P(A_1)+P(E_1|A_2)P(A_2)} \\ &=& \frac{99\%\times\frac{1}{10000}}{99\%\times \frac{1}{10000}+\frac{1}{10000}\times\frac{9999}{10000}} \\ &\approx& 49.8\% \end{eqnarray*}$
也就是说对于一个发病率为万分之一的病来说，要让诊断结果的可靠性超过百分之五十，它的误诊率需要低于万分之一才行。
(2) 如果一个病是常见病，如感冒，拉肚子等等，它的发病率比较高，那么这个时候我们看看诊断的可靠性是怎样的，比如在某流行性感冒发病季节。假设

P(A1)=1/10 $P(A_1)=1/10$ , 误诊率为

1% $1\%$

P (A 1 | E 1) = = \approx P ( E 1 | A 1 ) P ( A 1 ) P ( E 1 | A 1 ) P ( A 1 ) + P ( E 1 | A 2 ) P ( A 2 ) 99 % \times 1 10 99 % \times 1 10 + 5 % \times 9 10 69 %

$\begin{eqnarray*} P(A_1|E_1) &=& \frac{P(E_1|A_1)P(A_1)}{P(E_1|A_1)P(A_1)+P(E_1|A_2)P(A_2)} \\ &=& \frac{99\%\times\frac{1}{10}}{99\%\times \frac{1}{10}+5\%\times\frac{9}{10}} \\ &\approx& 69\% \end{eqnarray*}$
在这种情况下，诊断的可靠性才能勉强到七成。
直观地说，一种病较常见，且它的误诊率需要远低于发病率，这时的诊断结果才能足够靠谱。在最后七成可靠性的例子里，我采用的误诊率约为发病率的十分之一，实际情况可能会更低，所以通常情况下感冒发烧这种病的诊断可靠性是较强的。

在这个故事里，贝叶斯定理告诉我们一个稍微“反常识”的道理：即使误诊率从数字上看已经很低了，诊断结果的可靠性也依旧无法保证足够高，诊断可靠性受到发病率的约束。

概率论札记 - 2 - 用贝叶斯定理来讨论“医疗诊断的可靠性到底有多少”

内容目录