鏈接:https://www.zhihu.com/question/28006799/answer/38996563
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
以下內容摘錄自www.norsys.com,根據實例內容意譯譯文。
貝葉斯網絡應用實例一:胸部疾病診所(Chest Clinic)
假想你是Los Angeles一名新畢業的醫生,專攻肺部疾病。你決定建立一個胸部疾病診所,主治肺病及相關疾病。大學課本已經中告訴你了肺癌、肺結核和支氣管炎的發生比率以及這些疾病典型的臨床癥狀、病因等,于是你就可以根據課本里的理論知識建立自己的Bayes網。如根據如下數據信息:
- 美國有30%的人吸煙.
- 每10萬人中就就有70人患有肺癌.
- 每10萬人中就就有10人患有肺結核.
- 每10萬人中就就有800人患有支氣管炎.
- 10%人存在呼吸困難癥狀, 大部分人是哮喘、支氣管炎和其他非肺結核、非肺癌性疾病引起.
根據上面的數據可以建立如下BN模型:
<img src="https://pic2.zhimg.com/50/21a569894683edbbcfcf39b0ecb46e99_hd.jpg" data-rawwidth="500" data-rawheight="297" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/21a569894683edbbcfcf39b0ecb46e99_r.jpg">
這樣的一個BN模型對你意義不大,因為它沒有用到來你診所病人的案例數據,不能反映真實病人的情況。當診所診治了數千病人后,會發現課本中所描述的北美的情況與實際診所數據顯示的情況是完全不同的,實際診所數據顯示:
- 50%的病人吸煙.
- 1%患有肺結核.
- 5.5% 得了肺癌.
- 45% 患有不同程度支氣管炎.
將這些新數據輸入到BN模型中,才真正的獲得了對你有意義的實用BN模型:
<img src="https://pic2.zhimg.com/50/0ef323c753f7a2a8b3f37a2134ab2319_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/0ef323c753f7a2a8b3f37a2134ab2319_r.jpg">
現在,看看如何在日常診斷中用該BN模型。 -
首先,應該注意到,上述模型反映了一個來診所求醫的新患者,為診斷之前我們沒有這個患者的任何信息。而當我們向患者咨詢信息時,BN網中的概率就會自動調整,這就是貝葉斯推理最完美、強大之處。貝葉斯網絡最強大之處在于從每個階段結果所獲得的概率都是數學與科學的反映,換句話說,假設我們了解了患者的足夠信息,根據這些信息獲得統計知識,網絡就會告訴我們合理的推斷。
現在看看如何增加個別病人信息調節概率。一個女病人進入診所,我們開始和她談論。她告訴我們她呼吸困難。我們將這個信息輸入到網絡。我們相信病人的信息,認為其存在100%呼吸困難。
<img src="https://pic1.zhimg.com/50/cbb64ffb6b65e847a420260f4ea93604_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic1.zhimg.com/cbb64ffb6b65e847a420260f4ea93604_r.jpg">可以觀察到,一旦病人有呼吸困難癥狀,三種疾病的概率都增大了,因為這些疾病都有呼吸困難的癥狀。我們的病人存在這樣的癥狀,某種程度上我們會推斷這三種疾病可能性比較大,也增加了我們患者有嚴重疾病認識的信念。
-
仔細看看推斷的過程:
- 明顯增大的是支氣管炎,從 45% 到 83.4%. 為什么會有如此大的增長呢?因為支氣管炎病比癌癥和肺結核更常見. 只要我們相信患者有嚴重的肺部疾病,那最支氣管炎的可能性會更大些。
- 病人是抽煙者的幾率也會隨之增大,從50% 到63.4%.
- 近期訪問過亞洲的幾率也會增大: 從1% 到1.03%, 顯然是不重要的.
- X光照片不正常的幾率也會上漲,從11% 到16%.
知道現在我們還無法確認什么疾病困擾著我們的這個女患者,我們目前比較相信她患有支氣管炎的可能性很大,但是,我們應該獲得更多信息來確定我們的判斷,如果我們現在就主觀定了病癥,她可能得的是癌癥,那我們就是一個爛醫生。這就需要更多信息來做最后的決定。
因此,我們按照流程依此問她一些問題,如她最近是不是去過亞洲國家,吃驚的是她回答了“是”。現在獲得的信息就影響了BN模型。
<img src="https://pic2.zhimg.com/50/d57be3a397a169b15e420da0f47a6729_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/d57be3a397a169b15e420da0f47a6729_r.jpg">
-
患肺結核的幾率顯然增大,從 2%到 9%. 而患有癌癥、支氣管炎以及該患者是吸煙患者的幾率都有所減少。為什么呢?因為此時呼吸困難的原因相對更傾向于肺結核。
繼續問患者一些問題,假設患者是個吸煙者,則網絡變為
<img src="https://pic2.zhimg.com/50/a729b982b5dede08862a9101928dc5d5_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/a729b982b5dede08862a9101928dc5d5_r.jpg">
此時注意到最好的假設仍然是認為患者患有支氣管炎。為了確認我們要求她做一個X光透視,結果顯示其正常。結果如下:
<img src="https://pic2.zhimg.com/50/eb1c17e85f7f4d4f1ac3d811ef1a9501_hd.jpg" data-rawwidth="500" data-rawheight="296" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/eb1c17e85f7f4d4f1ac3d811ef1a9501_r.jpg">
-
這就更加肯定我們的推斷她患有支氣管炎。
-
如果X光顯示不正常的話,則結果將有很大不同:
<img src="https://pic1.zhimg.com/50/4f79a2b89c9113dfbc3331862639c17c_hd.jpg" data-rawwidth="500" data-rawheight="296" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic1.zhimg.com/4f79a2b89c9113dfbc3331862639c17c_r.jpg">Note the big difference. TB or Lung Cancer has shot up enormously in probability. Bronchitis is still the most probable of the three separate illnesses, but it is less than the combination hypothesis of TB or Lung Cancer. So, we would then decide to perform further tests, order blood tests, lung tissue biopsies, and so forth. Our current Bayes net does not cover those tests, but it would be easy to extend it by simply adding extra nodes as we acquire new statistics for those diagnostic procedures. And we do not need to throw away any part of the previous net. This is another powerful feature of Bayes nets. They are easily extended (or reduced, simplified) to suit your changing needs and your changing knowledge.
Summary
In this section we learned that a Bayesian network is a mathematically rigorous way to model a world, one which is flexible and adaptable to whatever degree of knowledge you have, and one which is computationally efficient.
注意最大的區別。結核病或肺癌增加的概率極大。支氣管炎仍然是三個獨立的疾病中最可能的一個,但它小于"結核或肺癌"這一組合的假設。所以,我們將決定進行進一步測試,血液測試,肺組織活檢,等等。我們當前的貝葉斯網不包括這些測試,但它很容易擴展,只需添加額外的節點作為我們獲得新的統計數據的診斷程序。我們不需要扔掉以前的任何部分。這是貝葉斯網的另一個強大的功能。他們很容易擴展(或減少,簡化),以適應不斷變化的需求和變化的知識。
總結
在本節中,我們了解到,貝葉斯網絡是一個用嚴格的數學方法來模擬一個世界的方法,是靈活的,適應于任何你擁有的知識程度的方法,同時也是計算效率的方法。
本文引用地址:http://blog.sciencenet.cn/blog-82650-255141.html 此文來自科學網邱士利博客
最后說下,這篇文章用到了一個叫做netica的軟件,我無聊將它破解掉了,去除了一些限制,各位有需要的可以在這里下載
鏈接: 百度云 請輸入提取密碼 密碼: 1qav