你是否希望,有人能用簡單的語言告訴你統計學的意義是什么,以及統計學專業術語的含義?那么現在,你將在最短的時間里,理清統計學中最重要的觀點。
什么是統計學?統計學就是把我們的數據混合在一起的任何方法,從學術角度來講,這是一個百分之百正確的定義。那么,現在讓我們看看統計學到底是一門怎樣的學科。
統計學是改變你想法的科學
根據事實(參數/parameter)做出決定已經很困難了,但是有時我們會發現,我們甚至缺少我們需要的事實。比如,我們所知道的(樣本數據/sample)與我們希望知道的(總體數據/population)是不同的,這就是統計學中“不確定性”的含義。
統計學是一門即便存在不確定性也能改變你的想法的科學。你是否想過,什么東西可以用來設定你的思想?可能是一個行動,或者一個已經存在的信念。但是,如果你的頭腦本身是一塊白板呢?那就請接著往下讀吧!
「貝葉斯學派統計學」Bayesians —— 改變了人們對信念的看法
貝葉斯統計學通常會用到概率和隨機性,貝葉斯法主義者喜歡用可信區間(confidence intervals)來解釋結果。(可信區間:兩個數字被解釋為“我相信答案就在這兩個數字之間”)
「頻率學派」Frequentists —— 改變了人們對行動的看法
在頻率統計學中,你不需要得知數據的真實值,你可以通過抽樣的方式對數據進行估值。頻率統計學是你在生活中和基礎統計學課堂上更有可能遇到的,所以在后文會以這個學派的概念為主。
「假設」是對世界上一切可能出現的現象的描述
原假設(null hypothesis)描述了一個世界上所有可能出現的現象,而備擇假設(alternative hypothesis)則代表了所有其他世界。
舉個例子:我們在同一所學校上課,而現在我剛好路過你家門口。如果你可以在15分鐘以內做好準備(原假設),那么我們可以一起走路去上課。但如果有證據表明你需要比15分鐘更長的準備時間(替代假設),那么我就不能等你一起了。
「假設檢驗」:我們的證據是否使原假設看起來很不合理?
所有的假設檢驗都是在問:我們的證據是否使原假設看起來很不合理?拒絕原假設意味著我們學到了一些東西,我們應該改變我們的想法。不拒絕原假設只意味著我們沒有學到任何有趣的新知識。比如,在一片森林里沒有發現人類并不能代表地球上沒有人類,它只是意味著我們在這片森林里沒有學到任何關于人類存在的有趣的東西。如果你什么都沒學到,你就沒有理由改變你的想法,而是繼續探索下去。
那么,我們如何知道我們是否學到了有趣的東西,也就是與原假設的世界不一致的東西呢?為了得到答案,我們可以看一下p值或置信區間。
「P值」是令人驚奇的元素
P值說:“如果我生活在一個我應該遵循原假設的世界里,那么說明證據并不會使人感到驚訝。” 但是,P值越低,那么證據就越是在大喊:"這太令人驚訝了,或許你應該改變想法。"
為了進行檢驗,我們將該P值與一個叫做顯著性水平(significance level)的閾值進行比較。你可以把它看作一個旋鈕,用來控制你想容忍多少風險。如果你把顯著性水平設置為0,這意味著你拒絕犯錯,拒絕容忍任何風險。這也意味著你只會遵循原假設,同時這也意味著你可能會一直遵循一個錯誤的原假設。
置信區間是用來描述檢驗結果的一種方式。要使用它,請檢查它是否與你的原假設重疊。如果確實重疊,那么就繼續遵循原假設。如果不重疊,就改變你的想法。數據分析師通常認為置信區間對于描述數據結果很有幫助,原因有兩個:(1)最佳猜測總是包含在區間當中(2)當數據樣本變多時,置信區間的范圍會變窄。
「統計功效」Power的衡量標準
我們是否做足了功課,以確保我們確實收集了足夠的證據,給自己一個改變想法的機會呢?這就是統計功效所衡量的。統計功效越大,就越有機會改變你的想法。如果統計功效幾乎為零,那么我們并不會有任何機會改變想法。
統計功效(Power Analysis)分析可以用來確定,你在給定的數據量下統計功效大概是多少。因此,你可以在開始你的數據分析之前用它來做一個計劃。
「不確定性」Uncertainty意味著你可能得出錯誤的結論
在統計學中,我們通常從不確定性中獲得確定性,所以這也代表著你仍然會犯錯誤。說到錯誤,這里有兩個在頻率統計學中可能犯的錯誤:
第一類錯誤 (Type I error) 指的是,在原假設正確的情況下,你卻認為它是錯誤的。第二類錯誤 (Type II error) 指的是,在原假設錯誤的情況下,你卻認為它是正確的。換句話說,第一類錯誤是在你不應該改變想法的時候改變你的想法,第二類錯誤則是在你應該改變想法時沒有改變想法。
第一類錯誤就像是給一個無辜的人定罪,第二類錯誤就像是沒能給一個有罪的人定罪。然而,如果你得到更多的證據(數據),兩種錯誤的概率都變得更小,那么一切都將會變得更好,這就是為什么統計學家希望你有盡可能多的數據。
總結
統計學是一門改變思想的科學,其中包含兩個學派的思想。比較流行的一種——頻率統計學派——是關于檢驗你是否應該遵守或者拒絕你的原假設。貝葉斯統計學派是關于有一個先前存在的觀點,并通過數據更新這個觀點。如果你在開始數據分析之前腦子里真的是一片空白,那就看看你的數據,跟著你的直覺走吧。
以上就是“職場打工人都應該知道的統計學基本概念”的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網
掃碼二維碼 獲取免費視頻學習資料
- 本文固定鏈接: http://www.wangchenghua.com/post/10126/
- 轉載請注明:轉載必須在正文中標注并保留原文鏈接
- 掃碼: 掃上方二維碼獲取免費視頻資料