為了將統(tǒng)計(jì)學(xué)應(yīng)用到科學(xué),工業(yè)以及社會(huì)問(wèn)題上,我們由研究母體開始。這可能是一個(gè)國(guó)家的人民,石頭中的水晶,或者是某家特定工廠所生產(chǎn)的商品。一個(gè)母體甚至可能由許多次同樣的觀察程序所組成;由這種資料收集所組成的母體我們稱它叫時(shí)間序列。
為了實(shí)際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個(gè)子集稱做樣本。以某種經(jīng)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)所搜集的樣本叫做資料。資料是統(tǒng)計(jì)分析的對(duì)象,并且被用做兩種相關(guān)的用途:描述和推論。
[《統(tǒng)計(jì)學(xué)導(dǎo)論》封面圖]
《統(tǒng)計(jì)學(xué)導(dǎo)論》封面圖
描述統(tǒng)計(jì)學(xué)處理有關(guān)敘述的問(wèn)題:資料是否可以被有效的摘要,不論是以數(shù)學(xué)或是圖片表現(xiàn),以用來(lái)代表母體的性質(zhì)?基礎(chǔ)的數(shù)學(xué)描述包括了平均數(shù)和標(biāo)準(zhǔn)差。圖像的摘要?jiǎng)t包含了許多種的表和圖。
推論統(tǒng)計(jì)學(xué)被用來(lái)將資料中的數(shù)據(jù)模型化,計(jì)算它的機(jī)率并且做出對(duì)于母體的推論。這個(gè)推論可能以對(duì)/錯(cuò)問(wèn)題的答案所呈現(xiàn)(假設(shè)檢定),對(duì)于數(shù)字特征量的估計(jì)(估計(jì)),對(duì)于未來(lái)觀察的預(yù)測(cè),關(guān)聯(lián)性的預(yù)測(cè)(相關(guān)性),或是將關(guān)系模型化(回歸)。其他的模型化技術(shù)包括變異數(shù)分析(ANOVA),時(shí)間序列,以及數(shù)據(jù)挖掘。
相關(guān)的觀念特別值得被拿出來(lái)討論。對(duì)于資料集合的統(tǒng)計(jì)分析可能顯示兩個(gè)變量(母體中的兩種性質(zhì))傾向于一起變動(dòng),好像它們是相連的一樣。舉例來(lái)說(shuō),對(duì)于人收入和死亡年齡的研究期刊可能會(huì)發(fā)現(xiàn)窮人比起富人平均來(lái)說(shuō)傾向擁有較短的生命。這兩個(gè)變量被稱做相關(guān)的。但是實(shí)際上,我們不能直接推論這兩個(gè)變量中有因果關(guān)系;參見(jiàn)相關(guān)性推論因果關(guān)系(邏輯謬誤)。
如果樣本足以代表母體的,那么由樣本所做的推論和結(jié)論可以被引申到整個(gè)母體之上。最大的問(wèn)題在于決定樣本是否足以代表 整個(gè)母體。統(tǒng)計(jì)學(xué)提供了許多方法來(lái)估計(jì)和修正樣本和蒐集資料過(guò)程中的隨機(jī)性(誤差),如同上面所提到的透過(guò)經(jīng)驗(yàn)所設(shè)計(jì)的實(shí)驗(yàn)。參見(jiàn)實(shí)驗(yàn)設(shè)計(jì)。