為了將統(tǒng)計學(xué)應(yīng)用到科學(xué),工業(yè)以及社會問題上,我們由研究母體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產(chǎn)的商品。一個母體甚至可能由許多次同樣的觀察程序所組成;由這種資料收集所組成的母體我們稱它叫時間序列。
為了實(shí)際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個子集稱做樣本。以某種經(jīng)驗(yàn)設(shè)計實(shí)驗(yàn)所搜集的樣本叫做資料。資料是統(tǒng)計分析的對象,并且被用做兩種相關(guān)的用途:描述和推論。
[《統(tǒng)計學(xué)導(dǎo)論》封面圖]
《統(tǒng)計學(xué)導(dǎo)論》封面圖
描述統(tǒng)計學(xué)處理有關(guān)敘述的問題:資料是否可以被有效的摘要,不論是以數(shù)學(xué)或是圖片表現(xiàn),以用來代表母體的性質(zhì)?基礎(chǔ)的數(shù)學(xué)描述包括了平均數(shù)和標(biāo)準(zhǔn)差。圖像的摘要則包含了許多種的表和圖。
推論統(tǒng)計學(xué)被用來將資料中的數(shù)據(jù)模型化,計算它的機(jī)率并且做出對于母體的推論。這個推論可能以對/錯問題的答案所呈現(xiàn)(假設(shè)檢定),對于數(shù)字特征量的估計(估計),對于未來觀察的預(yù)測,關(guān)聯(lián)性的預(yù)測(相關(guān)性),或是將關(guān)系模型化(回歸)。其他的模型化技術(shù)包括變異數(shù)分析(ANOVA),時間序列,以及數(shù)據(jù)挖掘。
相關(guān)的觀念特別值得被拿出來討論。對于資料集合的統(tǒng)計分析可能顯示兩個變量(母體中的兩種性質(zhì))傾向于一起變動,好像它們是相連的一樣。舉例來說,對于人收入和死亡年齡的研究期刊可能會發(fā)現(xiàn)窮人比起富人平均來說傾向擁有較短的生命。這兩個變量被稱做相關(guān)的。但是實(shí)際上,我們不能直接推論這兩個變量中有因果關(guān)系;參見相關(guān)性推論因果關(guān)系(邏輯謬誤)。
如果樣本足以代表母體的,那么由樣本所做的推論和結(jié)論可以被引申到整個母體之上。最大的問題在于決定樣本是否足以代表 整個母體。統(tǒng)計學(xué)提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機(jī)性(誤差),如同上面所提到的透過經(jīng)驗(yàn)所設(shè)計的實(shí)驗(yàn)。參見實(shí)驗(yàn)設(shè)計。