統(tǒng)計(jì)學(xué)是研究數(shù)據(jù)的收集、整理、分析、解釋和推斷的科學(xué),其核心是通過數(shù)據(jù)探索規(guī)律、解決問題。以下從基礎(chǔ)框架出發(fā),系統(tǒng)梳理統(tǒng)計(jì)學(xué)的核心知識:
一、統(tǒng)計(jì)學(xué)的基本概念與分支
1. 核心概念
數(shù)據(jù)(Data):對客觀事物的屬性或特征的記錄,是統(tǒng)計(jì)學(xué)研究的基礎(chǔ)。
總體(Population):研究對象的全部個(gè)體(或觀察單位)的集合(如 “所有中國成年男性的身高”)。
樣本(Sample):從總體中抽取的部分個(gè)體(如 “隨機(jī)抽取 1000 名中國成年男性的身高”),用于推斷總體特征。
參數(shù)(Parameter):描述總體特征的數(shù)值(如總體均值 μ、總體標(biāo)準(zhǔn)差 σ),通常未知,需通過樣本推斷。
統(tǒng)計(jì)量(Statistic):描述樣本特征的數(shù)值(如樣本均值
x
ˉ
、樣本標(biāo)準(zhǔn)差 s),可直接計(jì)算。
2. 兩大分支
描述統(tǒng)計(jì)(Descriptive Statistics):對數(shù)據(jù)進(jìn)行整理、概括和展示,目的是 “描述數(shù)據(jù)本身的特征”(如計(jì)算平均分、畫直方圖)。
推斷統(tǒng)計(jì)(Inferential Statistics):基于樣本數(shù)據(jù)推斷總體特征,目的是 “從部分推斷整體”(如用樣本均值估計(jì)總體均值、通過樣本檢驗(yàn)總體假設(shè))。
二、描述統(tǒng)計(jì):數(shù)據(jù)的整理與概括
1. 數(shù)據(jù)的類型
數(shù)據(jù)按測量尺度可分為三類,決定了后續(xù)分析方法:
定性數(shù)據(jù)(Qualitative Data):非數(shù)值型數(shù)據(jù),描述 “屬性”。
分類數(shù)據(jù)(如性別:男 / 女;職業(yè):教師 / 醫(yī)生):無順序,僅能區(qū)分類別。
順序數(shù)據(jù)(如滿意度:高 / 中 / 低;成績等級:A/B/C):有順序,但無法量化差異(如 “高” 與 “中” 的差距不等于 “中” 與 “低”)。
定量數(shù)據(jù)(Quantitative Data):數(shù)值型數(shù)據(jù),描述 “數(shù)量”,可進(jìn)行數(shù)學(xué)運(yùn)算。
離散數(shù)據(jù)(如家庭人口數(shù):2/3/4):取值為整數(shù),不可分割。
連續(xù)數(shù)據(jù)(如身高:175.5cm;體重:62.3kg):取值可無限細(xì)分。
2. 數(shù)據(jù)的整理與展示
頻數(shù)分布表:將數(shù)據(jù)按類別 / 區(qū)間分組,記錄每組的頻數(shù)(出現(xiàn)次數(shù))或頻率(頻數(shù) / 總數(shù))。
例:對 100 名學(xué)生的成績分組(60 以下、60-80、80 以上),統(tǒng)計(jì)每組人數(shù)。
圖形展示:
定性數(shù)據(jù):條形圖(對比類別頻數(shù))、餅圖(展示類別占比)。
定量數(shù)據(jù):直方圖(展示連續(xù)數(shù)據(jù)的分布形狀)、箱線圖(展示數(shù)據(jù)的分布特征:中位數(shù)、四分位數(shù)、異常值)、折線圖(展示數(shù)據(jù)隨時(shí)間的變化趨勢)。
3. 數(shù)據(jù)的數(shù)字特征
通過數(shù)值量化數(shù)據(jù)的分布特征,核心包括三大類:
(1)集中趨勢:數(shù)據(jù)的 “中心位置”
均值(Mean):所有數(shù)據(jù)的算術(shù)平均(
x