- 1.1 統(tǒng)計(jì)學(xué)的產(chǎn)生與發(fā)展
- 1.2 教學(xué)視頻
- 1.3 教學(xué)視頻
- 2.1 統(tǒng)計(jì)數(shù)據(jù)的收集方式教學(xué)視頻
- 2.2 統(tǒng)計(jì)數(shù)據(jù)的收集方法教學(xué)視頻
- 2.3 統(tǒng)計(jì)調(diào)查方案設(shè)計(jì)教學(xué)視頻
- 2.4 統(tǒng)計(jì)數(shù)據(jù)的整理教學(xué)視頻
- 2.5 統(tǒng)計(jì)數(shù)據(jù)的顯示教學(xué)視頻
- 2.6 統(tǒng)計(jì)調(diào)查案例1
- 2.6 統(tǒng)計(jì)調(diào)查案例2
- 3.1 算術(shù)平均數(shù)教學(xué)視頻
- 3.2 調(diào)和平均數(shù)與幾何平均數(shù)教學(xué)視頻
- 3.3 位置平均數(shù)教學(xué)視頻
- 3.4 平均差和標(biāo)準(zhǔn)差教學(xué)視頻
- 3.5 變異系數(shù)與是非標(biāo)志教學(xué)視頻
- 3.6 偏度與峰度教學(xué)視頻
- 4.1 抽樣分布教學(xué)視頻
- 4.2 抽樣誤差教學(xué)視頻
- 4.3 區(qū)間估計(jì)教學(xué)視頻
- 5.1 假設(shè)檢驗(yàn)的原理和步驟教學(xué)視頻
- 5.2 單個總體均值的檢驗(yàn)視頻
- 5.3 兩個總體均值差的檢驗(yàn)教學(xué)視頻
- 5.4 成數(shù)的假設(shè)檢驗(yàn)
- 5.5 方差的假設(shè)檢驗(yàn)
- 5.6 假設(shè)檢驗(yàn)的兩類錯誤與檢驗(yàn)功效
- 6.1 方差分析的含義與基本思路教學(xué)視頻
- 6.2 單因素方差分析教學(xué)視頻
- 6.3 雙因素方差分析教學(xué)視頻
- 7.1 相關(guān)關(guān)系的含義與測度教學(xué)視頻
- 7.2 回歸分析的基本問題教學(xué)視頻
- 7.3 一元線性回歸模型的構(gòu)建教學(xué)視頻
- 7.4 一元線性回歸模型的評價與檢驗(yàn)教學(xué)視頻
- 7.5 等級相關(guān)系數(shù)
- 7.6 多元線性回歸模型
- 8.1 時間序列的基本問題教學(xué)視頻
- 8.2 時間序列的水平分析教學(xué)視頻
- 8.3 時間序列的速度分析教學(xué)視頻
- 8.4 長期趨勢的測定教學(xué)視頻
- 8.5 季節(jié)變動的測定教學(xué)視頻
- 9.1 統(tǒng)計(jì)指數(shù)的基本問題教學(xué)視頻
- 9.2 綜合指數(shù)的編制與應(yīng)用教學(xué)視頻
- 9.3 平均數(shù)指數(shù)的編制與應(yīng)用教學(xué)視頻
- 9.4 平均指標(biāo)指數(shù)的編制與應(yīng)用教學(xué)視頻
- 9.5 統(tǒng)計(jì)指數(shù)體系與因素分析教學(xué)視頻
- 9.6 平均指標(biāo)指數(shù)因素分析
- 10.1 綜合評價基本問題
- 10.2 評價指標(biāo)的預(yù)處理
- 10.3 綜合評價指標(biāo)的賦權(quán)方法
- 10.4 綜合評價合成方法
- 11.1 統(tǒng)計(jì)學(xué)三要素
- 11.2 為什么說統(tǒng)計(jì)學(xué)既是科學(xué)也是藝術(shù)
- 11.3 如何看待統(tǒng)計(jì)模型
- 11.4 統(tǒng)計(jì)綜合評價的三個問題
- 11.5 一則哲學(xué)故事所蘊(yùn)含的統(tǒng)計(jì)思想
- 11.6 大數(shù)據(jù)分析與小數(shù)據(jù)研究
統(tǒng)計(jì)學(xué)知識點(diǎn)合集
試驗(yàn)和事件:對某事物或現(xiàn)象所進(jìn)行的觀察或?qū)嶒?yàn)叫試驗(yàn),把結(jié)果叫事件。
基本事件(elementaryevent):如果一個事件不能分解成兩個或更多個事件,就稱為基本事件。一次觀察只能有一個基本事件。
樣本空間:一個試驗(yàn)中所有的基本事件的全體稱為樣本空間。
古典概型:如果某一隨機(jī)試驗(yàn)的結(jié)果有限,而且各個結(jié)果出現(xiàn)的可能性相等,則某一事件A發(fā)生的概率為該事件所包含的基本事件個數(shù)m與樣本空間中所包含的基本事件個數(shù)n的比值。
統(tǒng)計(jì)概型:在相同條件下隨機(jī)試驗(yàn)n次,某事件A出現(xiàn)m次(m≤n),則m/n稱為事件A發(fā)生的頻率。隨著n增大,該頻率圍繞某一常數(shù)p上下波動,且波動幅度逐漸減小,趨于穩(wěn)定,這個頻率的穩(wěn)定值就是該事件的概率。
概率加法:(1)兩個互斥事件:P(A+B)=P(A)+P(B);任意兩隨機(jī)事件:P(A+B)=P(A)+P(B)-P(AB)。
事件獨(dú)立(independent):一個事件發(fā)生與否不會影響另一個事件發(fā)生的概率,公式為:P(AB)=P(A)P(B)。互斥(相依賴)一定不獨(dú)立,不獨(dú)立不一定互斥(相依賴)。
全概率公式:根據(jù)某一事件發(fā)生的各種原因的概率,計(jì)算該事件的概率。計(jì)算公式為:。
貝葉斯公式:在條件概率的基礎(chǔ)上尋找事件發(fā)生的原因。計(jì)算公式為:
,分母就是全概率公式。也稱為逆概率公式。該公式是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致A發(fā)生的每個原因Ai的概率。P(Ai)稱為驗(yàn)前概率,P(Ai |B)是驗(yàn)后概率。
0-1分布:。0-1分布也稱為兩點(diǎn)分布,即非A即B。關(guān)于是否的概率統(tǒng)統(tǒng)是0-1分布。性別。
二項(xiàng)分布:現(xiàn)實(shí)生活中,許多事件只是具有兩種互斥結(jié)果的離散變量。如男性和女性、某種化驗(yàn)結(jié)果的陰性陽性,這就是二項(xiàng)分布。。參數(shù)為n,p,記為X~B(n,p)。E(X)=np,D(X)=npq。當(dāng)成功的概率很小,而試驗(yàn)次數(shù)很大時,二項(xiàng)分布接近泊松分布,此時=np。即P≤0.25,n>20,np≤5。二項(xiàng)定理近似服從正態(tài)分布。二項(xiàng)分布是0-1分布的n重實(shí)驗(yàn),表示含量為n的樣本中,有X個所需結(jié)果的概率。
二項(xiàng)分布的正態(tài)近似:
,其中a=,b=,q=1-p。
超幾何分布:。即二項(xiàng)分布中,無放回的情況。
泊松分布(poissondistribution):用來描述在一指定時間范圍內(nèi)或在指定的面積之內(nèi)某事件出現(xiàn)的次數(shù)的分布。如某企業(yè)中每月發(fā)生的事故次數(shù)、單位時間內(nèi)到達(dá)某一服務(wù)柜臺需要服務(wù)的顧客人數(shù)、人壽保險公司每天收到的死亡聲明個數(shù)、某種儀器每月出現(xiàn)故障的次數(shù)等。公式為:,E(X)=,D(X)=。是給定時間間隔內(nèi)事件的平均數(shù)。
期望:各可能值xi與其對應(yīng)概率pi的乘積之和為該隨機(jī)變量X的期望,即。
概率密度滿足的條件:(1)f(x)≥0;(2)。連續(xù)型隨機(jī)變量的概率密度是其分布函數(shù)的倒數(shù)。。;
。
正態(tài)分布(normaldistribution):正態(tài)分布的概率密度為:,x∈R。記作X~()。
正態(tài)分布圖形特點(diǎn):(1)f(x)≥0,即整個概率密度曲線都在x軸上方;(2)f(x)相對于x= 對稱,并在x=處取到最大值,最大值為;(3)曲線的陡緩由σ決定,σ越大,越平緩,σ越小,曲線越陡峭;(4)當(dāng)x趨于無窮時,曲線以x軸為漸近線。
正態(tài)分布的例子:某地區(qū)同年齡組兒童的發(fā)育特征、某公司的銷售量、同一條件下產(chǎn)品的質(zhì)量以平均質(zhì)量為中心上下擺動、特別差和特別好的都是少數(shù),多數(shù)在中間狀態(tài),如人群中的高個子和矮個子都是少數(shù),中等身材居多等。
標(biāo)準(zhǔn)正態(tài)分布,即在正態(tài)分布中,=0,σ=1,有,即X~N(0,1)。用表示分布函數(shù),表示概率密度。(-x)=1-(x)。
方差:即每個隨機(jī)變量取值與期望值的離差平方的期望值。隨機(jī)變量的方差計(jì)算公式為:。
標(biāo)準(zhǔn)差:隨機(jī)變量的方差的平方根為標(biāo)準(zhǔn)差,記。標(biāo)準(zhǔn)差與隨機(jī)變量X有相同的度量單位。
期望、標(biāo)準(zhǔn)差、離散系數(shù)的使用:如果期望相同,那么比較標(biāo)準(zhǔn)差;如果期望不同,那么比較離散系數(shù)。
3σ準(zhǔn)則:由標(biāo)準(zhǔn)正態(tài)分布得:當(dāng)X~N(0,1)時,P(|X|≤1)=2(1)-1=0.6826;P(|X|≤2)=2(2)-1=0.9545;P(|X|≤3)=2(3)-1=0.9973.這說明X的取值幾乎全部集中在[-3,3]之間,超出這個范圍的不到0.3%。將結(jié)論推廣到一般正態(tài),即X~N(,σ)時,有P(|X-|≤σ) =0.6826;P(|X-|≤2σ) =0.9545;P(|X-|≤3σ) =0.9973。可以認(rèn)為X的值一定落在(-3σ, +3σ)內(nèi)。
矩:(1)為樣本k階矩,其反映出總體k階矩的信息,當(dāng)k=1時,即均值;(2)為樣本k階中心矩,它反映出總體k階中心矩的信息,當(dāng)k=2時,即方差;(3)為樣本偏度,它反映總體偏度的信息,偏度反映了隨機(jī)變量密度函數(shù)曲線在眾數(shù)兩邊的對稱偏斜性;
(4)為樣本峰度,它反映出總體峰度的信息,峰度反映密度函數(shù)曲線在眾數(shù)附近的峰的尖峭程度。
充分統(tǒng)計(jì)量:統(tǒng)計(jì)量加工過程中一點(diǎn)信息都不損失的統(tǒng)計(jì)量稱為充分統(tǒng)計(jì)量。
因子分解定理:充分統(tǒng)計(jì)量判定方法。當(dāng)X=(X1,X2,…,Xn)是來自正態(tài)分布N(,σ2)的一個樣本時,若已知,則是σ2的充分統(tǒng)計(jì)量,若σ2已知,則是的充分統(tǒng)計(jì)量。
精確抽樣分布和漸近分布:在總體X的分布類型已知時,若對任一自然數(shù)n,都能導(dǎo)出統(tǒng)計(jì)量T=(X1,X2,…,Xn)的分布數(shù)學(xué)表達(dá)式,這種分布就是精確抽樣分布,包括卡方、F,t分布;當(dāng)n較大時,用極限分布作為抽樣分布的一種近似,這種極限分布稱為漸近分布,如中心極限定理。
卡方分布:設(shè)隨機(jī)變量X1,X2,…,Xn相互獨(dú)立,且Xi服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則它們的平方和服從自由度為n的分布。E()=n;D()=2n;具有可加性;當(dāng)自由度增加到足夠大時,分布的概率密度曲線趨于對稱,當(dāng)n趨于無窮時,的極限分布是正態(tài)分布。
t分布:也稱為學(xué)生氏分布。設(shè)隨機(jī)變量X~N(0,1),Y~(n),且X與Y獨(dú)立,則,其分布稱為t分布,記為t(n),n是自由度。t分布的密度函數(shù)是偶函數(shù)。當(dāng)n≥2時,E(t)=0,;當(dāng)n≥3時,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度為1的分布稱為柯西分布,隨著n增加,t分布的密度函數(shù)越來越接近標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)。實(shí)際應(yīng)用中,當(dāng)n≥30時,t分布于標(biāo)準(zhǔn)正態(tài)分布很接近。另有一個關(guān)于t分布的抽樣分布:,稱為服從自由度為(n-1)的t分布。
F分布:設(shè)隨機(jī)變量Y與Z獨(dú)立,且Y和Z分別服從自由度為m和n的分布,隨機(jī)變量X如下:。則成X服從第一自由度為m,第二自由度為n的F分布,記為X~F(m,n)。E(X)=n/(n-2),n>2;D(X)=,n>4。
t分布與F分布的關(guān)系:如果隨機(jī)變量X服從t(n)分布,則X2服從F(1,n)的F分布。這在回歸系數(shù)顯著性檢驗(yàn)中有用。
的抽樣分布(samplingdistribution):當(dāng)總體分布為正態(tài)分布時,的抽樣分布仍然是正態(tài)分布,此時E()=,D()=σ2/n,則。其說明當(dāng)用樣本均值去估計(jì)總體均值時,平均來說沒有偏差(無偏性);當(dāng)n越來越大時,的散布程度越來越小,即用估計(jì)越來越準(zhǔn)確。
中心極限定理(centrallimit theorem):不管總體的分布是什么,只要總體的方差σ2有限且要求n≥30,此時樣本均值的分布總是近似正態(tài)分布,即~N(,σ2/n)。
樣本比例的抽樣分布:如果在樣本大小為n的樣本中具有某一特征的個體數(shù)為X,則樣本比例為:。π是總體比例,即p^=X/n=π。
兩個樣本均值之差的分布:若為兩個總體,則:
;
;若是兩個樣本,則:
;
。
樣本方差的分布:設(shè)X1,X2,…,Xn為來自正態(tài)分布的樣本,則設(shè)總體分布為N(,σ2),則樣本方差S2的分布為:。
兩個樣本方差比的分布:設(shè)X1,X2,…,Xn是來自正態(tài)分布的樣本,y1,y2,…,yn也是來自正態(tài)分布的樣本,且Xi與yi獨(dú)立,則
。
參數(shù)估計(jì)(parameterestimation):用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)。
點(diǎn)估計(jì)(pointestimate):用樣本統(tǒng)計(jì)量的某個取值直接作為總體參數(shù)的估計(jì)值。
區(qū)間估計(jì)(intervalestimate):是在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的而一個區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計(jì)量加減估計(jì)誤差得到。
置信區(qū)間(confidenceinterval):在區(qū)間估計(jì)中,由樣本統(tǒng)計(jì)量所造成的總體參數(shù)的估計(jì)區(qū)間稱為置信區(qū)間。
置信水平(confidencelevel):如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例為置信水平,也稱為置信度或置信系數(shù)。其含義為:如果做了100次抽樣,大概有95次找到的區(qū)間包含真值,而不是95%的可能落在區(qū)間,因?yàn)榻y(tǒng)計(jì)量不涉及概率問題。
無偏性(inbiasedenss):指估計(jì)量抽樣分布的期望等于被估計(jì)的總體參數(shù)。設(shè)總體參數(shù)為θ,估計(jì)量為θ^,如果E(θ^)=θ,則稱θ^為θ的無偏估計(jì)量。
有效性(efficiency):指對同一總體參數(shù)的兩個無偏估計(jì)量,有更小標(biāo)準(zhǔn)差的估計(jì)量更有效。
一致性(consistency):指隨著樣本量的增大,點(diǎn)估計(jì)量的值越來越接近被估總體的參數(shù),換個說法,一個大樣本給出的估計(jì)量要比一個小樣本給出的估計(jì)量更接近總體參數(shù)。
樣本量與置信水平、總體方差和估計(jì)誤差的關(guān)系:樣本量與置信水平成正比,在其他條件不變的情況下,置信水平越大,所需的樣本量也就越大;樣本量與總體方差成正比,總體的差異越大,所要求的樣本量也越大;樣本量與估計(jì)誤差的平方成反比,即可接受的估計(jì)誤差的平方越大,所需的樣本量就越小。
圓整法則:將樣本量取成較大的整數(shù),也就是將小數(shù)點(diǎn)后面的數(shù)值一律進(jìn)位成整數(shù)。
兩類錯誤:一類是原假設(shè)H0為真卻拒絕,這類錯誤用α表示,稱為棄真;另一類是原假設(shè)為偽而我們卻接受,這種錯誤用β表示,也稱存?zhèn)巍?/p>
兩類錯誤的控制原則:如果減小α錯誤,就會增大犯β錯誤的機(jī)會;若減小β錯誤,也會增大犯α錯誤的機(jī)會。規(guī)則是:首先控制α錯誤,這是因?yàn)樵僭O(shè)是什么常常是明確的,而備擇假設(shè)是什么則常常是模糊的。
P值:P值是當(dāng)原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。P值越小,拒絕原假設(shè)的理由就越充分。P值的長處是它反映了觀察到的實(shí)際數(shù)據(jù)與原假設(shè)之間不一致的概率值。
雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn):雙側(cè)檢驗(yàn)主要是檢驗(yàn)是否相等,如90年的嬰兒體重與89年嬰兒體重是否相等;另一種是單側(cè)檢驗(yàn),即關(guān)心的假設(shè)問題帶有方向性,如燈泡的使用壽命,汽車行駛距離等;另一種是數(shù)值越小越好,如廢品率、生產(chǎn)成本等。
統(tǒng)計(jì)量的選擇:在一個總體參數(shù)的檢驗(yàn)中,主要統(tǒng)計(jì)量有三個,z、t和。z和t用于均值和比例檢驗(yàn),用于方差檢驗(yàn)。統(tǒng)計(jì)量選擇步驟如下:(1)是否是大樣本,如果是,那么如果總體呈正態(tài)分布,樣本統(tǒng)計(jì)量也呈正態(tài)分布;如果總體不呈正態(tài)分布,樣本統(tǒng)計(jì)量漸進(jìn)服從正態(tài)分布;此時可以使用z統(tǒng)計(jì)量(2)如果是小樣本,那么觀察σ,如果σ已知,樣本統(tǒng)計(jì)量將服從正態(tài)分布,此時可以用z統(tǒng)計(jì)量(3)如果未知σ,則只能使用樣本標(biāo)準(zhǔn)差,樣本統(tǒng)計(jì)量服從t分布,應(yīng)采用t統(tǒng)計(jì)量。t統(tǒng)計(jì)量的精度不如z統(tǒng)計(jì)量,這是總體信息σ未知所需要付出的代價。
總體比例檢驗(yàn)公式:。P為樣本比例,π0是總體比例π的假設(shè)值。
總體(population):包含所研究的全部個體的集合,組成總體的每一個元素稱為個體。當(dāng)總體的范圍難以確定時,可根據(jù)研究的目的來定義總體。
樣本(sample):樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本量。
參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性數(shù)字度量。
統(tǒng)計(jì)量(statistic):統(tǒng)計(jì)量是用來描述樣本特征的概括性數(shù)字度量。抽樣的目的就是根據(jù)樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)。統(tǒng)計(jì)量中不能包含未知參數(shù)。
變量(variable):說明現(xiàn)象某種特征的概念,特點(diǎn)是從一次觀察到下一次觀察結(jié)果會呈現(xiàn)出差別或變化。變量分為分類變量、順序變量、數(shù)值型變量,數(shù)值型變量又分為離散型變量和連續(xù)型變量。
概率抽樣(probabilitysampling):也稱隨機(jī)抽樣,指遵循隨機(jī)原則進(jìn)行的抽樣,總體中每個單位都有一定的機(jī)會被選入樣本。概率抽樣分為簡單隨機(jī)抽樣、分層抽樣、整群抽樣、系統(tǒng)抽樣和多階段抽樣。
簡單隨機(jī)抽樣(simplerandom sampling):從包括總體N個單位的抽樣框中隨機(jī)的一個一個的抽取n個單位作為樣本,每個單位的入樣概率是相等的。
非概率抽樣(non- simplerandom sampling):指抽取樣本時不依據(jù)隨機(jī)原則,而是根據(jù)研究目的對數(shù)據(jù)的要求,采用某種方式從總體中抽出部分單位對其實(shí)施調(diào)查。包括方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣和配額抽樣。
抽樣誤差(samplingerror):指由于抽樣的隨機(jī)性引起的樣本結(jié)果與總體真值之間的誤差。
頻數(shù)(frequency):是落在某一特定類別或組中的數(shù)據(jù)個數(shù)。把各個類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來,稱為頻數(shù)分布。
列聯(lián)表(contingencytable)和交叉表(cross table):由兩個或兩個以上變量交叉分類的頻數(shù)分布表稱為列聯(lián)表。二維的列聯(lián)表又稱為交叉表。
帕累托圖(paretochart):按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖。通過對條形圖排序,容易看出哪類數(shù)據(jù)出現(xiàn)得多,哪類數(shù)據(jù)出現(xiàn)的少。
餅圖(pie chart):是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個樣本中各組成部分的數(shù)據(jù)站全部數(shù)據(jù)的比例,對于研究結(jié)構(gòu)性問題十分有用。
環(huán)形圖(doughnutchart):把餅圖疊在一起,挖去中間部分就是環(huán)形圖。環(huán)形圖可顯示多個樣本部分所占的相應(yīng)比例,從而有利于構(gòu)成的比較研究。
累積頻數(shù)(cumulativefrequencies):將各種有序類別或組的頻數(shù)逐級累加起來得到的頻數(shù),通過累積頻數(shù)可以很容易看出某一類別以下或某一類別以上的頻數(shù)之和。
組中值(classmidpoint):是每一組中下限值與上限值中間的值,組中值可以作為該組數(shù)據(jù)的一個代表值,但是用組中值有一個必要的假定條件,即各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布,否則會產(chǎn)生誤差。
直方圖(histogram):適用于展示分組數(shù)據(jù)分布的圖形,用于大批量數(shù)據(jù)的分析。
莖葉圖(stem-and-leafdisplay):反映原始數(shù)據(jù)分布的圖形,由莖葉兩部分組成,其圖形是由數(shù)字組成的。可以看出數(shù)據(jù)的分布形狀及數(shù)據(jù)的離散情況且能保留原始信息,適用于小數(shù)據(jù)。
箱線圖(box-plot):由最大值、最小值、中位數(shù)、兩個四分位數(shù)組成,主要用于反應(yīng)原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。
線圖(line plot):主要用于反應(yīng)現(xiàn)象隨時間變化的特征。
散點(diǎn)圖(scatterdiagram):用二維坐標(biāo)展示兩個變量之間關(guān)系的圖形。
氣泡圖(bubble chart):可用于展示三個變量之間的關(guān)系。一個變量是橫軸、一個變量是縱軸、一個變量用氣泡大小表示。
雷達(dá)圖(radar chart):也稱蜘蛛圖。設(shè)有n組樣本S1,S2…Sn,每個樣本測得P個變量X1,X2…XP,要繪制這P個變量的雷達(dá)圖,具體做法是,先畫一個圓,然后將圓P等分,得到P個點(diǎn),令這P個點(diǎn)分別對應(yīng)P個變量,再將這P個點(diǎn)與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標(biāo)軸,每個變量值的大小由半徑上的點(diǎn)到圓心的距離表示,再將同一樣本的值在P個坐標(biāo)上的點(diǎn)連線。這樣,n個樣本構(gòu)成的n個多邊形就是雷達(dá)圖。雷達(dá)圖在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用,假定各變量的取值具有相同的正負(fù)號,則總的絕對值與圖形所圍成的區(qū)域成正比。此外,利用雷達(dá)圖可以研究多個樣本之間的相似度。
眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用表示。主要用于測度分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值數(shù)據(jù)的集中趨勢,不受極端值影響,一組數(shù)據(jù)分布的最高峰點(diǎn)所對應(yīng)的數(shù)值即為眾數(shù)。只有在數(shù)據(jù)量較大時,眾數(shù)才有意義。
中位數(shù)(median):中位數(shù)時一組數(shù)據(jù)排序后處于中間位置上的變量值,用表示。中位數(shù)主要用于測度順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢,但不適用于分類數(shù)據(jù)。中位數(shù)位置為:(n+1)/2;中位數(shù)的值為。中位數(shù)是一個位置代表值,其特點(diǎn)是不受極端值影響,在研究收入分配時很有用。
平均數(shù)也稱為均值(mean),是集中趨勢的最主要測度值,主要適用于數(shù)值型數(shù)據(jù),不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。平均數(shù)分為簡單平均數(shù)和加權(quán)平均數(shù),簡單平均數(shù)(simple mean)的計(jì)算公式為:。根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù)稱為加權(quán)平均數(shù)(weighted mean)。設(shè)原始數(shù)據(jù)被分為k組,各組的組中值分別用表示,各組變量值出現(xiàn)的品數(shù)分別用表示,則樣本加權(quán)平均數(shù)的計(jì)算公式為:,其中n=。平均數(shù)是一組數(shù)據(jù)的重心所在,是數(shù)據(jù)誤差相互抵消后作用的結(jié)果。
幾何平均數(shù)(geometricmean):是n個變量值乘積的n次方根,用G表示,計(jì)算公式為:。幾何平均數(shù)主要用于計(jì)算平均率,當(dāng)所掌握的變量值本身是比率的形式時,采用幾何平均法更合理。在實(shí)際中,幾何平均數(shù)主要用于計(jì)算現(xiàn)象的平均增長率。
異眾比率(variationratio):指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用表示,計(jì)算公式為:。fm是眾數(shù)組的頻數(shù),fi是變量值的總頻數(shù)。異眾比率主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;異眾比率越小,非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。異眾比率可用于分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。
四分位差(quartiledeviation):也稱為內(nèi)距或四分間距(inter-quartilerange):是上四分位數(shù)與下四分位數(shù)之差,用表示,計(jì)算公式為:。四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,中間的數(shù)越集中;數(shù)值越大,中間的數(shù)越分散。四分位數(shù)不受極值影響。可用于順序數(shù)據(jù)和數(shù)值數(shù)據(jù),但不能用于分類數(shù)據(jù)。
極差(range):也稱為全距,用R表示,指一組數(shù)據(jù)的最大值和最小值之差。計(jì)算公式為:。極差容易受極端值影響。
平均差(meandeviation):也稱為平均絕對離差(meanabsolute deviation):是各變量值與其平均數(shù)離差絕對值的平均數(shù)。用表示。平均差以平均數(shù)為中心,反應(yīng)了每個數(shù)據(jù)與平均數(shù)的平均差異程度,能全面反應(yīng)一組數(shù)據(jù)的平均差異程度,但由于為避免出現(xiàn)0而取絕對值,所以實(shí)際中應(yīng)用較少。
根據(jù)未分組數(shù)據(jù)計(jì)算平均差的公式為:;
根據(jù)分組數(shù)據(jù)計(jì)算平均差的公式為:。
方差(variance)與標(biāo)準(zhǔn)差(standard variance):方差是各變量值與其平均數(shù)離差平方的平均數(shù)。方差的平方根是標(biāo)準(zhǔn)差。設(shè)樣本方差為,根據(jù)分組和未分組數(shù)據(jù)計(jì)算樣本方差的公式為:,其中n-1是自由度。標(biāo)準(zhǔn)差更具有實(shí)際意義。
自由度(degree offreedom):自由度指附加各獨(dú)立的觀測值的約束或限制的個數(shù)。當(dāng)樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)是1個,因此只有n-1個數(shù)據(jù)可以自由取值。例如,假定樣本有3個數(shù),2,4,9,則=5,那么如果前兩個值取5和8,則第三個數(shù)必須取2才能使=5,所以有一個數(shù)是不能自由取值的,所以自由度是n-1。
標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore):是變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱為標(biāo)準(zhǔn)化值或z分?jǐn)?shù),計(jì)算公式為:。標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)值的相對位置。比如,如果某個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)分?jǐn)?shù)具有均值為0,標(biāo)準(zhǔn)差為1的特性,實(shí)際上z分?jǐn)?shù)只是對數(shù)據(jù)進(jìn)行了線性轉(zhuǎn)換。用于數(shù)據(jù)標(biāo)準(zhǔn)化和檢測離散數(shù)據(jù)。
經(jīng)驗(yàn)法估計(jì)數(shù)據(jù)的相對位置:當(dāng)一組數(shù)據(jù)對稱分布時,約有68%的數(shù)據(jù)在平均數(shù)±1個標(biāo)準(zhǔn)差內(nèi);約有95%的數(shù)據(jù)在平均數(shù)±2個標(biāo)準(zhǔn)差內(nèi);約有99%的數(shù)據(jù)在平均數(shù)±3個標(biāo)準(zhǔn)差內(nèi)。三個標(biāo)準(zhǔn)差之外的數(shù)據(jù)稱為離群點(diǎn)。
切比雪夫不等式(Chebyshev’sinequality):經(jīng)驗(yàn)法只適合對稱分布數(shù)據(jù),而切比雪夫不等式適用于任何分布的數(shù)據(jù),但只給了下界,即所占比例至少是多少。切比雪夫不等式公式為:。根據(jù)該公式可知,至少有(1-1/2)個數(shù)據(jù)落在k個標(biāo)準(zhǔn)差之內(nèi),對于k=2,該不等式的含義是,至少有75%的數(shù)據(jù)落在±2個標(biāo)準(zhǔn)差之內(nèi)。
離散系數(shù):也稱為變異系數(shù)(coefficientof variation),是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,計(jì)算公式為:。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計(jì)量,主要是用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度大。離散系數(shù)是比較平均水平不同或計(jì)量單位不同的不同組別的變量值的離散程度。
離散測度總結(jié):分類數(shù)據(jù)主要用異眾比率來測度離散程度;順序數(shù)據(jù)主要用四分位數(shù)來測度離散程度;數(shù)值數(shù)據(jù)主要用方差和標(biāo)準(zhǔn)差測度離散程度;而對于不同的樣本數(shù)據(jù),用離散系數(shù)比較離散程度。
偏態(tài)(skewness):偏態(tài)是對數(shù)據(jù)分布對稱性的測度。測度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficient of skewness),記作SK。根據(jù)未分組和分組的原始數(shù)據(jù)計(jì)算偏態(tài)系數(shù)的公式為:。如果一組數(shù)據(jù)的分布是對稱的,則偏態(tài)系數(shù)等于0,表明分布是對稱的,若偏態(tài)系數(shù)大于1或小于-1,則稱為高度偏態(tài)分布;若偏態(tài)系數(shù)在0.5~1或-1~-0.5,則是中等偏態(tài)分布。根據(jù)分組的SK公式中,很明顯是將離差的三次方的平均數(shù)除以,是將偏態(tài)系數(shù)轉(zhuǎn)化為相對數(shù)。
