午夜精品福利视频,亚洲激情专区,免费看a网站,aa毛片,亚洲色图激情小说,亚洲一级毛片,免费一级毛片一级毛片aa

R語(yǔ)言論文

時(shí)間:2023-05-01 02:43:58 論文范文 我要投稿
  • 相關(guān)推薦

R語(yǔ)言論文

統(tǒng)計(jì)計(jì)算

R語(yǔ)言論文

分類(lèi)數(shù)據(jù)的列聯(lián)表分析

信計(jì)1002班 王秋燕 201020310216

分類(lèi)數(shù)據(jù)的列聯(lián)表分析

第一部分:

統(tǒng)計(jì)學(xué)中根據(jù)變量取值類(lèi)型的不同,把變量分為兩大類(lèi):離散型變量和連續(xù)型變量。離散型變量又稱(chēng)為定量變量,可分為區(qū)間變量和比率變量。

稱(chēng)變量為名義變量,如果變量的可能取值是沒(méi)有次序之分的幾個(gè)水平或狀態(tài)。稱(chēng)變量為有序變量,如果變量的可能去只是有次序之分的幾個(gè)水平或狀態(tài)。

稱(chēng)變量為連續(xù)型變量,如果變量的可能取值是某個(gè)連續(xù)區(qū)間。 對(duì)離散型變量進(jìn)行抽樣取得的數(shù)據(jù)稱(chēng)為分類(lèi)數(shù)據(jù),也稱(chēng)為屬性數(shù)據(jù)。 統(tǒng)計(jì)運(yùn)用于我們?nèi)粘I畹姆椒矫婷,尤其是在社?huì)科學(xué)中,常常采用列聯(lián)表來(lái)記錄我們所獲得資料,列聯(lián)表的資料看起來(lái)只是一個(gè)一個(gè)的資料,但這些由兩個(gè)或兩個(gè)以上的類(lèi)別交叉組合得出的格子,行變量的類(lèi)別用 r 表示,ri表示第

i個(gè)類(lèi)別,列變量的類(lèi)別用c

表示,cj表示第j個(gè)類(lèi)別,每種組合的觀察頻次用fij

表示,表中列出了行變量和列變量的所有可能的組合,所以稱(chēng)為列聯(lián)表,一個(gè)r行

c列的列聯(lián)表稱(chēng)為r?c列聯(lián)表。通過(guò)運(yùn)用統(tǒng)計(jì)檢驗(yàn)方法,能夠幫助我們更清晰地

分析社會(huì)現(xiàn)象。

列聯(lián)表獨(dú)立性檢驗(yàn)是卡方擬合優(yōu)度檢驗(yàn)的一個(gè)特例,人們將兩個(gè)或多個(gè)特征分類(lèi)數(shù)據(jù)即交叉分類(lèi)數(shù)據(jù)以表格形式列出即列聯(lián)表,從而利用這些數(shù)據(jù)用來(lái)研究?jī)煞N或多種分類(lèi)之間是否有某種聯(lián)系。

第二部分:

我們用統(tǒng)計(jì)理論來(lái)解決這個(gè)問(wèn)題。 方法一:我們采用獨(dú)立性的?2檢驗(yàn)。

?2檢驗(yàn)(Chi-square test)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,K. Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法,可用于兩個(gè)或多個(gè)率(或者構(gòu)成比)之間的比較,計(jì)數(shù)資料的關(guān)聯(lián)度分析,擬合優(yōu)度檢驗(yàn)等。 ①?2檢驗(yàn)用途:

比較稱(chēng)名變量的次數(shù),具體來(lái)講,就是比較實(shí)際次數(shù)與期望次數(shù)(或理論次數(shù))之間是否有相助差異,或研究檢驗(yàn)觀察值與理論值之間的緊密程度。?2擬合檢驗(yàn)就是用來(lái)確定事件出現(xiàn)的頻數(shù)分布與某一理論分布之間的差別是否是隨

機(jī)性的。

②?2分布基本思想: 第一,屬連續(xù)型分布,第二,可加性是其基本性質(zhì),第三,唯一參數(shù),即自由度。

(1)自由度為1的?2分布,若Z~N(0,1),則Z2的分布稱(chēng)為自由度為1的?2

2(Chi-square distribution),記為?(1)或?2(1)。

(2)Z1,Z2......Zv互相獨(dú)立,均服從N(0,1),則Z12?Z22?......?Zv2的分布稱(chēng)自由度為V的?

2?(2v)近

的正態(tài)分布。

圖一

2

③?2檢驗(yàn)(chi-square distribution)基本公式:? ??T,

(A?T)

2

??(R?1)(C?1)

上述基本公式由K. Pearson提出,因此許多統(tǒng)計(jì)軟件上常稱(chēng)這種檢驗(yàn)為Pearson’s Chi-square test,其他卡方檢驗(yàn)都是在此基礎(chǔ)上發(fā)展起來(lái)的\。 ④?2檢驗(yàn)主要有三個(gè):適應(yīng)性檢驗(yàn),正態(tài)性檢驗(yàn)以及獨(dú)立性檢驗(yàn)。

(1)適合性檢驗(yàn)為單樣本卡方檢驗(yàn),它只是記一個(gè)變量,但數(shù)據(jù)要分成若干相互排斥的組和范疇。其目的是檢驗(yàn)時(shí)間次數(shù)與期望次數(shù)是否吻合。

? np( 實(shí)統(tǒng)計(jì)量: 2 (n i ) ,實(shí)質(zhì)是: 測(cè) 頻 數(shù) ? 理 論 頻 數(shù) ) 2

???i???npi理論頻數(shù)i?1i?1

k

2

k

2

適合性檢驗(yàn)是用樣本提供的信息去推斷總體分布是否適合某種已知的規(guī)律。 (2)正態(tài)性檢驗(yàn),用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)其實(shí)也是一種適合性檢驗(yàn),即檢驗(yàn)實(shí)際次數(shù)分布與期望次數(shù)分布是否有顯著性差異。

(3)獨(dú)立性檢驗(yàn)就是檢驗(yàn)兩個(gè)特征或兩個(gè)分類(lèi)標(biāo)準(zhǔn)是互相獨(dú)立的還是互有聯(lián)系的。用于獨(dú)立性檢驗(yàn)的數(shù)據(jù)一般整理成“列聯(lián)表”的形式,即一個(gè)分類(lèi)標(biāo)準(zhǔn)把

數(shù)據(jù)分為若干列,另一個(gè)分類(lèi)標(biāo)準(zhǔn)把數(shù)據(jù)分為若干行,行列交叉形成一個(gè)個(gè)的方格。每一行和每一列都有一個(gè)總計(jì),書(shū)寫(xiě)在一行或一列的末尾,稱(chēng)為“邊際總和”。所有邊際和加起來(lái)就是全部數(shù)據(jù)的個(gè)數(shù)或樣本容量(N)。 獨(dú)立性檢驗(yàn)的分析步驟: 第一步:建立假設(shè)與備擇假設(shè):

H0:pij=pi?pj(行變量與列變量獨(dú)立); H1: pij=pi?pj(行變量與列變量不獨(dú)立)。 第二步:確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量為chi-square;

第三步:規(guī)定顯著性水平?,查表得出拒絕域和臨界值; 第四步:運(yùn)用R語(yǔ)言命令運(yùn)行;?

第五步:作出判斷將檢驗(yàn)統(tǒng)計(jì)量的值與?水平的臨界值進(jìn)行比較,得出接受或拒絕原假設(shè)的結(jié)論:若樣本統(tǒng)計(jì)量的值落入拒絕域,則拒絕原假設(shè),接受備擇假設(shè)

H1;否則,接受H0。

?2統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量之間是否存在顯著性差異,或者用于檢驗(yàn)變量之間是否獨(dú)立。當(dāng)n很大,每格eij都不太小時(shí),服從自由度k?(r?1)(c?1)的

?分布,計(jì)算公式為: ,其自由度為(r?1)(c?1),nij一列聯(lián)

2

eij一列聯(lián)表只第表中第i行第j列類(lèi)別的實(shí)際頻數(shù),i行第j列類(lèi)別的實(shí)際頻數(shù)。 2rc

方法二:Fisher精準(zhǔn)檢驗(yàn)

??

2

??

i?1

j?1

(nij?eij)

eij

Fisher精準(zhǔn)檢驗(yàn)是列聯(lián)表行變量和列變量獨(dú)立性的另一種檢驗(yàn)方法,F(xiàn)isher精準(zhǔn)檢驗(yàn)是在行與列邊際總數(shù)固定的假設(shè)下,利用超幾何分布,用枚舉法計(jì)算列聯(lián)表可能出現(xiàn)情況的概率,此時(shí)要檢驗(yàn)的問(wèn)題仍是

HO:行變量和列變量相互獨(dú)立。 (1) 首先介紹多元幾何的多元推廣,它是超幾何分布的多元推廣。 定義:設(shè)隨機(jī)向量X=(x1,x2,???xr)滿(mǎn)足條件:

(1)0?Xi?Ni(i=1,2,...,r),且N1?N2?...?Nr?N,

r

(2)m1,m2,...,mr為r個(gè)非負(fù)整數(shù),o?mi?Ni且?mi?m(0?m?N),事件概率

i?1

由下式給出:

(

P((X1,X2,...XR)?(m1,m2,...mr))?

N1m1

)(

N2m2(N

)...()

Nrmr

r

)?

m!(N?m)!?Ni!

i?1

r

,則稱(chēng)X

m

N!?mi!(Ni?mi)!

i?1

服從多元超幾何分布,記為X~MH(N1,N2,...Nr;m).

多元超幾何分布的背景如下,共有N個(gè)個(gè)體分為r類(lèi),其中第i(i?1,2,...,r)類(lèi)有Ni個(gè),現(xiàn)從總體中等可能無(wú)放回的抽取m個(gè)個(gè)體,用Xi表示m個(gè)個(gè)體中屬于第i類(lèi)的個(gè)數(shù),則X?(X1,X2,...,Xr)服從多元超幾何分布。特別當(dāng)r?2時(shí),多元超幾何分布就是超幾何分布。

①2?2表Fisher精準(zhǔn)檢驗(yàn):觀測(cè)表(Table)概率,雙側(cè)(Twosided)p值,左側(cè)(Leftsided)p值,右側(cè)(Rightsided)p值。

觀測(cè)表概率是按超幾何分布計(jì)算的所觀測(cè)到表格的概率。較小的雙側(cè)p值有利于行變量和列變量有關(guān)聯(lián)的備擇假設(shè)。對(duì)于2?2表,當(dāng)行列邊際總數(shù)固定時(shí),如表1,n11的數(shù)值完全決定了整個(gè)表格,n11記為(1,1)單元格可能出現(xiàn)的頻數(shù),則Fisher精準(zhǔn)檢驗(yàn)的左側(cè)p值是事件{n11?F}的概率,右側(cè)值是事件{n11?F}的概率。

表1

n11?F Leftsided p=

p(n11)?p(n11?F)

P(n11)?

n11?F

p(n11), Rightsided p=

?

n11?F

p(n11)。

如表1,在行邊際總數(shù)固定條件下,可以把row1和row2兩行看成兩個(gè)獨(dú)立的二項(xiàng)分布總體,則檢驗(yàn)問(wèn)題(1)中的H0相當(dāng)于row1和row2有相同的二項(xiàng)分布,所以檢驗(yàn)問(wèn)題(1)寫(xiě)成

H0:p(Y?coll)?p(Y?collX?row1)?p(Y?collX?row2),結(jié)合表1,則

HO:p?1?

p1p1?

1

?

p

21

p2?

。 (2)

由此不難理解,在Fisher精準(zhǔn)檢驗(yàn)中,與檢驗(yàn)水平?相比較,小的左側(cè)p值有利于備擇假設(shè):對(duì)于row1總體,觀測(cè)屬于coll的概率,小于其期望概率;小的右側(cè)p值有利于備擇假設(shè):對(duì)于row1總體,觀測(cè)屬于coll的概率,大于其期望概率。即左側(cè)p值和右側(cè)p值分別對(duì)應(yīng)檢驗(yàn)問(wèn)題(2)的如下備擇假設(shè);

?H1:p11p1??p?1,Leftside?

?H2:P11P1??P?1,Rightside

p,p,

,

綜上所述,對(duì)2?2表,F(xiàn)isher精準(zhǔn)檢驗(yàn)的左側(cè)p值小于檢驗(yàn)水平,說(shuō)明row1的coll風(fēng)險(xiǎn)小于row2的coll風(fēng)險(xiǎn),即p?p12,又等價(jià)于OR(Odds Ratio,優(yōu)比比率)大于1。右側(cè)p值小于檢驗(yàn)水平,說(shuō)明row1的coll風(fēng)險(xiǎn)大于row2的coll風(fēng)險(xiǎn),即p?p12。

第三部分:

用R語(yǔ)言解決

> x dim(x) rcl rcl (輸出結(jié)果) V1 v2 2 4 3 6

> dimnames(rcl)[[1]] dimnames(rcl)[[2]] rcl(輸出結(jié)果) b1 b2 a1 2 6 a2 5 7

> Chisq.test(rcl)(用皮爾松卡方檢驗(yàn))

Pearson's Chi-squared test with Yates' continuity correction data: rcl

X-squared = 0.0824, df = 1, p-value = 0.774(輸出結(jié)果)

最后看p-value值,p-value0.05,接受原假設(shè),兩者是獨(dú)立的,沒(méi)有關(guān)系。 從結(jié)論看,p-value = 0.774,接受原假設(shè),兩者是獨(dú)立沒(méi)有關(guān)系的。

第四部分

例子:為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人)。

> dim(s)=c(2,2) > s

[,1] [,2] [1,] 7775 42 [2,] 2099 49 > rcl rcl V1 V2 1 7775 42 2 2099 49

> dimnames(rcl)[[1]]

> dimnames(rcl)[[2]] rcl

do not get lung cancer lung cancer do not smoke 7775 42 smoke 2099 49 > chisq.test(rcl)

Pearson's Chi-squared test with Yates' continuity correction data: rcl

X-squared = 54.721, df = 1, p-value = 1.389e-13

從最后的p-value可以看出,p-value

【R語(yǔ)言論文】相關(guān)文章:

學(xué)科術(shù)語(yǔ) R05-04

論文化語(yǔ)言學(xué)中的語(yǔ)言與文化04-28

華茲華斯詩(shī)歌的語(yǔ)言特色論文04-28

根據(jù)R基因保守區(qū)分離小麥R基因類(lèi)似序列05-03

《zh ch sh r》的教案08-26

淺談R&D活動(dòng)04-28

HexTOOL(R)的初步驗(yàn)證試驗(yàn)04-28

天文術(shù)語(yǔ) R-S05-04

簡(jiǎn)述語(yǔ)言模因與網(wǎng)絡(luò)語(yǔ)言論文12-15

與群PSL2(R)相關(guān)的交叉積R(A,α)的一點(diǎn)注記04-29