現(xiàn)在,將美國人口想象成一個巨大的甕中的彈球。有些球上標(biāo)有KC(即Kidney Cancer的簡稱)字樣,表示腎癌。你抽取彈球樣本,并依次按照所在縣擺放,你會發(fā)現(xiàn)鄉(xiāng)村地區(qū)的樣本要比其他地區(qū)的少。如同杰克和吉爾所做的那個游戲一樣,極端的結(jié)果(非常高或非常低的癌癥發(fā)病率)容易出現(xiàn)在人口稀少的縣,這個故事告訴我們的就是這些。
我們從一個令人費解的事實說起:腎癌的發(fā)病率在各縣有所不同,且是有規(guī)律的,我用統(tǒng)計學(xué)理論對此作了解釋:相比于大樣本,極端的結(jié)果(高發(fā)病率和低發(fā)病率)更容易出現(xiàn)在小樣本中。這樣的解釋不存在因果聯(lián)系。某縣的人口稀少既不會引發(fā)癌癥,也不能避免癌癥,只會使癌癥的發(fā)病率比人口稠密地方的發(fā)病率更高(或更低)。這就是真相,沒什么可解釋的。在某個人口稀少的縣,癌癥發(fā)病率并非真的比正常情況更低或更高,只是這個縣正好在某個特殊的年份趕上了抽樣調(diào)查罷了。如果我們在第二年重復(fù)這樣的分析,也能預(yù)測到在小樣本中出現(xiàn)極端結(jié)果的一般模式,但在前一年癌癥發(fā)病率高的縣,這一年發(fā)病率并不一定高。如果是這樣的話,則人口稠密或稀少的因素就無法對發(fā)病率作出解釋了:這些表面因素就是科學(xué)家眼中所謂的假象,即觀察結(jié)果完全依賴于調(diào)查方法的某一方面,在這個案例中,則依賴于樣本大小。
我剛才說的例子也許會令你驚訝,但這并不是真相初次大白于天下。你早就知道應(yīng)該更相信大樣本,并且即使是對統(tǒng)計學(xué)一無所知的人也聽說過大數(shù)法則。但是“知道”并非是非抉擇問題,你可能會發(fā)現(xiàn)下列陳述放在自己身上很合適:
當(dāng)你閱讀這個關(guān)于流行病學(xué)的例子時,并沒有立刻注意到“人口稀少”這一特點與此次調(diào)查有何關(guān)聯(lián)。
對于采用4個樣本還是7個樣本所產(chǎn)生的不同結(jié)果,你至少會感到有一點驚訝。
即使是現(xiàn)在,想要確定下面兩個陳述句所說的完全是一回事,你也要費些腦力:
(1)大樣本比小樣本更精確。
(2)小樣本比大樣本產(chǎn)生極端結(jié)果的概率大。
第一個表述清晰地陳述了一個事實,但直到感受到第二個表述傳達給你的意思,你才意識到自己并沒有真正理解第一個表述的意思。
上述內(nèi)容概括起來就是:沒錯,你知道大樣本的結(jié)果更精確,但你現(xiàn)在可能才意識到你并不清楚為什么它們更精確。不僅你一人如此,阿莫斯與我在一起進行的第一個研究表明,即使是經(jīng)驗豐富的研究人員對樣本效應(yīng)也缺乏直覺,要么就是理解不到位。