沒(méi)有接受過(guò)統(tǒng)計(jì)學(xué)方面訓(xùn)練的人是出色的“直覺(jué)性統(tǒng)計(jì)學(xué)家”。我與阿莫斯在20世紀(jì)70年代早期的合作便始于對(duì)這個(gè)觀(guān)點(diǎn)的討論。他對(duì)我(在大學(xué))的研究班及我本人講過(guò),密歇根大學(xué)的一些研究人員對(duì)直覺(jué)性統(tǒng)計(jì)抱有樂(lè)觀(guān)態(tài)度。我個(gè)人對(duì)那個(gè)觀(guān)點(diǎn)有種強(qiáng)烈的感覺(jué):那段時(shí)間我發(fā)現(xiàn)自己并不是一個(gè)出色的直覺(jué)性統(tǒng)計(jì)學(xué)家,但是我也不相信別人會(huì)比我好多少。
對(duì)于一個(gè)研究型心理學(xué)家來(lái)說(shuō),樣本變差沒(méi)有什么特別的。它是個(gè)煩人且損失又大的麻煩事,會(huì)把每項(xiàng)實(shí)驗(yàn)都變成一場(chǎng)賭博。試想你希望證明6歲女孩的平均詞匯量比同齡男孩的詞匯量更豐富的假設(shè)。這個(gè)假設(shè)從整體來(lái)說(shuō)是成立的,女孩的平均詞匯量確實(shí)要比男孩的豐富一些。然而,盡管男孩與女孩差別很大,但你很可能會(huì)抽取到男女相差不太明顯的樣本,甚至?xí)榈揭粋€(gè)男孩比女孩詞匯測(cè)試成績(jī)還要好的樣本。如果你是那個(gè)研究者,這個(gè)結(jié)果對(duì)于你來(lái)說(shuō)代價(jià)就太高了,因?yàn)樗速M(fèi)了你的時(shí)間和精力,卻無(wú)法證實(shí)一個(gè)實(shí)際正確的假設(shè)。使用一個(gè)足夠大的樣本是降低這種風(fēng)險(xiǎn)的唯一方法。選擇小樣本的研究者只能看自己是不是能選對(duì)合適的樣本了。
想要對(duì)樣本錯(cuò)誤的風(fēng)險(xiǎn)作出評(píng)估,只需通過(guò)一個(gè)相當(dāng)簡(jiǎn)單的步驟就可以實(shí)現(xiàn)。然而按照慣例來(lái)看,心理學(xué)家并不是通過(guò)計(jì)算來(lái)選定樣本大小的。他們聽(tīng)從自己的判斷,但這些判斷往往是錯(cuò)的。在與阿莫斯發(fā)生意見(jiàn)分歧不久之前,我讀過(guò)一篇文章,文章通過(guò)生動(dòng)的觀(guān)察結(jié)果展示了研究人員所犯的錯(cuò)誤(他們現(xiàn)在仍在犯這種錯(cuò)誤)。該文作者指出心理學(xué)家選擇的樣本通常都很小,致使他們有50%的風(fēng)險(xiǎn)不能夠證實(shí)其正確的假設(shè),而任何研究人員都不會(huì)在頭腦清醒的情況下接受這種風(fēng)險(xiǎn)。對(duì)此有一個(gè)貌似正確的解釋?zhuān)葱睦韺W(xué)家對(duì)于樣本大小的決定反映了他們普遍存在的一個(gè)直覺(jué)性錯(cuò)誤觀(guān)念,即對(duì)于樣本變差范圍的錯(cuò)誤看法。
這篇文章令我十分震驚,因?yàn)槲以谧约旱难芯恐信龅搅艘恍﹩?wèn)題,卻在這篇文章中找到了相關(guān)解釋。與大多數(shù)研究型心理學(xué)家一樣,我也墨守成規(guī)地選擇了一些過(guò)小的樣本,因此得到的實(shí)驗(yàn)結(jié)果毫無(wú)意義。現(xiàn)在,我知道了原因:那些奇怪的結(jié)果實(shí)際上就是我這種研究方法的典型產(chǎn)物。我的錯(cuò)誤特別令人尷尬,因?yàn)槲医踢^(guò)統(tǒng)計(jì)學(xué),也知道該怎樣計(jì)算樣本的大小,以便將風(fēng)險(xiǎn)降至可以接受的程度。但是,我從未通過(guò)計(jì)算來(lái)確定樣本大小。和我的同事一樣,我被傳統(tǒng)所禁錮,相信自己設(shè)計(jì)實(shí)驗(yàn)的直覺(jué),也從未認(rèn)真考慮過(guò)樣本選擇會(huì)帶來(lái)的那些風(fēng)險(xiǎn)。阿莫斯來(lái)參加研討會(huì)時(shí),我已經(jīng)意識(shí)到自己的直覺(jué)是錯(cuò)誤的。在研討會(huì)中,我們很快達(dá)成共識(shí)—密歇根的那些樂(lè)觀(guān)派是錯(cuò)誤的。
我與阿莫斯開(kāi)始調(diào)查一個(gè)問(wèn)題:只有我自己這么愚蠢還是我只是眾多愚蠢的人之一,我們通過(guò)一項(xiàng)測(cè)試來(lái)證實(shí)這個(gè)問(wèn)題,測(cè)試對(duì)象為一些數(shù)學(xué)家,想看看這些人是否也會(huì)犯類(lèi)似的錯(cuò)誤。我們?cè)O(shè)計(jì)了一份調(diào)查問(wèn)卷,其中描述了真實(shí)的研究情境,包括一些成功實(shí)驗(yàn)的復(fù)制。問(wèn)卷要求研究人員選擇樣品大小,對(duì)其決定可能帶來(lái)的失敗風(fēng)險(xiǎn)進(jìn)行評(píng)估,并為那些正在設(shè)計(jì)自己實(shí)驗(yàn)的研究生提供建議。在 “數(shù)學(xué)心理學(xué)協(xié)會(huì)”的一次會(huì)議上,阿莫斯收集了一組資深受試者(包括兩本經(jīng)濟(jì)學(xué)著作的作者)的反應(yīng)。結(jié)果很明顯:我并不是唯一一個(gè)愚蠢的人。大多數(shù)受試者都會(huì)犯和我一樣的錯(cuò)誤。顯然,即使是專(zhuān)家,在選擇樣品大小時(shí)也無(wú)法充分集中注意力。
我和阿莫斯將我們合寫(xiě)的第一篇文章命名為“對(duì)小數(shù)定律的盲信”。我們半開(kāi)玩笑地解釋道,“對(duì)于隨意取樣的直覺(jué)似乎符合小數(shù)定律,由此可以斷言大數(shù)法則對(duì)于小數(shù)定律同樣適用”。在文章中,我們還收錄了一個(gè)措辭有力的建議,即研究人員認(rèn)為他們“對(duì)于統(tǒng)計(jì)直覺(jué)應(yīng)抱有一些懷疑,只要條件允許,都應(yīng)采用計(jì)算方法來(lái)確定樣本規(guī)模,而不是依靠直覺(jué)印象作決定”。