抽樣調(diào)查中“經(jīng)常出現(xiàn)的悖論”
很多人出于直覺認(rèn)為,只有進(jìn)行全面調(diào)查才能夠得到正確的結(jié)果。比如說(shuō),上一節(jié)提到的關(guān)于失業(yè)率的調(diào)查,假設(shè)隨機(jī)選取的0.5%的人全部都是失業(yè)者,而剩下的99.5%的人則全都沒有失業(yè),那么實(shí)際上整體的失業(yè)率只有0.5%,而抽樣調(diào)查的結(jié)果卻是失業(yè)率為100%,這就是抽樣調(diào)查中“經(jīng)常出現(xiàn)的悖論”。
可是,這個(gè)“經(jīng)常出現(xiàn)的悖論”所舉的例子究竟會(huì)不會(huì)出現(xiàn)?嚴(yán)格來(lái)說(shuō)答案是“有可能出現(xiàn)”。但是對(duì)統(tǒng)計(jì)學(xué)家來(lái)說(shuō),不能僅僅回答“有可能出現(xiàn)”,還必須回答“有可能出現(xiàn)的概率”。
如果失業(yè)率真的只有0.5%,那么對(duì)總?cè)丝?.2億中的0.5%,也就是60萬(wàn)人進(jìn)行調(diào)查,結(jié)果這60萬(wàn)人全部是失業(yè)者的概率當(dāng)然不可能為0。因?yàn)樵跀?shù)學(xué)上,不管一個(gè)數(shù)字多么無(wú)限接近于0,嚴(yán)格地說(shuō)都不能將其稱為0。
如果要將這個(gè)數(shù)字以小數(shù)的形式準(zhǔn)確地表示出來(lái),那恐怕要多達(dá)100萬(wàn)位數(shù)字以上,而且前面所有的數(shù)字都以0表示。
或許有人不知道為什么會(huì)出現(xiàn)這個(gè)數(shù)字,讓我們換一種說(shuō)法。0.5%的概率,也就是抽簽200次只能中1次,那么要連續(xù)抽中60萬(wàn)次的概率有多大呢?
雖然將抽中的簽再次放回抽簽箱中的方法(統(tǒng)計(jì)學(xué)中將其稱為重復(fù)抽樣),與不放回的方法(不重復(fù)抽樣)相比抽中的概率更高,但即便如此,仍然需要“在60萬(wàn)次抽簽中維持1/200概率”的奇跡。這就是之前提到的那個(gè)無(wú)限接近于0的小數(shù)。
重復(fù)抽樣可以在60萬(wàn)次的抽樣中維持“1/200”的概率,而實(shí)際上,失業(yè)率調(diào)查屬于不重復(fù)抽樣,在最后第60萬(wàn)次的抽樣中需要從剩下的約1.194億人中選出唯一的失業(yè)者,這完全可以說(shuō)是一個(gè)奇跡。
由此可見,提出“經(jīng)常出現(xiàn)的悖論”的人實(shí)在是相當(dāng)悲觀,要不然就是騙子。既然沒有人擔(dān)心“小行星撞擊地球的危險(xiǎn)”,為什么對(duì)“導(dǎo)致抽樣調(diào)查結(jié)果不準(zhǔn)確的概率”表現(xiàn)得如此不信任?