��獠⒉灰饢蹲毆ぷ事史⑸�吮潿��
你也許曾在報紙上看到過,某年美國的家庭平均收入是6940美元。別太在意這個數字,除非你知道這個數字包括了哪些家庭,以及使用了哪種平均數。(甚至這是誰說的,他是如何獲得該資訊的以及這個數的準確性你都要知道。)
上述資料來自於普查局(the Bureau of the Census)。如果手頭有普查局的整篇報告,你將不費吹灰之力地弄清楚所需要的其他資訊。首先,這是個中位數;其次,“家庭”是指兩個或更多具有親屬關係的人住在一起所形成的“家庭”。如果再回過頭讀一下表中的資料,你還將發現這個資料建立在抽樣基礎之上,該調查以19/20的機率保證真實的數值會落在估計值加減71美元的範圍之內。
類似的機率和誤差範圍構成了一個很好的估計。普查工作者掌握了足夠的統計知識和足夠的財力,如果沒有特殊的企圖,他們能夠將抽樣研究結果控制在較好的精度範圍之內。但並不是所有的資料都出自這種嚴謹的環境,也不是所有的資料會附上關於資料精確度的任何說明。在下一章,我們還將展開詳細的分析。
同樣,對《時代》雜誌“編者的話”欄目中的某些專案,你會表示懷疑。該雜誌這樣描述他們的新訂戶:“他們年齡的中位數是34歲,家庭平均年收入為7270美元。”早期關於“舊時代”讀者的調查發現,“年齡的中位數是41歲……平均年收入為9535美元……”一目瞭然的是,為什麼兩次談到年齡時都指出採用了中位數,而關於收入卻不明確平均數的型別。也許收入使用的是數值較大的均值,以達到利用高收入讀者群吸引廣告商的目的。
對第一章開頭所提到的1924級耶魯學生的平均收入,你同樣可以提這樣一個問題:這裡用的是哪種平均數?
本章小結:
◆所以,當你被告知某個數是平均數時,除非能說出它的具體種類——均值,中位數,還是眾數,否則你對它的具體涵義仍知之甚少。
◆在處理諸如人類特徵的資料時,各種平均數的數值十分接近。這些資料具有我們常說的正態分佈的形態特點,在你用###繪製正態分佈時,將看到一根鐘形的###,均值、中位數和眾數都落在相同的點上。
◆當你看到某個平均收入時,首先問問:是什麼的平均?包括了哪些人?
◆類似的機率和誤差範圍構成了一個很好的估計。
沒有披露的資料(1)
第三章 沒有披露的資料
某位統計專家曾經建議,在被告知某個調查的結果時,你需要做的就是反問一句:“為了得出這個結論,你調查了多少名被訪者?”
正如以前曾指出的那樣,採用嚴重有偏的樣本幾乎能夠產生任何人需要的任何結果。只要樣本容量足夠小,或者你嘗試足夠多的次數,正確的隨機樣本也可以達到上述效果。
“使用者反映使用多克斯(Doakes)牌牙膏將使蛀牙減少23%”,大字標題歷歷在目。你希望減少23%的痛苦,於是接著往下讀。你發現這些結論出自一家信譽良好的“獨立”實驗室,並且還經過了註冊會計師的證實。有了這些,你還想知道什麼呢?
然而,如果你不是特別容易輕信他人,或者不是一個盲目樂觀的人,經驗將告訴你:一種牙膏很難比其他牙膏好。那麼多克斯公司是怎樣製造了上述結論?如果是說謊,但用大字標題報道這些謊言,他們又如何能夠逃避責任呢?事實是,他們根本無需說謊,下面便是簡單而有效的方法。
這裡的主要把戲是不充分的樣本——統計角度的不充分。但對於多克斯公司來說已經足夠了。只有當你讀小字型的文字時才會發現:被測試的使用者僅由12人組成。單憑這點,你便不得不佩服多克斯公司,它留給你一個可能知道全部情況的機會。有的廣告商索性將類似的文字都略去,留給讀者——即便他是一個老練的統計專家——一個猜想:這裡面到底玩了什麼把戲?從這個角度來說,多克斯公司由12個人組成的樣本還不算太壞。幾年前,一種叫做可尼斯博士(Dr。 Cornish)的牙粉上市了,並宣傳“在治療齲齒方面獲得了極大成功”,因為該牙粉中含有尿素,而經過實驗室的證明,尿素對於治療齲齒是有益的。然而,由於實驗室的工作只是剛剛起步,僅僅建立在6個案例之上,毫無疑問這個結論是缺乏意義的。
下面,讓我們再回頭看看,多克斯公司是怎樣輕易地獲得一