- 統計學的世界
- 譯者序
- 寫給教師 統計可以當作通識教育來教
- 前言 什麼是統計
- 數據勝過軼聞
- 比較得出結論
- 小心潛在變數
- 變異無所不在
- 結論並非百分百確定(信賴區間為何)
- 數據反映社會價值,但不是惟一價值
- 統計與你 這本書裡談些什麼?
- 數據的產生
- 資料分析
- 機率
- 統計推論
第一部 產生數據
第1章 數據從何而來?
- 光看不想,看不出所以然
- 追問「數據」是打那兒來的?
- 來說說數據:個體和變數
- 個體:數據所描述的對象
- 變數:個體的任意特質。
- 下例:姓名處標示個體;主修及分數為變數。
姓名主修分數安安數學399芝芝國文312- 下例:地區為研究個體;時間及量為變數。
地區資源回收時間回收量(公斤)大安區21:30211中山區21:00132- 觀測研究
- 一開始不知道要觀察什麼,隨著模式出現,而逐漸系統化。
- 觀測研究(observational study)是觀察一些個體,並度量我們感興趣的變數,但並不試圖影響回應。觀測研究之目的是描述一個團體或一種狀況。
- 抽樣調查
- 你不必吃一頭牛,才知道肉是老的。
- 母體是我們求取資訊的對象全體。樣本是母體的一部份。
- 要想從樣本中得出什麼結論來,必須先知道該樣本代表的母體是什麼。
- 普查
- 普查就是想看全部。普查是企圖把整個母體納入樣本的抽樣調查。
- 實驗
- 觀測研究遵循同一個原則:觀測,但別干擾。
- 實驗時會刻意對某些個體加上某項處理(treatment),以期能夠觀察其反應。實驗的目的是要研究,是否該特定處理會使反應改變。
- 福利金實驗,選兩組相似的人,要求一組參加工作訓練,一組沒有,比較其差異。
- 原則上來說,實驗可以為「因果關係」提供良好的證據。
- 實驗可以提供好的證據,顯示其某項處理的確造成某種反應。
- 統計推論是對一群個體「平均來說」(on the average)的結論。
- 網路尋奇
- 抽樣調查的相關網站
- 當前人口調查www.bls.gov/cpshome.htm
- 尼爾森媒體研究www.nielsenmedia.com
- 全面社會調查www.norc.uchicago.edu/gss/homepage.htm
- 本章重點摘要
任何一個統計研究都會記錄關於一些個體(人、動物或東西)的資料,也就是一個或多個變數的值。有些變數比如年齡和收入,值是數值的。其他有些變數,比如職業或性別,就不是數值的。要確定研究中的變數,度量的就是你想要的訊息。對於任何一項統計研究,你最需要知道的,是數據是如何產生的。觀測研究在只觀測不干擾的情形下蒐集資料。抽樣調查是觀測研究當中很重要的一種。抽樣調查是從某個特定母體中抽取樣本,然後從樣本中擷取關於整個母體的資訊。普查試圖取得母體中每個個體的資訊。實驗會對個體做某件事情,然後觀察個體如何反應。實驗的目的通常是要了解,某種處理是否確實會引起某些反應。- 第1章習題
第2章 好樣本和壞樣本
- 怎樣可取得爛樣本
- 如果統計問題的偏使得結果總是往某個方向偏,我們就稱這個設計是有偏的(biased)。
- 從母體抽樣時,如果選最容易取得的,叫做方便抽樣。自發性回應樣本則是經由對某一訴求的回應而自然形成的。write-in或call-in意見調查都是自發性回應樣本的例子。方便樣本及自發性回應樣本常常是有偏的。
- EX:專欄作家問,如果可以重來,你會想要小孩嗎?這是一個自發性回應樣本。通常對某個議題有強烈意見的人,尤其是負面感覺的,比較會不嫌麻煩地回應。(54-55)
- 簡單隨機樣本
- 統計學家回應上述問題的方法,是透過機遇(chance)來選取樣本。
- 隨機亂數表。但其實聽命行事的電腦跑出來的隨機,只是看起來隨機,仍有潛藏的非隨機因素。
- 樣本可靠嗎?
- 網路尋奇
- 本章重點摘要
- 我們選取樣本,以期得到有關母體的資訊。怎樣可以選到較能代表母體的樣本呢?方便樣本和自發性回應樣本都常有人使用,但是產生的結果常令人存疑。這些抽樣方法通常是有偏的。也就是說,在選取樣本時,會有系統的偏向於母體的某一部分。
- 刻意利用機遇來產生數據,是統計當中的重大概念之一。隨機樣本使用機遇來挑選樣本,因此可以避免人為選擇的偏差。隨機樣本中最基本的一種是簡單隨機樣本(SRS),它選取的方式會使得所有同樣大小的樣本,都有同樣的機會中選。
- 第2章習題
第3章 樣本告訴我們什麼?
- 從樣本到母體
- 參數之於母體,相當於統計量之於樣本。
- 抽樣變異
- 隨機樣本藉由選樣本的方式來消除偏差,但是由於隨機選取的結果會有變異,所以得到的結果還是可能很不準。如果從同一母體重複取樣,但所得結果的變異太大的話,我們就對任一個樣本的結果都不敢信任了。
- 大樣本的變異性會比小樣本小。
- 偏差是當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。
- 變異性描述的是,當我們取很多樣本時,統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大。一個好的抽樣方法,應該要有小偏差以及小變異性。
- 減低偏差:利用隨機抽樣即可。若先將整個母體列出來,再從中抽取簡單隨機樣本,就會得到不偏估計值,也就是說,以SRS得到的統計量來估計母體參數,既不會老是高估,也不會老是低估。
減低SRS的的變異性:用大一點的樣本。只要樣本取得足夠大,變異性要多小都可以做得到。- 誤差界限
- 抽樣調查報告中所宣告的「誤差界限」,其實是把抽樣變異性,轉換成一種我們對調查結果有多少信心的敘述來表達。「誤差界限(margin of error)是正負3個百分點」是下列敘述的縮寫:如果我們用和抽這個樣本同樣的方法,也抽許許多多樣本,則這些樣本中有95%,其所得的結果會在母體真正值的正負3個百分點之內。[即我們有95%的信心...]
- 誤差界限速算法:假設我們是在用大小為n的一個簡單隨機樣本的樣本比例p-hat,來估計未知的母體比例p。對於95%信心的誤差界限,大致等於1/n
- 統計學上的爭議:選舉民調該禁止嗎?
- 信賴敘述
- 以下是蓋洛普對於樂透彩券購買情況所做結論的精簡版:「調查發現57%的成年人在過去12個月中曾購買彩券。我們有95的信心,所有成年人的真正購買比例,會在這個樣本結果的正負3個百分點範圍內。」再來是超級精簡版:「我們有95%的信心,所有成年人當中,有54%到60%曾在過去12個月裡買過彩券。」這些都是信賴敘述。
- 信賴敘述(confidence statement)包含兩個部分:誤差界限(margin of error)及信賴水準(level of confidence)。誤差界限告訴我們,樣本統計量離母體參數多遠。
- 信賴水準告訴我們,所有可能樣本中有多少百分比滿足這樣的誤差界限。
- 信賴敘述的結論永遠是針對母體而不是針對樣本。(樣本我們已知,但母體我們不清楚)
- 我們對母體所做的言論永遠不會是完全正確的。(蓋洛普的樣本有可能就是誤差超過3個百分點的5%樣本之一。)
- 抽樣調查可以選擇95﹪以外的信賴水準。
- 報告誤差界限時,用95%的信賴水準是很普遍的。
- 想在同樣的信賴水準下,要氷較小的誤差界限嗎?取個大一點的樣本就成了。
- 從大母體抽樣
- 網路尋奇
- 本章重點摘要
- 第3章習題
第4章 真實世界中的抽樣調查
- 在現實世界當中,簡單隨機樣本一點也不簡單,而且也不一定隨機。
- 抽樣調查怎樣出錯
- 抽樣誤差是抽樣這個動作造成的誤差。抽樣誤差使得樣本結果和普查結果不同。
- 隨機抽樣誤差是樣本統計量和母體參數之間的差距,是在選取樣本時因機遇造成的。信賴敘述中的誤差界限只包含隨機抽樣誤差。
- 非抽樣誤差是和「從母體取樣本」這個動作無關的誤差。非抽樣誤差即使在人口普查中也可能出現。
- 抽樣誤差
- 抽樣之前必先有一個「清單」,上面列出母體所有成員,可讓我們從中抽取樣本。我們稱之為抽樣底冊(sampling frame)。理論上來說,抽樣底冊應該包括母體當中的每一個個體。但是整個母體的清單通常很難取得,所以大部分的樣本,多多少少都會有涵蓋不全的問題。
- 在選樣本的過程中,如果母體當中的有些部分,根本未被納入選擇範圍,這時就發生了涵蓋不全的問題。
- 譬如說,我們用電話簿來抽樣,就排除了沒有電話的人。
- [我們的確涵蓋不全]大部分的民意調查無力去試圖涵蓋全美國成年居民這樣大的母體。且他們是用電話做訪問的,因此會漏掉沒裝電話的那6%住戶。而他們只連絡一般住戶,所以住在宿舍的學生、監獄裡的犯人以及大部分的軍人都被排除在外;而且還漏掉街上的遊民和住在臨時收容所的人。因為打電話到阿拉斯加跟夏威夷很貴,所以大部分民意調查的取樣,並不包括這兩州在內。還有,很多民意調查只用英語訪問,這又把某些移民家庭給排除在外了。
- 非抽樣誤差
- 處理誤差:在機械化工作犯的錯誤。
- 回應誤差:受訪對象的回答不正確。(忘了看幾次醫生,或者不願回答)
- 無回應:連絡不上受訪對象,或者受訪對象拒絕合作。
- 利用現代科技再加上注重細節,可以把處理誤差減到最低。技術熟練的訪問員也可以大幅度的減少回應誤差,特別是在面對面訪問的時候。但是對於像無回應這種最嚴重的非抽樣誤差,並沒有簡單的方法可以對付。
- 問題的措辭
- 問題的措辭會影響答案。如果問題的說法傾向於某個答案,則又是一個非抽樣誤差的來源。有一招受歡迎的把戲是問受訪者是否贊同某項政策以便達成某種目標:「你是否贊成禁止私人擁有槍械以減低犯罪率?」...這些都是「加了料」的問題,具引導傾向。
- 如何因應非抽樣誤差
- 分層抽樣。
- 真實世界中的抽樣設計
- 所有好的樣本都是機率樣本。
- 機率樣本是利用機遇抽取的樣本。我們要先知道哪些樣本是可能的,以及每個可能的樣本被抽中的機率是多少。有些機率樣本,比如說分層樣本,並不包括母體所有可能樣本,即使包括在內的樣本,被抽中的機率也未必一樣。
- 相信調查結果之前該問的問題
- 誰做的調查?
- 母體是什麼?
- 樣本是怎樣選取的?
- 樣本多大?
- 應答率是多少?
- 用什麼方式連絡受訪者?
- 調查是什麼時候做的?
- 問題確實是怎麼問的?
- 網路尋奇
- 本章重點摘要
即使是專業的抽樣調查,也沒法對母體提供正確的資訊,因為抽樣時會有許多可能性的誤差來源。抽樣調查結果裡提出的誤差界限,只涵蓋隨機抽樣誤差,也就是在選隨機樣本時,因機遇而產生的變異。其他種類的誤差沒有被包括在內,而且也沒法直接度量。抽樣誤差是由抽樣這個動作造成的誤差。隨機抽樣誤差及涵蓋不全是抽樣誤差中常見的兩種。當母體中有些成員沒被列進抽樣底冊的時候,就發生涵蓋不全的問題,抽樣底冊是母體全部成員的清單,樣本就是從這當中抽取的。然而在大部分嚴謹執行的調查中,最嚴重的誤差是非抽樣誤差。這些誤差和抽取樣本沒有關係,連普查時也會有非抽樣誤差的存在。抽樣調查最大的一個問題就是無回應:調查對象連絡不上,或者拒絕回答。處理資料時發生的錯誤(處理錯誤)或者回應者給了錯誤答案(回應誤差),也都屬於非抽樣誤差的例子。最後一點,連問題的描辭都對答案有重大影響。設計抽樣調查的人會應用一些統計技巧來設法降低非抽樣誤差,他們也會用比簡單隨機樣本複雜的機率樣本,比如分層樣本。只要你觀察一些基本事項就可以對一項抽樣調查的品質做相當好的評估,這些事項包括是否用隨機樣本,樣本大小和誤差界限、無回應率以及問題的措辭。- 第4章習題
第5章 實驗面面觀
- 談談實驗
- 所有的實驗,以及許多觀測研究,都是想要知道一個變數對另一個變數有何影響。
- 反應變數(response vairable)是指用來度量研究結果的變數。
- 解釋變數(explanatory variable)是我們認為可以解釋或造成反應變數變化的變數 [作者不喜歡自變項與依變項的說法124]
- 實驗中所研究的個體,我們稱為受試對象(subject)
- 處理(treatment)是任何加諸於受試對象的特定實驗條件。若實驗當中有數個解釋變數,則處理就是指每個變數都設定一個特定值後的組合。
- 怎麼樣做爛實驗
- [交絡]潛在變數(lurking variable)是對研究中其他變數間的關係有重要影響,卻未被列為解釋變數的變數。 y=ax+b [那個c未被考慮在中]
- 當兩個變數對反應變數的影響混在一起而無法區分時,我們稱這兩個變數是交絡的(confounded)。交絡的變數可以是解釋變數,也可以是潛在變數。 y=ax+ab+b [ab為交絡關係]
- 隨機化比較實驗
- 控制組不一定是接受像安慰劑那樣的假治療,臨床試驗常常會把新的治療方法和已經在使用的方法進行比較。
- 實驗設計的邏輯
- 隨機化比較實驗是統計學裡最重要的概念之一。它的設計是要讓我們能夠得到釐清因果關係的結論。我們先來弄清楚隨機化比較實驗的邏輯。
- 用隨機化的方式將受試對象分組,所分出的各組在實施處理之前,應該各方面都類似。
- 用「比較」的設計以確保:除了實驗上的處理外,其他所有因素都會同樣作用在所有的組上。
- 因此,反應變數的差異必是處理的效用所致。
- 醫學文獻裡可以找到,經過適當的比較實驗研究過的療法,以及只經過「歷史對照組」實驗的療效。用歷史對照姐做的研究不是把新療法的結果和控制組比,而是和過去類似的病人在治療後的效果作比較。納入研究的56種新療法當中,用歷史對照組來比較時,有44種療法顯示出有效。然而在經過使用合適的隨機化比較實驗後,只有10種通過安慰劑測試。即使有跟過去的病人比,醫師的判斷仍過於樂觀。目前來說,法律已有規定,任何新藥必須用隨機化比較實驗來證明其安全性及有效性。但是對於其他醫療方法,比如手術,就沒有這項規定。你可以指望新藥一定比安慰劑好,但新的手術概念就未必了,這情況就跟以前的胃冷凍一樣。
- 統計實驗設計的基本原則如下:
- 要控制潛在變數對反應的影響,最簡單的方式是同時比較至少2個處理。
- 隨機化:用非人為的隨機方法來指派受試對象到不同的處理組。
- 每一組的受試對象要夠多,以減低結果中的機遇變異[就算兩組用完全一樣的處理,結果也是會有差別的,因為受試對象永遠會有個別差異。]
- 即使隨機化可以消除組與組之間的系統差異,機遇差異還是存在。我們應該要求反應變數間的差異要大,使得差異不會僅因機遇變異就發生。
- 統計顯著性
- 我們觀察到的效果如果大到某種程度,光靠機遇產生這種結果的機率很小時,我們就稱此結果有統計顯著性(statistical significance)。
- 在很多不同研究領域的調查報告當中,你都常常會看到「有統計顯著性」這樣的用語。這就是告訴你,對於想要證明的效用,調查者找到好的證據了。
- 只能觀測的時候怎麼辦
- 基於倫理或安全性,不能作實驗,僅能透過觀察。好的研究不管是不是作實驗,都一定要做比較。...我們可以透過同時運用比較與適配(matching),而創造出控制組。為了想要知道止痛藥的影響,我們可以找出屬性類似的懷孕婦女,來進行比較。
- 比較並不能消除交絡[按時去教室或清真寺的人,比較會照顧好自己]。好的比較研究,必須能夠度量並且調整交絡變數。如果我們度量體重、抽菸習慣、運動習慣,就可以用統計技巧來減少這些變數對壽命的影響,而只剩下(我們希望如此)宗教的影響。
- 網路尋奇
- 本章重點摘要
- 統計研究常常試圖提出證據證明,當改變某個變數(解釋變數)時,會使另一個變數(反應變數)產生變化。在實驗當中,我們會自己設定解釋變數,而不是只觀察它們。觀測研究和只實施一種處理的單軌實驗,因為潛在變數有交絡,不可能分得出處理的效果到底是什麼,所以通常無法生產出有用的數據。補救方法是利用隨機化比較實驗,利用兩個或更或更多個處理,利用更多個處理,利用機遇決定哪些受試對象接受哪個處理,並且用足夠多的受試對象,使得機遇產生的影響變小。比較兩個或多個處理,可以控制諸如像安慰劑效應等的潛在變數,因為潛在變數對每個處理組都同樣有作用。
- 不同的處理所產生的效應差距,若大的幾無可能僅因為機遇而產生時,叫做有統計顯著性。從隨機化比較實驗所得到具統計顯著性的結果,是改變解釋變數會導致反應變數改變的最好證據。對於因果問題做的觀測研究,如果能比較相似的組,並且儘量多度量潛在變數來做統計調整的話,結果會比較可信。對於回答因果問題的研究來說,觀測研究是遠落後於實驗的第二名。
- 第5章習題
第6章 真實世界中的實驗
- 一視同仁
- 機率樣本是重要概念,但是實際抽樣時會發生困難,而這並不光是隨機樣本就可以解決的。隨機化比較實驗也是重要概念,但是也沒解決實驗時發生的所有問題。抽樣的人必須完全清楚他要什麼樣的資訊,並且把問題寫的夠明確,使他能夠從樣本當中汲取所要的資訊。而做實驗的人則必須確實知道,他要的是哪些處理和哪些反應的資訊,並且他必須能夠建構出執行處理和度量反應所必須的裝置。這就是當心理學家、醫學研究者或工程師說到「設計實驗」時的實際意思。
- 隨機化比較實驗背後的邏輯是,對所有受試對象在各方面都一視同仁,唯一不同就在於該項實驗所設計來比較的處理。在任何其他方面有不同的對待就會產生偏差,但是要對所有受試對象在所有方面一視同仁,是很困難的任務。
- 雙盲實驗
- 安慰劑效應確實存在。只要有可能,任何以人當受試對象的實驗,都應該做到雙盲。
- 在雙盲試驗當中,不論是受試對象,還是會和受試對象有互動的人,都不知道哪位受試者授受了哪種處理。
- 統計學上的爭議:到底是不是安慰劑?
- 到底是不是安慰劑?
- 拒絕參加、不合作者及退出者
- 我們的結論可以推廣嗎?
- 把不同的研究成果整合在一起,這就是整合分析(或後設分析meta-analysis)的概念。
- 真實世界中的實驗設計
- 配對及區集設計
- 結合適配和隨機化的常用設計就是配對設計(matched pairs design)。配對設計只比較兩項處理。先選取成對的受試對象,同一對中的兩個要儘量接近。然後利用擲銅板方式,或者隨機數字,把兩個處理分別指派給每一對當中的兩個受試對象。有時候配對設計中的「一對」,實際上只包含一個受試對象,只是分時間先後分別接受兩個處理。此時每個受試對象就是他/她自己的控制組。接受處理的順序可能影響受試對象的反應,所以會再用銅板來隨機化每個受試象接受處理的順序。
- 配對設計是區集設計(block design)的一個特殊。
- 一個區集(block)就是一組實驗個體,這些個體在實驗之前,就被認為在會影響反應的某些方面很類似。區集設計當中,將個體隨機指派到各處理的這個步驟,是在每個區集裡個別執行的。
- 譬如3支電視廣告的區集設計。男/女→隨機指派→男1,2,3/女1,2,3→比較反應。
- 區集設計類似抽樣中的分層樣本。區集和層都是把近似的個體聚集起來。我們用不一樣的名稱,只是因為這個概念是在抽樣和實驗兩方面分別發展出來的。...有了區集,我們可以對每個區集做結論;也可使得整體結論更精確。有智慧的實驗者,會根據實驗受試對象之間最重要且無法避免的差異來源,來建構區集。然後隨機化把剩下變異的效應給加加減減平均掉,而使得處理之間能有個不偏的比較。
- 網路尋奇
- 本章重點摘要
- 第6章習題
第7章 資訊道德
- 首要原則
- 試驗審查委員會
- 知情且同意
- 保密原則
- 臨床試驗
- 統計學上的爭議:可以買希望?
- 行為及社會科學實驗
- 網路尋奇
- 本章重點摘要
- 受試者的福祉,永遠優先於科學及社會利益。
- 第7章習題
第8章 度量
- 度量的基本原理
- 我們度量(measure,也作量、評量或測量)人或物的某一性質,即是指用數字來代表那個性質。
- 通常我們用某種器具(instrument)來取得量度(measurement)。對於記錄量度所用的單位,我們也許有不同選擇。
- 量度的結果是一個數值變數(numerial variable),不論我們量的是什麼,只要我們要測量的人或東西在這項上有差別,這個變數的值就會不同。
- 以下是你對任何統計研究中的變數應該問的問題:
- 變數確實是如何定義的?
- 該變數是否能有效描述它所聲稱要度量的性質?
- 量度有多精確?
- [慘例:太空船因為混用了公里與英哩的單位而燒毀]
- 了解你的變數
- 量度是將諸如長度或受雇狀況等概念,轉換成明確意義的變數之過程。用捲尺可以直截了當的把「長度」這個概念變成數字,因為我們明確知道長度是什麼意思。但要評量適合上大學的程度就有爭議性,因為一個學生怎樣才適合讀大學並不完全清楚,用SAT分數至少說明了我們的數字會怎麼來...。
- 有效量度和無效量
- 當變數和某一性質有關,或者適合做為那個性質的代表時,我們稱此變數為該性質之有效量度。(valid measurement)
- 用捲尺來量長度是有效的;用學生的身高來評量她是否適合唸大學是無效的。[車禍死亡人數/總開車的英里數]
- 通常來說,某件事情發生的比率(或稱百分比)和僅僅將發生次數做計數二者比較起來,前者是較有效的量度。
- 比較難搞定的問題,牽涉到既非很確定無效,亦非明顯有效的量度。(IQ是不是測智力的有效量度?是。或者不是,因為反對者主張智力非單一,是由不同的心理能力構築而成。對於IQ測驗是否有效有不同的意見,是植根於對於智力的本質看法不同。)
- 對於這些問題,統計幫不上忙。問題的開始,是像「統計知識」或「智力」這樣的概念,若概念本身就不明確,則有效性變成由個人主觀決定。不過若我們把有效性的概念變得更精確一些,則統計就很有用了。
- SAT能否正確反映「已經為讀大學做好準備」,意見很難一致。換個角度看,我們問一個比較簡單,且容易回答的問題:SAT分數是否有助於預測學生能否勝任大學學業,也就是用他們能否畢業來衡量。比起SAT分數低的學生,分數高的學生更有機會畢業,並得到較高的等第。我們說,以SAT分數做為是否準備好讀大學的量度,有預測有效性(predictive validity)。
- 我們還得問:用SAT來預測大學成績的精確程度為何?
- 準確和不準確量度
- 我的腳重計總是多三磅→我們把這種每次度量都發生的系統誤差(systematic error)叫作偏差(bias)。
- 把同一個東西放在磅秤上,但讀數卻上下跳動,這種因機械不順而產生的誤差我們根本無法預測,所以叫它隨機誤差。(random error)
- 我們可以這樣子看度量時產生的誤差:度量出來的值=真正值+偏差+隨機誤差。
- 度量過程如果有系統的量出比真正值大或小的值時,就叫作偏差。
- 度量過程如果在重複度量同一個體時,每次的值都不同,就叫做是有隨機誤差。若隨機誤差很小,我們稱量度很可靠。(reliable)。
- 增加可靠程度,減少偏差
- 世界各地的科學家都利用重複度量,並且取平均值來得到比較可靠的結果,即使學生在做化學實驗時也常這樣。就像比較大的樣本可以減低樣本統計量的變異一樣,多用幾個量度來平均,也可以減少結果的變異。
- 請同情可憐的心理學家
- 問題是,當我們度量體重時,「量度」這個詞的意義十分清楚明瞭,但在我們想要度量人類性格的時候,可就變得極其複雜了。
- 當你看到諸如信服權威、智力甚至入大學適合性這類不明確主題的相關統計「事實」時,一定要小心。數字看起來總是很可靠。但是數據是人類造出來的,因此會反映出人的欲望、偏見和弱點。如果我們對到底在度量什麼都不了解也未取得共識,則數字可能會製造爭議而不是澄清問題。
- 網路尋奇
- 本章重點摘要
- 第8章習題
第9章 數字合不合理?
- 我們知道永遠要問:數據是怎麼產生的?所度量的確實是什麼?
- 他們在說什麼?
- 數字是有相關內容的[譬如紐約大學統計學生的SAT分數,就排除了經濟困難受補助入學者的分數,而使數字比其他大學看起來高上50分,顯得自己看起來招到的都是高分學生]。如果你不知道相關內容,那麼單獨、赤裸裸的數字就沒法給你太多訊息。
- 數字彼此之間是否相合?
- 在通用汽車的例子裡,因為數字和我們期望的有落差,所以我們懷疑事情不大對。
- 假數據。
- 數字可信嗎?
- 你也可以透過比對來源可靠的數據,來抓出可疑的數字。
- 數字是否好得不像真的?
- 過份精確或太有規律,也一樣叫人起疑。
- 算術對不對?
- 錯誤的結論或令人無法理解的結論,常常只不過是粗心大意所造成的結果。其中,比率與百分比尤其容易出錯。
- 一個量可以無限的增長,增加100%只不過代表它變成原來的兩倍。但是全世界沒有什麼量可以減少超過100%,減少100%就已經全部沒有了。
- 背後有什麼該注意的嗎?
- 數字背後的預設立場。
- 網路尋奇
- 本章重點摘要
- 統計數字的目的是藉由數字來洞察內情。仔細觀察數字的人最有機會有所斬獲。特別留意自發性回應樣本及交絡問題。問清楚一個數字到底量的是什麼,並且判斷一下它是不是有效量度。找一找數字的相關內容,看看是不是少了重要訊息。看看有沒有不一致的情況,也就是數字之間不如預期那樣「相合」,,還要檢查算術對不對。把看來不可信的數字,即太大或太小到令人驚訝的數字,和你已知正確的數字比對一下。如果數字太有規律,或者太符合作者的願望,也要小心。如果你懷疑某些數字被提出來,是為了支持某種隱藏的目的,更要仔細推敲一下。
- 第9章習題 第一部複習
- 第一部摘要
- 隨機樣本和隨機化實驗都刻意用機遇來消除偏差,並產生有規律態的結果。這個規律型讓我們有辦法可以算出誤差界限,做出信賴敘述,並且對根據樣本或實驗做出的結論,評估其統計顯著性。
- 第一部複習習題
- 第一部報告作業
第二部 整合數據
第10章 好的圖及壞的圖
- 數據表
- 一個變數的分布,告訴我們變數有些什麼可能值,以及每一個值出現的比率。
- 圓瓣圖及長條圖
- 圓瓣圖可以顯示一個整體怎樣分為幾個部分。但是並不是比較各部分大小的好方法,因為角度比起長度更難比較。長條圖則易於突顯內容差異。
- 圓瓣圖及長條圖,對於類別變數很好用。
- 類別變數:把個體歸類到數個組,或數個類別其中之一。
- 數量變數:的值是數值的,因此拿來做算術比如加法或平均的時候,是有意義的。
- 圓瓣圖只能用來比較一個整體的各個部分。長條圖卻可以用來比較並不屬於同一個整體的數量。[例如OECD比較八大國家的稅率表]
- 留意象形圖
- 象形圖(pictogram)其實就是長條圖,只是以圖形取代長條。
- 隨著時間變動的線圖
- 要表示出變數隨著時間變動所產生的變化,應該使用線圖(line graph)。
- 看線圖的方式。
- 找出整體型態。比如說,長期下來隨著時間上升,或者長期下來隨著時間下降,就叫趨勢(trend)。
- 其次,找找看有沒有顯著偏離整體型態的現象。
- 隨時間變動的變數,常常會年復一年出現有規則的季節變動(seasonal variation)現象。因為季節變動很常見,若是失業率每到一月就跳升,政府會很困擾,所以統計局透過預期每年失業率上升多少,加以調整,也就是只有實際的失業率上升得比預期還多時,公布的失業率才會上升。這樣我們才能看到就業情況的實質改變,而不會讓固定的季節變動給弄糊塗了。
- 注意刻度
- 這兩個圖像都是對應數據的正確圖形,但是兩者都對刻度做了選擇,以便製造出特定的效果
- 怎樣把圖畫好
- 一定要在標示和說明裡表示清楚,圖裡面畫的變數是什麼,單位是什麼,以及資料來源。
- 要讓數據很醒目。要確實注意到,抓住看圖者注意力的是數據本身,而不是標示、格子,也不是背景的圖樣。你是在畫一個呈現數據的圖,不是在從事藝術創作。
- 要注意實際上眼睛會捕捉到什麼。避免用象形圖,而且要小心選擇刻度。也要用很炫的「三維空間」效果,因為那只是讓人看得迷迷糊糊,不會增加看的人對數據的了解。考慮一下是不是把圖稍微做些改變,使訊息更清楚。
- 本章重點摘要
- 想知道數據說了什麼,就先畫個圖。要畫怎樣的圖,要看數據的類型而定。你的變數是不是像教育程度或者職業之類,只是把每個個體歸類的類別變數?還是用有意義的數值單位度量的數量變數?要展示類別變數的分布,得用圓瓣圖或長條圖。
- 第10章習題
第11章 用圖形呈現分布
- 直方圖
- 解釋直方圖
- 在任何一組資料的圖形裡,我們要找的是一般形態(overall pattern),以及有異於一般型態的顯著偏差。
- 找出中心及離度。檢查看看該分布是否有簡單的形狀,可以很容易描述。
- 若直方圖的左半和右半大致上可看成互為鏡中影像,則稱該分布為對稱。假如直方圖的右邊(包含較大觀測值的那一半)延伸出去比左邊遠很多,則這個分布是右偏。假如直方圖的左邊延伸出去比右邊遠很多,稱這個分布是左偏。
- 莖葉圖
- 本章重點摘要
- 一個變數的分布告訴我們該變數有些什麼值,以及那些值出現的頻率。要呈現數量變數的分布可以用直方圖或莖葉圖。在觀測值的個數不多的時候,我們通常喜歡用莖葉圖,而資料量大時才用直方圖。
- 看一個圖的時候,要尋找整體型態,以及是否有異於整體型態的偏差,比如離群值。要描述直方圖或莖葉圖的整體型態,可以用形狀、中心或離度。有些分布有簡單的形狀,比如說是對稱或者偏斜,但也有些分布太不規則,沒法子用一個簡單的形狀來形容。
- 第11章習題
第12章 用數字描述分布
- 中位數和四分位數
- 五數綜合及盒圖
- 統計學上的爭議:貧富差距
- 平均數和標準差
- 選擇數值描述
- 網路尋奇
- 本章重點摘要
- 要描述一組數據,一定要先畫圖。然後才加進經過謹慎選擇,可以把該組數據的特性綜合出來的數字。如果我們的數據只屬於單一的數量變數,可以先用直方圖或莖葉圖來呈現其分布,然後再用一些數字來描述該分布的中心及離度。
- 描述中心和離度有兩種常用方式:五數綜合以及平均數和標準差。五數綜合包含了用來度量中心的中位數,以及兩個用來描述離度的四分位數加上最小和最大觀測值。中位數位於所有觀測值的中間位置。平均數是所有觀測值的平均。標準差度量離散,它差不多是距平均數的平均距離,所以用標準差的時候,一定是用平均數來度量中心
- 平均數和標準差都會因為少數離散值而受很大的影響。對於對稱分布來說,平均數和中位數差不多一樣,但是對於偏斜分布來說,平均數就會更加朝著長尾方向移動。總括來說,大部分的分布都適合用五數綜合來描述,但是平均數和標準差就只適合用在大致對稱的分布。
- 第12章習題
第13章 常態分布
- 密度曲線
- 密度曲線的中心和離度
- 常態分布
- 68-95-99.7規則
- 標準計分
- 常態分布的百分位數*
- 網路尋奇
- 本章重點摘要
- 莖葉圖、直方圖和盒圖全都可以用來描述數值變數的分布。密度曲線是另一種圖,但也做同樣用途。密度曲線底下的面積必定是1,而曲線的形狀可以描述一個分布的整體型態。曲線底下的面積,代表觀測值會落在對應的區間內的比例。用目測法可以找到密度曲線的中位數(等面積點)及平均數(平衡點)的大致位置。
- 常態曲線是一族特別的密度曲線,適合用來描述某些種類數據的整體型態。常態曲線是對稱的鐘形。特定的常態曲線可以完全由它的平均數和標準差來決定。你可以從常態曲線上找出平均數(中間點)的位置以及標準差的大小(從平均數到曲率改變的點之距離)。所有常態分有都遵循68-95-99.7規則。標準計分是以標準差為單位,把觀測值表示成距離平均數有幾個單位,平均數的標準計分是0。標準計分所對應的百分位數,在所有常態分布都是一樣的。
- 第13章習題
第14章 描述關聯的方法:散布圖和相關係數
- 兩個變數之間的關聯,可能受到一些隱藏起來的變數的重大影響。
- 對於多變數數據的分析,仍是以我們在研究單一變數時所用的工具為基礎。分析時應遵循的原則和以前一樣。
- 先把數據畫圖,並加入一些具代表性的綜合數值。
- 尋找整體型態以及有異於整體型態的偏差。
- 當整體型態很有規則時,有時可以用很精簡的方式來描述它。
- 散布圖
- 散布圖顯示了在同一個個體上度量到的兩個數量變數之間的關聯。其中一個變數的值在橫軸上標示,另一個變數的值在縱軸上標示。每一筆資料對應圖中的某一點,點的位置由該個體兩個變數的值決定。
- 如果有解釋變數的話,一定要把解釋變數標示在散布圖的橫軸(也就是X軸上),提醒您一下,我們通常把解釋變數叫做X,而把反應變數叫做Y。而如果兩個變數間沒有「解釋—反應」這樣的差別,把哪個變數標示在橫軸都無所謂。
- 詮釋散布圖
- 在根據數據畫的任何圖裡,要尋找整體型態以及明顯偏離整體型態的偏差。
- 要描述散布圖的整體型態,可以描述點的形式、方向以及關聯的強度。
- 有一種重要的偏差是離群值,也就是落在關聯的整體型態之外的個別值。
- XY都同時增加或減少時,稱為正相關(散布圖為左到右上升);XY一增加一減少時,稱為負相關。(散布圖為左到右下斜)
- [判定相關→直線;判定不相關→離群點]
- 相關係數
- 若圖表刻度不同,視覺上對圖象分布的關聯性感受就會不一樣。是故,必須使用數學方式表示。
- 相關係數描述兩個數量變數之間直線關聯的方向和強度。相關係數通常用符號 r表示。
- 了解相關係數的意義
- 正的r值顯示變數間有正相關,負的r值顯示出負相關。
- 相關係數r的值,永遠在-1和+1之間。
- 當我們分別或同時改變X、Y的度量單位時,X和Y之間的相關係數並不會改變。
- 相關係數不理會解釋變數和反應變數之間的差別。
- 相關係數度量的只是兩變數直線相聯的強度。
- 相關係數也會受少數離群觀測值的嚴重影響。
- 相關係數只對數量變數才有意義(類別變項不合適用相關係數測量)。
- 即使兩個變數間有直線關聯,相關係數也不是此兩個變數資料的完整描述。除了相關係數外,應該也列出X與Y的平均數和標準差。
- 網路尋奇
- 本章重點摘要
- 大部分的統計研究都在探討二個或多個變數之間的關聯。散布圖是展示二個數量變數之間關聯的圖形。如果你有解釋變數和反應變數,應該把解釋變數放在散布圖的X軸(橫軸)。
- 檢視散布圖的時候,要找關聯的方向、形式和強度以及可能有的離群值。如果方向很明確的話,是正向的(圖形從左到右往上斜)還是負向的(圖往下斜)?形式是直線還是曲線?有沒有觀測值聚成一叢一叢的狀況?關聯很強(點所形成的型態很「扎實」)還是弱(點很散)?
- 相關係數r度量二個數量變數間直線關聯的方向和強度。相關係數r是在-1和1之間的一個數,它的符號顯示出正相關還是負相關。當點聚集在一條直線的附近的時候,r的值就愈接近-1或1。而當散布圖中的點,全都落在同一條直線上時,r的值才會是-1或1。
- 第14章習題
第15章 描述關聯:迴歸、預測及因果關係
- 迴歸直線
- 迴歸直線就是對兩個變數間的關聯做概述。但條件是:其中一個變數可以用來解釋或預測另一個變數。也就是說,迴歸描述的是一個解釋變數和一個反應變數之間的關聯。
- 迴歸方程式
- 我們想用X來預測Y,所以我們想要的直線,是在鉛直方向(和Y軸平行的方向)和點儘量接近。...我們需要有個辦法,來根據數據找出鉛直方向距點最近的直線方程式。有許多不同方法可以使鉛直距離「越小越好」,而其中最常用的是最小平方法(least-squares methods)。方程式的形式如下:y=a+bx。數字b是直線的斜率。數字a是截距。斜率是變化率,即是指當x增加1時,我們預測的y所改變的量。
- 了解預測的意義
- 所有用來預測反應變數的統計方法,都和最小平方迴歸直線有一些共同的基本特質。
- 預測根據的是對數據配適的某個「模型」。
- 模型配適得離數據點很接近的,預測結果最好。
- 預測超過現有數據的範圍是很靠不住的。假設你手上有3-8歲孩童的生長資料,如果你配一條迴歸直線,預測到35歲的身高,你會發現出來的數據很蠢。沒有人會相信身高會無限地成長下去,但人們在預測經濟時,卻都在試圖告訴我們下一季或下一年會發生什麼,難怪經濟預測很常錯。
- 相關係數及迴歸
- 相關係數和迴歸都會受離群值的嚴重影響。
- 一條迴歸線有多大用處,和變數之間的相關係數密切相關。事實上這個關係就是用相關係數的平方來度量的。
- 相關係數的平方,r平方是y值的變異當中,可以用y對x的最小平方迴歸來解釋的部分所占之比例。[這背後的觀念是說,當y和x有直線關聯時,y的變異中的一部分,可以解釋為當X改變時,把Y也拉著一起改變。
- 通常在報告計算出來的迴歸直線時,也會同時提出r平方的值,當做迴歸直線解釋反應變數有多成功的一種指標。當你看到一個相關係數的時候,可以把它平方,會更容易感受相聯的強度。完美的相關係數(r=1或r=-1)代表所有的點都落在一直線上,這時r平方等於1,而一個變數的所有變異,都可以手它和另一變數的直線關聯來說明。若r=-0.7或r=0.7,則r平方等於0.49,而差不多一半的變異可以用直線關聯來解釋。[以r平方的值當標準的話,相關係數正負0.7差不多在0和正負1的中間](這句我看不太懂...)。
- 因果問題
- 統計及因果。即使兩個變數間有很強的關聯,也並不一定代表改變其中一個變數的值會導致另一個變數的值。[有電視和平均壽命正向相,所以我們送電視到比較短命的國家,可以延長他們的壽命?no。]
- 兩個變數之間的關聯,常常受其他潛藏在背景中的一些變數影響。
- 建立因果關係最好的證據,來自隨機化比較實驗。
- 第一項和第二項,指出了「共同反應」(common response):解釋變數和反應變數都對某個潛在的變數產生反應。而共同反應及交絡二者,都牽涉潛在變數z對反應變數y的影響。
- 高中時在SAT測驗得了高分,當然不能造成在大學裡的好成績,二者間的中等相聯(r平方大約是27%),無疑的可以用「對於諸如學業能力、讀書習慣及不喝酒嗑藥這類潛在變數的共同反應」來解釋。
- SAT分數是否可以用來部分預測大學表現,和因果並沒關係。...做預測不需要有因果關係。
- 在二個變數間觀察到的關聯,可能來自於直接因果關係、共同反應或是交絡。有可能其中兩種因素或全部三種因素都同時存在。
- 觀察到的關聯不必管是不是因果,都可以拿來預測,只要從以前的數據找出來的型態仍然適用。
- 統計學上的爭議:槍械管制和犯罪
- 因果證據
- 當我們不能做實驗時,能夠確立因果關係的標準在那裡?
- 相聯很強。
- 相聯有一致性。[多國研究有類似結果]
- 較高劑量和較強反應相聯。
- 被懷疑的原因在時間上超前結果
- 被懷疑的原因是可信的。[動物實驗結果顯示,吸菸焦油致癌]
- 網路尋奇
- 本章重點摘要
- 迴歸是統計方法的名稱,這類方法替數據配適模型,以便根據一個或多個解釋變數來預測反應變數的值。最簡單的迴歸是在散布圖上配適一條直線,用來由X預測Y。配適直線最常用的方法是最小平方法,用這個方法找到的直線,使數據點距直線鉛直距離的平方和為最小。
- 最小平方迴歸與相關係數的關係密切。明確一點說,相關係數的平方r2告訴我們,反應變數y的變異中,有多少比例可以用y和x的直線關聯來解釋。一般來說,統計預測準不準,是看數據之間有沒有很強的型態而定。對超過數據範圍外的部分進行預測是很冒險的,因為範圍內的型態未必延伸到範圍外。
- 兩個變數間有強關聯,不見得代表改變其中一個變數的值,會導致另一變數值的改變。潛在變數可以藉由共同反應或交絡製造關聯。如果沒有辦法作實驗,通常很難得到足以令人信服的證據來證明因果關係。
- 第15章習題
第16章 消費者物價指數和政府統計
- 指數
- 指數(index number)度量的是,以變數在某個基期的值為標準,讓變數值相對於基期值的比值大小。要算出變數任一值所對應的指數,可用下式:指數=(變數值/基期值)*100
- 基期的指數一定是100,要指明1990為基期,常會用「1990=100」的方式表示。在有關消費者物價指數的新聞報導中,你會看到神秘的方程式:「1982-84=100」這是一種縮寫方式,代表CPI的基期是從1982到1984年。指數不過是把當前值用基期值的百分比表示出來。
- 指數也告訴我們:我們在考慮的到底是什麼樣的變數。該變數事實上是好些數量的加權平均(weighted average),其中權數(weight)是固定的。
- 固定市場總覽物價指數
- 我們把當做價格追踪對象的全部商品和服務統稱為巿場總覽(markt basket),算出的指數就是固定巿場總覽物價指數(fixed market basket price index)。
- 如何使用CPI
- 了解CPI的意義
- 固定巿場總覽沒辦法度量生活費用改變的情形。
- CPI並不是固定巿場總覽物價指數,雖然這是考慮它的最好出發點。當新產品出現和我們的購買習慣改變時,勞工統計局必須不斷的更新巿場總覽。...勞工計局說,他們希望能讓CPI來追踪生活費改變的情形,但是在真實世界中,不可能出現真正的生活費用指數。
- 統計爭論:CPI把通貨膨脹誇大了嗎?
- 政府統計的處境
- 社會統計的問題
- 由政府出資,而由大學主導的抽樣調查的間接系統,照顧到了美國人覺得政府不應該過度侵犯別人的感覺。
- 網路尋奇
- 本章重點摘要
- 指數描述一個變數以某一基期的值為標準的對應值。固定巿場總覽物價指數是描述一整組商品和服務的總價的指數。你可以把政府的消費者物價指數,想成是包含消費者購買的所有商品和服務的固定巿場總覽物價指數。因為CPI是消費者物價如何隨時間改變的一項指標,我們可以利用它把某一個年度的美元,換算成在另一年度有同樣購買力的美元金額。要真正比較兩個不同年度的美元金額,這個轉換是必須的。
- CPI背後的細節非常複雜。它用到好幾個大型抽樣調查所得到的數據。它並不是真正的固定巿場總覽物價指數,因為它有針對已改變的購買習慣,新產品以及改良的品質做調整。
- 政府統計構構生產供政府做決策以及企業和個人做決定時所需要依據的數據。數據必須準確、及時並且不受政治干預。因此政府統計機構的能力和獨立性,攸關老百姓的權益。
- 第16章習題 第二部複習
- 第二部摘要
- 第二部複習習題
- 第二部報告作業
- 第三部 機遇
第17章 考慮可能性
- 機率之概念
- 機遇的古代史
- 關於機遇結果之迷思
- 個人機率
- 機率及風險
- 網路尋奇
- 本章重點摘要
- 我們用機率來描述隨機現象的長期規律性。一個事件的機率,是重複許多次之後,該事件發生的比例。機率是0(從不發生)和1(必定發生)之間的數字。我強調這種機率,是因為它是根據數據得來的。
- 機率只描述長期下來發生什麼事。像擲銅板或投籃之類隨機現象的短期表現常常看起來不隨機,是因為次數不夠多,所以看不到只有在極多次重複時,才會出現的規則。
- 個人機率代表一個人對某件事發生機會的個人判斷。個人機率也是在0和1之間的數字。不同的人可能提出不同的個人機率,而且個人機率不見得是根據類似情形下發生比例的數據而來。
- 第17章習題
第18章 機率模型
- 機率模型
- 一個隨機現象的機率模型(probability model)描述所有的可能結果,以及任意一組結果的機率要如何分配。我們有時把一組結果叫做一個事件(event)。
- 機率規則
- A任何機率都是介於0與1之間的數。
- B所有可能的結果合併起來,機率應該是1。
- C一個事件不發生的機率,等於1減去該事件發生的機率。
- D如果兩個事件當中沒有共同的結果,則該兩個事件中至少有一個會發生的機率,是該兩事件個別機率的和。
- 抽樣的機率模型
- 一個統計量的抽樣分布告訴我們,從同一母體重複抽樣時,統計量會有些什麼樣的值,以及每個值出現的頻率。
- 我們把抽樣分布看成是對統計量的可能值分配機率。因為通常可能值有許多,所以抽樣分布常常是用諸如常態曲線的密度曲線來描述。
- 圖裡的常態曲線,是直方圖一個合理的近似。直方圖是這裡特定的1,000個SRS的結果。你就把常態曲線想成是若我們永不間斷的從這個母體抽取SRS時,所會得到的理想化型態。這和機率概念完全一樣,機率就是長久下來我們會見到的模式。常態曲線對隨機抽樣的結果分配機率。
- 本章重點摘要
- 我們用機率模型來描述隨機現象,方法是說明有哪些可能結果,以及要怎樣分配機率給這些結果。有兩簡單方式可呈現出機率模型。第一種是分配機率給每一個個別結果,這些機率必須是介於0與1之間的數(規則A),而且加起來恰好是1(規則B)。若要找某個事件的機率,只要把組成該事件的結果之機率加起來即可。
- 第二種機率模型是以某一密度曲線之下的面積來分配機率,比如像常態曲線。總機率是1,因為曲線底下的總面積是1。這一類的機率模型通常用來描述統計量的抽樣分布。這是指從同一母體許多樣本所得到統計量之值形成的型態。
- 所有「合法的」機率分配,不論是根據數據所得還是個人機率,都遵循同樣的機率規則。因此機率的計算方法都是一樣的。
- 第18章習題
第19章 模擬機率從何而來?
- 加快收費站的通行速度
- 機率從何而來?
- 利用隨機數字或者電腦軟體中的隨機數字,來模仿機遇現象,就叫做模擬(simulation)。
- 模擬的效果取決於你給的模型,若模型不恰當,模擬結果就不可能好。
- 我們會做困難的部分,容易的部分,例如叫電腦去重複10,000次,就留給真正需要用到最後算出來的機率的人。
- 模擬入門
- 獨立:如果「知道兩個隨機現象其中之一的結果」,並不會改變另一個結果的機率,就稱這個兩隨機現象是獨立的。
- 獨立就和機率的其他性質一樣,一定要重複觀察很多次,才能證實。
- 更複雜的模擬
- 網路尋奇
- 本章重點摘要
- 如果我們知道每個結果的機率,就可以用隨機數字來模擬隨機結果。我們依據的事實是,每個隨機數字是0到9的10個可能數字之一,任一個的機率都是0.1,以及隨機數字表中的所有數字之間是互相獨立的,如果要模擬更複雜的隨機現象,可模擬各個階段再串連起來。常常出現的狀況是有好些個互相獨立的試驗,而每次試驗的可能結果和機率都是相同的。想想擲銅板好幾次或者把骰子擲好幾次的情況。其他的模擬中,也許所需試驗的次數不固定,或者每一階段的機率不同,也或者有彼此之間不獨立的各階段,以致於其中某些階段的機率和較早階段的結果有關。成功模擬的關鍵,是先把機率模型仔細考慮清楚。
- 18/22
- 第19章習題
第20章 賭場的優勢:期望值
- 這些「每玩一次平均贏多少」的數字,就是期望值。
- 期望值
- 期望值是所有可能結果的平均,但是不像平常的平均一樣把所有結果都一視同仁。而是要把每個結果依它的機率來加權,所以比較經常發生的結果,就要有比較高的權數。
- 大數法則[長期平均]
- 如果結果為數值的隨機現象獨立許多次,實際觀測到的結果其平均值會趨近期望值。
- 深入探討期望
- 值用模擬計算期望
- 值統計學上的爭議:合法賭博面面觀
- 網路尋奇
- 本章重點摘要
- 機率告訴我們,隨機現象每一個可能結果出現的頻率(長期下來)。當結果是數字時,比如像機遇遊戲的情形,我們也會想知道長期下來的平均結果會是什麼樣子。大數法則告訴我們,重複許多次之後的平均結果,遲早會靠近期望值。期望值是所有可能結果的加權平均,每個結果所對應的權數是該結果的機率。如果你不知道各結果的機率,你可以利用模擬來估計期望值(以及各結果的機率)。
- 第20章習題 第一部複習
- 第三部摘要
- 有些現象是隨機的。雖然其個別單一結果無法事先預知,長期下來卻有一種規則模式。賭博器具和抽取簡單隨機樣本都是隨機現象的例子。
- 機率和期望值提供了我們描述隨機性的語言。隨機現象的偶然程度與隨機抽樣相同。隨機性其實是種秩序,它有一種長期規律性,既非毫無章法,也不是在事前就已把事件固定的決定性機制。
- 當有隨機性存在時,機率可以回答「長期下來多常發生?」這樣的問題,而期望值可以回答「長期下來平均是多少?」這樣的問題。
- 由於期望值用機率來定義,兩個問題的答案因而息息相關。「機率模型」對所有可能結果分配機率,任何一個機率模型都必須符合機率規則。另外有種機率模型,用的是密度曲線,例如以常態曲線底下的面積來分配機率。個人機率表達出對於某個事件有多大機會發生的個人判斷。而個人機率如果要彼此相容,也必須遵守機率規則。
- 如果要計算一個較複雜事件的機率,又不要用數學來算,則可以用隨機數字來模擬許多回合。期望值也可以用模擬方法來算。...先要有所有結果的機率模型,然後分配隨機數字來模擬機率的分配。之後就可以用隨機數字表來模擬許多回合。
- 把某一事件在多次模擬中發生的比例紀錄下來,就可以當做該事件機率的估計,而把平均結果記錄下來就可以估計期望值。
- 第三部複習習題
- 第三部報告作業
- 第四部 推論
- 推論的意思是根據證據做出結論。統計推論是根據樣本所提供的證據,對母體做出結論。在數學領域做結論,是要從某些假設開始,然後根據邏輯推演,證明結論確實毫無疑問絕對成立。統計卻不一樣。統計結論不是百分之百確定的,因為樣本不等於整個母體。所以統計推論除了結論之外,還得說明結論的不確定程度。我們用機率語言來表示不確定的程度。
第21章 麼是信賴區間
- 區間提醒我們,因為我們只有樣本的數據,所以我們對於母體的所有敘述都是不確定的。對樣本來說,我們可以說:「機會恰是2.2倍。」對整個母體來說,樣本數據只能讓我們說:「機會在1.36倍到3.55倍之間」,而且只有95%的信心。
- 要探討新聞背後的真相,不論是有關醫藥還是在其他領域,我們都必須使用信賴區間這種表示方法。
- 估計
- 有信心的估計
- 一個統計量的抽樣分布,是指同一母體所抽出,同樣大小的所有可能樣本,其統計量的值之分布。從一個成功比例為p的很大母體抽取一個大小為n的SRS。用p-hat表示成功的樣本比例。 p-hat等於樣本中的成功計數/n。
- 則當樣本夠大時,
- p-hat的分布為近似常態(approximately normal)。
- 抽樣分布的平均數和p值相等。
- 抽樣分布的標準差是根號[p(1-p)]/n
- 比例之95%信賴區間:從一個成功比例p未知的大母體抽取一個大小為n的SRS,把這個樣本中的成功比例叫做p-hat。參數p的一個近似95%信賴區間為p-hat加減 2 根號{[p(1-p)]/n}
- 了解信賴區間
- 一個參數的水準C信賴區間(level C confidence interval)有兩部分:
- 一個由數據計算出來的區間
- 信心水準C (confidence level C),是不斷重複抽樣時,區間會抓到真正參數值的機率。
- 母體比例之信賴區間*
- 本章重點摘要
- 統計推論根據樣本裡的數據,對母體做結論。因為我們沒有整個母體的數據,所以結論並不是完全確定的。信賴區間估計一個未知參數的方式,可以提供我們該估計的不確定程度。區間本身就已告訴我們,對未知參數可以「定位」到什麼程度。信賴水準是一項機率,它告訴我們在許多樣本當中,我們的方法所產生的區間確實會抓到參數的機會有多大。要找信賴區間,先得考慮統計量的抽樣分布,也就是重複抽樣下統計量會如何變化。
- 在本章中我們討論了特定的一種信賴區間,也就是根據從母體抽出的SRS,得到母體中「成功」比例p的信賴區間。
- 第21章習題
第22章 什麼是顯著性檢定
- 統計檢定的論理基礎
- 假設及P值
- 在統計檢定中,受檢驗的斷言叫做原始假設(null hypothesis)。檢定是設計來評估:否定原始假設的證據有多強。通常,原始假設都是「沒有效應」或「或沒差別」的敘述。(H0讀作H零)H0是關於母體的敘述,所以一定要用母體參數來表示。
- 我們希望或猜想可以取代H0的正確敘述,叫做對立假設,用Ha表示。
- 統計檢定的P值(P-value)是在H0為真的假設下,所得到樣本結果會像實際觀測結果那麼極端或更極端的機率。P值越小,資料所提供否定H0的證據就愈強。
- 統計顯著性
- 我可以在事前決定,用於否定H0的證據必須強到何種程度。這等於是說我們要求多小的P值,而這個關鍵的P值就叫做顯著水準,通常用希臘字母α(讀作alpha)表示。假如我們選擇α=0.05,我們要求的是,資料所傳達否定H0的證據要強到,當H0正確時這種結果發生的頻率不超過5%(20次中發生1次)。
- 顯著在統計上的意義不是重要,而只代表「光是靠機遇不容易發生」。
- 計算P值*
- 網路尋奇
- 本章重點摘要
- 第22章習題
第23章 統計推論的使用與濫用
- 聰明做推論
- 顯著性檢定面臨的難處
- 顯著性檢定的P值不僅和樣本大小密切相關,也和母體真正值有關。
- 若只報告P值,卻不報告樣本大小,也不提做為樣本結果的統計量是什麼,是很糟糕的作法。
- 信賴區間的優點
- 一定要問數據怎麼來的
- 一定要把數據畫圖
- 執行優質統計工作的大綱
- 清楚定義你的母體
- 說明數據如何產生且儘可能用隨機方法
- 描述你的變數和度量方法
- 說明樣本大小以及是如何決定該大小的
- 如果有受試者半途退出或其他實際問題,報告中也要提
- 根據非隨機化設計來做有關因果的討論,是非常冒險的做法。
- 提出信賴區間
- 信賴區間提供的訊息比檢定多,因為信賴區間實際上估計了母體參數的值。而且信賴區間也比較容易解釋。因此,好的做法是儘可能提出信賴區間。
- 「水準5%之顯著性」並非魔術指標
- 顯著性檢定的目的,是要描述樣本所提供不利原始假設的證據有多強。
- 在「顯著」和「不顯著」之間並沒有清楚的界線,只是在P值愈來愈小時,我們就有愈來愈強的證據而已。0.049和0.051這兩個P值,並沒有多少實質的差別。把P小於等於0.05當做「顯著」的全球性標準,一點道理也沒有。
- 提防刻意尋找的顯著性
- 統計顯著性的意義應該是:你找到了你尋找的效應。假如:你先決定你在尋求什麼效應,設計研究來找這個效應,再用顯著性檢定來估量你得到的證據,那麼統計顯著背後的論據就可以充分發揮。
- 統計學上的爭議:應不應該禁止統計檢定?
- 網路尋奇
- 本章重點摘要
- 統計推論的應用範圍不如數據探索分析廣泛。任何推論方法都只能在正確的架構下應用,尤其要符合隨機樣本或隨機化實驗的設計。
- 了解信賴區間和統計顯著性的意義,有助於避免不恰當的結論。增加觀測值的數目對信賴區間有很直接的影響,因為在同樣的信賴水準之下區間會變短。即使母體的真正情況維持不變,觀測值變多,通常會把檢定的P值變小,使得檢定比信賴區間要難解釋些。樣本很大時,即使結果的P值很小,也不見得有實際上的意義;而樣本小時,母體的重要真實情況卻可能達不到統計顯著性的標準。要避免使用固定的顯著水準,例如5%之類來做決定。
- 第23章習題
第24章 雙向表及卡方檢定
- 雙向表
- 要顯示兩個類別變數之間的關聯,可以用像普度教授的職級及性別表那樣的雙向表。
- 要描述類別變數之間的關聯,可根據表中所給的計數,計算出適當的百分比。
- 辛浦森詭論
- 就像數量變數的情形一樣,潛在變數的效應有可能改變、甚至倒轉兩個類別變數間關聯的方向。
- 辛浦森詭論(Simpson’s paradox)指出,在幾組值中都顯示出的關聯或比較,有可能在數據合併成一組時全都消失甚至倒轉方向。[注意潛在變數]
- 雙向表的推論
- 卡方檢定
- 卡方統計量(Chi-square statistic)度量出雙向表中觀察到的計數和預期計數之間的差距。統計量的公式為X的平方等於[加總](觀察到的計數-預期的計數]之平方除以預期計數。
- 當「無關聯」的原始假設為真時,卡方統計量X平方的抽樣分布就叫做卡方分布(chi-square distribution)
- 卡方分布指一整族分布,而這個分布只有正值且為右偏。特定的卡方分布是由它的自由度(df, degrees of freedom)決定的。
- 有R列和C行的雙向表所對應的卡方檢定,用的是自由度為(R-1)(C-1)的卡方分布之臨界值。
- 應用卡方檢定所需的每格計數下限:當預期計數小於5的格子所占比例不超過20%,而且每一格的預期計數都至少是1 ,就可安心使用卡方檢定。
- 本章重點摘要
- 類別變數把個體歸類到不同組。要想呈現兩個類別變數之間的關聯,就用一個包含各組計數的雙向表。我們藉著比較某些特定的百分比,來描述類別變數之間關聯的本質。觀察到的關聯一向都有這種影響。有的情況下,在潛在變數的每個等級都出現的關聯,當我們把各等級整合在一起時,卻消失不見或甚至改變了方向,這就是辛浦森詭論。
- 卡方檢定可以用來判斷,雙向表裡所出現的關聯是否有統計顯著性。卡方統計量是對「雙向表中的計數」與「當列變數及行變數之間沒有關聯時我們會預期的計數」這兩個計數做比較。該統計量的抽樣分布不是常態分配。它是一種新的分布,叫作卡方分布。
- 第24章習題
第25章 有關母體平均數的推論
- 樣本平均數的抽樣分布
- 母體平均數的信賴區間
- 母體平均的檢定
- 本章重點摘要
- 我們用取自母體的SRS之樣本平均X-bar,來估計母體平均μ(讀作mju)。μ的信賴區間和顯著性檢定,是根據X-bar的抽樣分布得來的。當樣本大小n較大時,中央極限定理告訴我們這個抽樣分布大致是常態分布。雖然方法有細節上的差異,但是關於μ的推論方式,很像關於母體比例p的推論,因為二者都是根據常態抽樣分布而來的。
- 第25章習題 第四部複習
- 第四部摘要
- 第四部複習習題
- 第四部報告作業 註釋及資料出處
- 部份習題解答
- 表A隨機數字
- 表B常態分布之百分位數
- 索引
2019年1月19日星期六
[摘要]統計學的世界 2002 天下遠見出版股份有限公司
DAVID MOORE著,鄭惟厚譯(2002)統計學的世界。天下遠見出版股份有限公司。
訂閱:
發佈留言 (Atom)
沒有留言:
發佈留言