【立法會去或留民調:方法學解釋】
1. 香港民研今日發表了兩組有關「立法會去或留」的民意調查結果:一組是網上意見組群的結果,另一組是隨機電話訪問的結果。我想解釋一下為什麼大家早幾天都在號召填網上問卷,現在又會多出一組電話調查的結果。簡單來說,其實我們內部一直有間中以隨機電話訪問來為網上意見組群作品質管理對照,今次同時公開。
2. 上星期五,我們在「我們香港人」計劃的恆常新聞發佈會中宣佈會就「立法會去或留」作民意調查。自今年五月開始,「我們香港人」計劃一直以網上意見組群的方式收集數據,好處是機動性比較強,適合計劃講求即時回應社會熱點的原意。不過,我們也知道網上意見組群是比較新的數據收集方式,坊間未必完全理解,所以我們對於如何確保和解釋代表性一直十分重視。
3. 如果你是香港民研的超級忠實擁躉,你可能會有印象我們曾在六月的一場記者會中討論網上意見組群的方法學。為了解釋這方法的代表性,我們選擇了一條問題(關於應否重組警隊)在同一時間以網上意見組群的方式和傳統隨機電話訪問的方式(包括地線和手機)來收集數據,結果發現兩種方式得出的結果基本一致(意見組群是61%應該,電話訪問是62%應該)。
4. 我們沒有滿足於這一次結果,之後我們仍不時抽取「我們香港人」計劃的提問,放在恆常的傳統隨機電話訪問中,在同一時段內分別問兩次,以作內部品質管理之用,但結果不對外公開。過去兩種方式得出的結果還是合理地接近的。
5. 這兒我要特別感謝香港民研的同事們。我對數據加權的問題特別緊張,曾經和他們開了好幾次會針對處理。所謂數據加權,是指我們會把收集到的數據按社會整體應有的分佈調整。舉個例,假設我們知道香港每四個人就有一個是年輕人,但是不知為何於某次調查中年輕人的回應特別踴躍,佔了所有回應的一半,那麼我們便會把每個年輕人回應的比重除以二,以作平衡。實際上那條公式要複雜很多,我們花了不少功夫在這件事上面;但我想先指出這種調整是無論網上意見組群或傳統隨機電話訪問都會做,而且是一直都有做。
6. 來到這次「立法會去或留」的調查,我們很快就知道社會對這條題目特別關注。剛剛好,這次在進行網上意見組群的同期也拿相同問題作傳統隨機電話訪問,以作參考。由於打風的關係,電話訪問的進度曾有輕微阻滯,幸好之後追回。我想特別指出加入電話訪問的決定和昨日個別政黨的相關宣示無關。事實上,在他們作出相關宣示的時候,電話訪問已差不多做完。
7. 回到星期一數據收集剛開始,出現了過往沒有發生過的現象:不少網民以至政治人物動員社會大眾登記成為意見組群的成員,以即時回答「立法會去或留」的調查。由於組群成員的構成因進行中的調查題目本身而大幅改變,引起了坊間對結果代表性的疑問。
8. 為回應代表性的疑問,團隊決定公開同期進行的傳統隨機電話訪問的結果。由於隨機電話訪問的樣本基礎不受政治動員的直接影響,可視為香港社會整體狀況的反映;至於網上意見組群的結果,在此特殊情况下成為受政治動員影響的參照。
9. 希望以上解釋可協助各位理解為甚麼我們這次會同時發佈兩組數據,因為它們代表的是兩套不同調查方法所產生的結果。大家會關心方法學的問題,我好開心。
10. 最後,方法學的解釋不能解決所有問題。有些東西,是價值觀的問題。舉個例,議員的決定應該是看全香港的意願還是只看其潛在支持者的意願(例如民主派只看民主派,建制派只看建制派)?如果是的話,功能組別的議員是否又只要調查自己界別的意願,可以不理其他人?是否要有其中一邊有絕對過半數才算數?應否提供中立或其他選項?這兒恐怕可以推展出數之不盡的爭執。我沒有答案,只希望大家能平靜和一致地面對。
———
附是次提問用詞與結果:
問:人大常委決定現屆立法會繼續履行職責不少於一年。你有幾支持或反對全體立法會議員繼續出任議員?
網上意見組群結果:(支持35%;反對47% 抽樣誤差+/- 1%)
隨機電話訪問結果:(支持37%;反對41% 抽樣誤差+/- 3%)
隨機抽樣公式 在 每日一冷 Facebook 的精選貼文
#冷統計 #冷閒聊 【為什麼這世界,總是沒辦法兩全其美?】
從一個科學宅的角度,我們來談一談!#柏克森悖論
嗨唷~讀者們不知道你有沒有想過,為什麼越讓人食指大動的食物,越是不健康(高油鹽與糖,就是讓你胖);反之,健康的食物通常很難吃。
身邊的人,怎麼好相處的都相貌平平;而「天菜」好像往往個性都很機歪不好相處?
還有啊,為什麼文組巨人就是理科侏儒,反之亦然?(好想偷偷問上理科太太一兩個歷史問題)
難道上天自有一把尺,自動收掉了那些太完美的人......讓這世界維持這種「有一好沒兩好」的平衡呢?,說來有些公平,但還是有點遺憾啊!自古紅顏多薄命,啊~~(關羽你不能死
等等,別急著認同按讚並分享。
你知道嗎?讀者你可能一直被一個致命的統計陷阱蒙蔽,才會以偏概全,認同這公平的幻影。就像科宅喜歡說的:世界是隨機的,但隨機不完全等於公平——它真的只是「隨機」而已。
各位好,歡迎來到深夜的日冷怪談單元,今天的主題不管從哪個方面來說都非常之恐怖。因為科宅編又想聊 #數學 了~每日一登冷。
但是一樣,先說好,整篇都白話文,沒有可怕的公式,看個圖表就收工。那我們開始囉!
話說,統計學是讓資料說故事的一門藝術,精確來說是把資料綑綁、鞭打、刑求,逼資料說人話的藝術。XD
一般來說,大部分的人都是靠「感覺」而不是靠「資料」過生活的。不過,我們的感覺也依據「資料」,就是一些腦海中容易想起來的例子,連貫起來做一個快速的判斷。統計學家聽到這種平民的玩意,非常之不置可否,並酸酸地說了句統計界名言:
「把軼聞(anecdote)湊在一起,算不上資料(data)。」
就是在批評說普通人沒經過統計學訓練,光憑感覺的過程中,不曉得犯了多少 #認知偏誤 。哪比得上白紙黑字又嚴謹的的統計學方法呢?
但話說回來,統計也不是沒有弱點的。科宅覺得用伍佰老大的歌〈真世界〉來描述統計學很貼切:
「關於這個真世界,不小心,你就會事與願違」
魔鬼就藏在細節裡,害你整個推論都出錯的根源,可能藏在一個細微的前提,甚至單單一個字裡唷。
今天的微冷開頭舉的食物好吃與健康的例子,容我把大家讀到那段話時,腦中迅速想的OS寫出來,類似這樣:
「這個判斷句是真的嗎?食物的範圍太廣,就只想我熟悉的食物吧......欸,【好吃但不健康】的食物可以舉出太多,【不好吃但健康】的食物似乎也有一些,【又好吃又健康】的食物嘛,不能說沒有,但很難想到(天山雪蓮之類的?)。我開始相信你了,似乎真的有一好沒兩好。」
第二句也很類似,講到人的顏值和性格的關聯性,我們腦中的資料庫也在運轉,二話不說,就開始把親朋好友分類成【顏值高又好相處】、【顏值不高但好相處】和【顏值高但不好相處】三組。然後覺得似乎這話有點道理。
只有一個小小的問題,為什麼是分成三組——應該是四組才對啊,兩個是非題,二二得四,各占平面一個象限。
嘿對,被遺漏的那一群正是問題所在:
【不健康又不好吃】的東西,即使存在,在我們考慮「食物」的時候也不會刻意想它吧。
而【顏值不高又很難相處】的人,在列舉「朋友」的時候,往往是不會列入考慮的QQ。(對不起正在看這篇的讀者不是在說你
等於說,我們考慮這類命題時,常常自動把「抽樣」的範圍限制在「A或者B」,四個象限中第三象限「既不A也不B」就塗黑掉不考慮。那麼,剩下的三個象限就非常可能自動形成了「負相關」,有著從左上角畫到右下角的趨勢(線),好像把「A不B」和「B不A」連起來。 #甜不辣 #申不害 #阿不拉 #好不鬧
原來魔鬼藏在「或」這個字上啦。#或或或或或或或或
這個平常思考上,也是統計學上的可怕陷阱,起初是一位研究醫學流行病學的專家提出的。並以他的名字命名為「柏克森悖論」(Berkson's paradox),或者「入院率的偏誤」。
例如說,某院醫生很高興的把病患抓來研究......我是說統計研究,才不是縫起來做成人體蜈蚣呢,千萬不要誤會。
很可能,醫師們會發現一些離奇的結論,例如「蛀牙的人,更不容易得到高血壓(呈負相關)」,難道冥冥之中真的注定,上天是公平的嗎?
但事實上兩者根本無關。
會得到這個結果,說破了就只是因為——沒有蛀牙也沒有高血壓的人,不容易出現在醫院,就醬而已 。因為來醫院的人,大致滿足「身體至少有一種病」的前提,等於是「A或B」,咻,一條原本不存在的趨勢線就平空出現了。
嚴格的統計學得出的結論,卻因為過程中隱藏的謬誤而不能跟它認真了。幫QQ。
柏克森悖論的威力超強,它甚至可以讓明明整體上明明是有正相關的族群,因為我們只觀察了其中某一小群人,反而看起來有強烈的負相關。
血淋淋的例子就是文組理組之永恆的(沒來由的)互相鄙視。
如留言中的圖二,假設橫軸是「文科綜合成績」,縱軸是「理科綜合成績」,我直接假設了一個蠻合理的狀況:一個人腦筋越靈光,應該同時越擅長文科和理科(但程度可能各有高低)。整體圖像是一個左下到右上傾斜(正相關)的分布,代表魯鈍到天才。
但只要增加一個簡單的機制,我們就能非常容易地獲得斬釘截鐵「學生的文科和理科能力呈負相關」的結果。
我們只要依照文科和理科的【總分】把學生分成一群一群的,也就是「能力分班」或者「志願落點升學制」。那麼(一點都不)神祕的事情就會發生:光看同一個「程度」或同一個學校的學生,必定看到左上右下的負相關!
原理是醬,依照總分分割,等於在圖上畫出一條條左上到右下的分隔線。而高中數學課有記載,【X+Y=總分】的圖形斜率是負一嘛。原來,這個人為的分組過程,才是引進了那個負相關的罪魁禍首啊。
(破功惹,還是寫了一個公式~~)
最後再厭世一下,人看世界覺得公平,可能純粹是由於我們習於看世界的眼光折射出來的幻影。畢竟公平是人造的概念,自然並不懂什麼是公平。嘛,我們下次見。
隨機抽樣公式 在 R 統計軟體(2)-抽樣與敘述統計(作者:陳鍾誠) - GitHub 的推薦與評價
隨機抽樣. 統計的基礎是抽樣,所謂的抽樣就是從母體(一大群樣本) 當中抽出一些樣本,而在抽樣的時候,我們通常會盡可能的確保樣本 ... 中文名稱英文名稱數學公式/ 說明 ... ... <看更多>
隨機抽樣公式 在 抽樣分配的觀念- YouTube 的推薦與評價
課程簡介:介紹 抽樣 分配的觀念與性質課程難度:□□□□□適合對象:修過微積分同學授課教師:李柏堅製作單位:中華科技大學遠距教學組製作人員:林 ... ... <看更多>
隨機抽樣公式 在 統計學(一) 筆記- 第七章抽樣與抽樣分配(Sampling and ... 的推薦與評價
簡單隨機樣本每一個元素被抽出的機率相同; sampling with replacement ... 20 為申請住宿的量; 50520 為分數總合; 210512 則是透過公式與原始資料得出. ... <看更多>