立即捐款

回應民調的質疑:一些調查的基本邏輯

回應民調的質疑:一些調查的基本邏輯

原圖:NOW新聞截圖

佔領行動期間,進行了各式各樣的民調或者意見調查,大家對這些調查有不同的看法,本文打算稍爲囘應一下一些比較具有爭議的要素。我需要在這裡先指出,(1) 由於對象是對統計和調查未必很了解的朋友,所以用詞和説法都比較簡化,請多多包涵或提出指正;(2) 本文並不打算否定個別調查,而且我也相信,完美的調查非常罕有,但調查的嚴謹度和價值往往還是能夠分辨出來的;(3) 而同時,更重要的是,與完全否定調查相反,我們也可以大概估計,一個調查不完美的地方,會不會明顯地造成某種傾向性,這種傾向性又會導致結果可能有什麽和多大的影響。這樣,我們就不必因爲某些不完美的地方,而把一些調查裏面寶貴的知識全盤無視。

下面分開三點回應,文太長,可選看。

1) 對象問題:訪問這班人並不代表我
2) 人數問題:就幾百個人代表什麽?
3) 問題設計:條問題預設了答案

1. 對象問題:訪問這班人並不代表我

首先,眾多問題中最常見的,是代表性的問題。其中兩個代表性的問題包括對象和人數。

例子一:訪問佔領人士只代表佔領人士意見

訪問佔領人士只代表佔領人士意見,這是理所當然的。常有人說一些調查只訪問了佔領人士,佔領人士不代表我,所以調查沒有意思。對不起,對於進行那個調查的人來説,這個調查想知道的是佔領人士的想法,他們不會也不應該想要要代表非佔領人士或者整體香港市民。但就算只是代表某個群體,也不掉表調查沒有意思,只是要小心處理可以代表的範圍而已。

例子二:地點、日期、時段問題

在現場的佔領人士調查之中,有一些調查只在固定地點進行,因此可能會漠視了一些邊緣位置的佔領者的意見。而且放在同一個位置進行調查,還比較上要求佔領者自發前往該處表達意見,因此得出的意見可能是比較有主見的人的見解。再加上調查也可能牽涉到調查進行前的一些討論過程,討論的方向也可能會對調查結果構成影響。

另外,星期一至五和周末的佔領者、上午和晚上過夜的佔領者,也可能會有不同的意見,長期留守的過夜佔領者,對佔領運動也可能比較堅持和積極。因此如果調查只在平日或者周末進行,也可能會有一定的偏頗。

例子三:全港家居電話意見調查的偏頗

全港家居電話意見調查的價值在於了解全港市民意見,而不只是佔領者的意見。另一個優勢是對象是全港居民的時候,可以因應着人口比例,對電話樣本比例作加權。例如,如果樣本男女比例和人口男女比例不一致,則可以強化其中一個性別的意見,令兩者的比重變得一致。現場意見調查的問題是由於無人知道參與人士是誰,他們整體實際的年齡、性別、社會地位等等,都無人能知,因此無法把樣本加權貼近實際情況。不過這並不代表現場調查沒有意思,只是對現場調查的代表性要求,由於無法加權,因此更加重要。

例子四:全港家居電話意見調查的偏頗

但家居電話訪問的問題是佔領者的意見就可能相對會被低估。有些調查利用家居電話訪問,去比較有參與過佔領和沒有參與過佔領的人的想法。這方法好處是避免把非常不一致的意見簡化為一個整體,可以把不同意見分割開來思考。但這種方法也是有問題的。因爲所謂參與過佔領的人其實排除了想在還在佔領的人,也就是說,實際上是在比較參與過佔領但現時在家中的人和沒有參與過的人的看法。如果我們假設現在還在現場的佔領者,有可能比現在已經回家的佔領者對佔領運動更加堅持,則以家居電話調查出來的結果可能會低估了佔領者的堅持。在全港性的意見調查中,有一些研究只用了比較少的時間做調查,例如在周末作家居電話訪問。這樣可能引申的問題是,周末的時候支持佔領的人會更多的到現場去,因此家居電話訪問可能會減少了佔領者的意見代表。不過也要考慮到,其實參與佔領人士始終在人口中佔不太大的比例,因此對整體結果的影響力也有限吧。

例子五:全港各區路邊調查

今時今日,通常只會有政黨做這類調查,一般人看見與自己政見不同的政黨街站,是不會走過去填問卷的。完。

例子六:政黨進行的電話調查

同樣道理,一般人收到與自己政見不同的政黨打來的電話,是會很快就收綫的。完。

2. 人數問題:就幾百個人代表什麽?

第二種問題是這樣的。爲什麽(如果隨機性質夠好的話)幾百人可以代表一個人口整體?這是個機會率的遊戲。

調查結果很可能「錯誤」,不過…

首先,根本調查的結果錯誤(或者有誤差)的機會率是極度高的。例如如果梁振英可以得到0-10分,如果樣本結果顯示市民的平均分是4.0分(只是例如),那實際上整個市民所有人的平均分,幾乎一定不可能是4.0分,可能是4.07,又可能是3.92… 如果我們要知道實際是多少,非得問過全港所有人不可。當然實際上沒有人會這樣做,因爲根本不可能。

那麽調查是做什麽的呢?調查的結果是要提出一個估值,這個估值和實際的數值必然存在一些不太大的誤差,但實際答案非常有可能十分接近樣本的平均值。也就是,雖然實際上全港人口的分數很可能不正正是樣本的4.0,但很有可能在4.0附近。問題是,多接近呢?

調查的命中率問題

首先,如果你不打算了解統計基本概念的話,可以跳過這部分,然後相信我告訴你調查雖然有誤差,但幾百個樣本確實已經能比較有效的了解一個人口的取態。只是千萬不要又去質疑又不求甚解。然後有興趣的話,可以看下去。

繼續用梁振英分數為例,簡單一點,我們假設我們訪問了10個人。結果得出的分數如下:0,1,1,2,3,3,6,6,8,10。因此真實的平均分是4。

假設我們因爲資源和實際操作的問題,不能找全部人都問一次(例如所有佔領者或者全港人口),現在我們取樣做調查,如果樣本數目只是一的話,我們抽到的答案可能是:

0的機會率是10%
1的機會率是20%
2的機會率是10%
3的機會率是20%
6的機會率是20%
8的機會率是10%
10的機會率是10%

所以我們命中的機會率是... 0。而如果我們可以接受結果有1的誤差的話,答案是3,+/-1就會包括了真實的答案(4),所以命中率則是20%。

好了,如果我們把樣本增加到二,然後取其平均值的話,結果透過組合,出現的可能性多了,不過極限的數值,則被消去。

例如0,因爲必須和其他數值組合,因此不可能再出現。最小的值只有(0+1)/2=0.5才會出現。同樣道理,最大的值也從10下降為(10+8)/2=9,而且也只有唯一這種組合才會出現。也就是,離開真實最遠的極端數值,會在樣本增加的時候慢慢被消去,出現的機會率越來越低。

除此以外,如果我們允許有1的誤差,也就是如果我們抽到答案的平均值在3-5之間的話,+/-1都會包括4。那我們得到相關的答案的機會率比之前提升了。因爲中間數值可以由多個數值組合而形成:例如(1+8)/2、(3+6)/2、等都可以得到4.5;(0+8)/2、(2+6)/2,都可以得到4... 簡單來説,如果我們包括平均是3-5之内的數值為可能的答案,則我們抽兩個答案之後得到接近實際數值(4)的機率已經大幅上升至40%。

所以,抽樣樣本數增加,可以把從調查中得到貼近實際結果數值的機會率快速地提高,並把拿到遠離實際結果的可能性快速地降低。當樣本數提升到一定數目的時候,我們是頗肯定結果很可能在我們樣本答案一定的誤差值之内的。

調查結果有多「錯」?

在這個邏輯之下,我們會知道,提升樣本數目可以令一個誤差範圍内的命中率增加。同時我們也知道,極端錯誤的機會率會一直減少。最後,我們也知道,樣本數一開始只要相對小量的提升,已經可以對結果的準確度帶來重大的改善,也就是說,到了樣本數很高的時候,這種提升速度沒有可能維持下去。或者說,在大樣本的情況下,再提升樣本數目,對誤差的改善相對會比較低。

總結來説,例如,如果我們希望我們有95%結果可能性被包括在内,一個400人左右的樣本,和接受5%左右的誤差,已經做得到。也就是,總體來説,只要我們抽樣400人左右,就可以有95%肯定,整體人口對於一個數值(例如給梁振英的分數)的實際的答案,就在我們的樣本提供的答案(例如樣本發現是4.1分)的5%誤差之内。這還不錯吧!(也就是只有一、二百的調查錯誤率其實可能實在太大了。)但如果我們希望要達到99%肯定,而且只接受1%誤差,需要的樣本就要去到一萬左右了!

因此,樣本數目是在我們有多大信心真實答案就在其中,以及準確度在一定的誤差值之内,這兩大因素之間取其平衡的。最後,這種思維背後的假設/條件是,抽樣方法在針對的群體中並不帶偏頗,或者盡量達到這樣的效果。而這方面出了問題的話,是難以用大樣本去補救的。

一個良好的調查,就算樣本只是例如五百幾個,還是有一定代表性的。至於當我們了解到操作上的不完美,也可以嘗試考慮到底這方面對結果可能有什麽衝擊或者影響,而未必就對調查結果完全無視,甚至把結果政治化的輸打贏要。否則,有可能會錯過有助我們判斷形勢的寶貴資訊。

3. 問題設計:條問題預設了答案

第三種問題是問題干預了或者預設了答案。

例子一:問題的順序

有人認爲前面問了一堆爲什麽不退場、以及退場方法,之後問是不是應該退場。會令人傾向認爲應該退場。不過這種方法不一定合理,例如如果一個人有清楚的理由爲什麽不退場,問完理由之後,可能更會強化他們認爲不應該退場的看法。這種影響並不清晰,很難論斷。

例子二:用字問題

例如問的時候用字不同,用的是「是否支持袋住先」相比起「是否支持會篩選掉中央不希望能參選的候選人」,則市民會傾向支持前者而反對後者。

例子三:答案選項

問卷調查大部分是選擇題,因此提供的選項會影響到被訪者的選擇。例如問:你最希望成功爭取,或者問你是否希望能夠爭取到。前者會令選擇單一化,並不能理解其他選項是否也能被被訪者接受;後者則是任君選擇的,如果選擇都是好事,被訪者往往會選擇全選。其中一個處理方法是逐一問被訪者有多認同選項,就可以在程度上分出不同項目的重要性和接受程度。不過這樣的話,問題數目就要有所限制。另一種可以避免控制了意見項目的方法是開放式的問題,讓被訪者隨便說,或者把他們提出的項目的先後次序記錄下來作爲參考。這樣的問題是如果内容複雜多變,之後要把各項歸納的時候就會有一定的困難。

例子四:趨勢調查

這個不是問題,而是值得參考的一點。有幾個調查是不時做一次,然後發表結果的。這些調查的特點是,每一次問的問題近乎一模一樣。這個方法出來的結果參考價值頗高。因爲相比起看實際的百分比或者數值,這類調查可以讓人看到轉變和趨勢。例如支持袋住先的比例曾經頗高,由掉到一個低位,然後近日再回升。又或者市民對於運動的支持度多少是一個問題,到底在上升還是下降的趨勢,是比較不會受到所謂問題問法是否偏頗而影響到的,因爲每一次都是同樣地「偏頗」。因此趨勢調查對掌握形勢變化,是頗具參考價值的。

推論、建議、總結

不過其實調查裏面最可能有問題的是,關於調查結果代表什麽的分析。首先,單一描述性的數據,其實並不能解釋一些事情的成因。例如對於佔領者的支持度下降,並不代表是因爲市民生活受到影響所以支持度下降。甚至乎,就算很多不支持的市民市民認爲佔領運動影響到民生,也不代表影響到民生就是支持度變化(下降)的原因。

更加重要的是,調查結果未必就可以提出一些很具體的建議。就算真的是市民支持率下降,也不代表運動應該向某個方向發展。例如,運動不可以假設是以尋找大衆全面支持位目的;例如,整體市民是不是支持未必是行動唯一甚至主要的考慮;又例如,就算支持率很重要,也可以選擇停止佔領離開現場,也可以選擇落區宣傳爭取更多市民支持,甚至行動升級希望在短期内令事情有所進展等等。因此,在調查數據和研究總結和建議之間,其實往往存在着鴻溝,需要小心考慮。

小結

講了這麽多,是因爲坊間對調查往往有一定的誤解。另外,媒體、政客和佔領者,往往對於調查數據的處理也是選擇性地運用的。特別是,實際上,在數字往往難以自己説話的情況下,不同的持分者有時候會尋找和自己取態近似最清晰易懂又夠搶眼的一些評論或者建議,近乎嘩衆取寵,而跳過方法和數據本身的不確定性和複雜性。

我自己的想法是,如果不去好好思考調查的價值和問題,或者因爲一個半個因素就對調查全面肯定或者否定,都是不健康的。比較實事求是的是,明白調查的方法,認清調查在說什麽,而不要妄下定論。其實濫用調查和無視調查,都好像自欺欺人,並無助於理解現況,尋找出路。