立即捐款

創科局嚇到你嘔電系列-Open Data 機讀格式之爭論

創科局嚇到你嘔電系列-Open Data 機讀格式之爭論

文:胡人傑@前線科技人員

創科局早前語出驚人,為政府嘅 open data 計劃文件被批評只得 PDF 而冇「機讀」格式辯護,話「機讀」格式人類睇唔明,提供「人讀」格式係方便公眾云云,大致寓意缺乏「機讀」格式好出奇咩。

咁令人噴飯嘅答案,梗係惹嚟更多嘅批評啦,前科一眾小編都前後腳出咗兩個 FB post 增慶。首先,「人讀」格式咪又係電腦睇「機讀」格式 gen 出嘅,點會有「人讀」而冇「機讀」呢。另外,就算以創科局自己舉嘅 XML「機讀」格式例子,只要加個 XSL 咪係「人讀」格式囉(ITB Idiots)

不過,創科局攞嚟做例子嘅政府網頁(2016中期人口統計:主要統計表),其實凸顯咗更深層次嘅問題。

依家政府搞嘅 open data,重大缺陷唔係 data format 嘅「人/機」謬論,亦唔係款式落後(JSON 潮過 XML),而係規劃。如果啲 download 唔係喺私隱保護容許之下嘅 rawest possible data,而只係將個別 summary presentation 倒嘔就當係 "open data",咁啲 download 其實冇乜用,因為 summary presentation 喺政府網頁已經 show 晒出嚟,再搞 "open data" 係多餘。

真 open data 應該係 rawest possible data,用簡單嘅 record structure 裝載,等用家可以根據自身需要幫數據做唔同嘅 aggregation,建立同政府網站唔同嘅 summary presentation 以補不足。政府依家將 summary presentation 當係 raw data,然後俾個好似 MS Word 咁複雜嘅 data structure 你做 schema,叫人點用?到底政府係推廣 AI reverse engineering of presentation layer to data layer 定係 open data?況且,reverse 完都嘥氣,咪又係睇返政府網站上已經有嘅 summary presentation,貪得意咩。

如果規劃得宜,政府網站嘅所謂「人讀」summary presentation,其實只係 raw data 嘅其中一種表達,一定係先有 raw data,然後有 presentation。如果講次序,反而應該係 open data 先出街,而唔係 presentation。規劃得宜亦會帶嚟事半功倍嘅效果,因為提供 open data 並唔係政府一個額外負擔,而係過程中嘅必然,亦毋須每個 presentation 出 dataset,只係一個 master dataset 就代表可能上百種嘅 summary presentation,慳水慳力,然後仲有大量網民免費幫你以補不足。

口講無憑,乜嘢叫做 rawest possible?小弟就用 US Census 一個選民統計嘅 open data 做例,公眾可以隨便 download 佢有成 90 幾萬隻 records 嘅 dataset,隨便做一個 pivot table。

Screenshot from 2019-02-25 06-05-48
US Census - Citizen Voting Age by Race and Ethnicity, raw data, 962013 records

Screenshot from 2019-02-25 06-06-02
pivot table as summary presentation

用同一套 90 幾萬隻 records 嘅 dataset,小弟可以做上百種唔同 aggregation 嘅 pivot table,悉隨尊便。依家香港政府就係將個 pivot table 當係 raw data,俾 13 隻 records 出嚟當係交差,一個 summary presentation 一 個 dataset,部門做死,但對公眾又冇用,咁嘅 “open data” 要嚟托咩,公眾喺政府網站咪睇咗個 summary 囉,要得 open data,梗係要嗰 90 幾萬隻而唔係 13 隻 records 啦。反而部門只出一個 master dataset,公眾又開心,部門又做少啲,皆大歡喜。

創科局搞咗個咁大嘅笑話,係咪暗示佢心目中嘅 open data 規劃,只係將放喺成千上萬嘅 MS Word/Excel document 入面嘅 summary presentation convert 去 XML,而唔係由 database 著手?定係政府嘅 presentation 不嬲都冇 data support,要提供 raw data 就要好辛苦作 data 去 match 返之前嘅 presentation?

睇返 ITB Idiots 個 FB post,創科局係有一個「效率促進辦公室」嘅,佢哋係促進緊啲乜野效率?係咪教人點樣快啲見到 Steve Jobs?