論文:中國開放政府數據平臺研究
佚名
研究背景
政府部門在履行行政職能、管理社會公共事務的過程中采集和儲存了大量數據,開放政府數據有利于全社會更廣泛、更高效地利用數據創造經濟社會價值。開放政府數據,即指可以由任何人自由、免費地訪問、獲取、使用和分享政府數據。政府數據的開放,不但能幫助政府提高自身透明度并提升治理能力和效率,也是促進經濟發展和社會創新的重要推力。
自2009年起,美國(data.gov)和英國(data.gov.uk)相繼上線了國家開放數據平臺網站,加拿大、法國、挪威、肯尼亞、韓國、新加坡等國家和地區也建立起了政府開放數據平臺,開啟了全球開放政府數據的浪潮。中國的上海、北京作為最早開展開放數據工作的地方政府,自2011年起便開始了相應可行性調研、政策制定和平臺建設。自上海市于2012年6月首先上線試運行“上海市政府數據服務網”之后,其他地方如北京、佛山南海、武漢等也陸續推出了開放數據平臺網站。在國家層面上,國家開放數據平臺的建設也提上了議程。2015年兩會期間,李克強總理在回應有關開放數據的相關提議時說道:“政府掌握的數據要公開,除依法涉密的之外,數據要盡最大可能地公開,以便于云計算企業為社會服務,也為政府決策、監管服務。”2015年5月,馬凱副總理也強調要“共促數據開放,讓大數據惠及更多民眾”“要加快建立政府開放數據平臺,優先開放高價值數據,鼓勵基于開放數據開展應用創新,讓大數據惠及更多民眾,要制定鼓勵政策,引導更多非公共數據向社會開放。”
二研究目的與意義
開放政府數據的發展離不開政府部門持續性的政策支持和資源投入,開放政府數據的社會經濟價值也需要時間逐漸體現。因此,對于中國開放政府數據的進展進行持續地追蹤和評估,能有利于政府部門和各利益相關方尋找差距、發現問題、看清趨勢,最終推進開放政府數據工作良性發展。
當前,由萬維網基金會所組織開展的“開放數據晴雨表”(OpenData Barometer)[1]和英國開放知識基金會(OpenKnowledge)組織開展的“開放數據指數”(Open Data Index)[2]是得到各國政府、國際組織及國際開放數據社群廣泛認可的兩項開放政府數據評估項目。在開放數據晴雨表(2014)中,中國位于第46位(共86),而在開放數據指數(2014)中,中國位于第57位(共97)。然而,上述兩項國際評估都只聚焦于評估國家層面的開放政府數據項目,目前中國的開放政府數據實踐則主要在地方政府層面展開。因此,這兩項國際評估未能系統性地對中國開放政府數據發展現狀特別是地方發展現狀進行全面系統的評估。
本研究依托相關分析框架和國際評估實踐,基于中國國情,建立較為系統全面的評估框架,對中國多個地方的開放政府數據實踐開展比較研究。評估的目的并非對不同地方的開放政府數據實踐予以排名,而是希望通過系統評估來客觀呈現中國各地開放政府數據實踐的現狀與問題,為中國開放政府數據的發展提供政策建議。
三研究框架與方法
(一)評估框架
“開放數據晴雨表”從準備度、執行度和影響力三個維度對不同國家或地區開展開放政府數據項目的評估排名,以揭示全球范圍內開放數據計劃的普遍流行和影響力,并分析其全球發展趨勢。“開放數據指數”則針對各國政府是否開放10個關鍵性數據集進行評估。萬維網基金會(World Wide WebFoundation)和紐約大學的治理實驗室(The Governance Lab at NYU)基于現有評估項目如“開放數據晴雨表”“開放數據指數”“開放數據500”[3]等總結提煉出了開放數據的通用評估框架(Common Assessment Framework)[4],包括四個層面:
①環境。指提供開放數據的背景環境,例如政府開放數據的國家整體背景或一個特定部門的背景,包括法律法規、組織、政治意愿/領導力、技術、社會、經濟等。
②數據。指開放數據集的本質和質量,包括定義、維度、數據的分類/部門、質量。
③使用。指數據被誰使用、如何使用及其可能產生的結果,包括使用者、目的、活動。
④影響。指使用特定開放數據得到的效益,包括社會、環境、政治/政府、經濟/商業方面的效益。
基于該通用評估框架,并考慮到中國開放政府數據發展目前處在初始階段,數據利用及其效果尚未充分展現,本研究將評估重點置于數據開放的供應端——政府一方,建立了基于“基礎”“數據”“平臺”層面共13個維度的評估框架,以期較為全面系統地評估中國各地的開放政府數據實踐(參見圖1)。
圖1中國政府開放數據整體評估框架
(二)數據采集方法
基于上述評估框架,研究主要采用了文獻調研、數據抓取和人工觀察三種方法采集數據。數據采集的時間截止到2015年5月20日,且所有數據均來自于公開渠道。
⒈文獻分析
有關基礎層的評估指標,例如組織領導力、管理體制、IT產業比例及創新產業發展水平等,采用文獻檢索方式,如通過搜索相關的政府政策文件、統計年鑒等方法采集數據。
⒉數據抓取
針對數據層的評估指標,本研究自動化抓取了各平臺上所發布的所有數據集信息(包含數據標題、發布機構、更新日期、下載量、瀏覽量等)。
⒊人工觀察
針對無法自動抓取的數據,例如平臺層是否提供了數據評價功能等,研究中采用了人工觀察記錄并交叉驗證的方式進行數據采集。
(三)樣本選擇
為開展此次評估調研,研究首先通過媒體報道、官方報道的途徑查詢了解到北京、上海、武漢、無錫、佛山南海這5個地方的開放政府數據實踐,再通過搜索引擎以“數據+gov.cn”和“data+gov.cn”為關鍵詞查詢到了另外8個地方的開放政府數據實踐。考慮到各地方開放政府數據實踐的成熟度、相關資訊完善度、地方行政層級和地域的多樣性,本次評估首先從13個地方中選取了北京市、上海市、武漢市、無錫市、湛江市、寧波市海曙區、佛山市南海區等7個地方作為評估樣本,并最終考慮到當前社會關注度,將貴州的“云上貴州”項目也納入研究對象(參見表1)。
表1評估樣本選擇
四當前現狀
(一)數據層
截至2015年5月20日,研究樣本所覆蓋的各地開放政府數據實踐共計公開了1963個數據集。其中公開數據最多的是武漢(635個),最少的則是貴州(17個)。就數據的開放性而言,開放數據應當提供機器可讀的格式(例如XLS而非PDF,且至少應當能下載),基于此要求研究發現,各地方中上海發布可機讀數據(398個)最多。平均而言,81.1%的公開數據均符合開放數據的數據格式要求(即可機讀),但目前僅北京市和寧波海曙區兩地100%提供了可機讀數據,其他地方仍有提升空間(參見圖2)。
圖2公開數據總量與可機讀數據總量
開放數據所采用的數據格式應當是開放的格式。所謂開放格式,是指一個數據格式標準由一個開放透明的過程定義并且不限制任何人實現該數據格式標準,其主要目的是確保一個數據文件無需一個指定的(特別是付費的)應用程序才能訪問。基于此定義,CSV是常見的開放格式,而XLS則不是。目前,僅北京100%提供了開放格式,佛山市南海區則有98.15%的數據提供開放格式,其他地方均未采用開放格式。我們也特別注意到目前僅佛山市南海區一個地方在發布數據時提供了多種格式(CSV、XLS、TXT、XML和JSON),這樣的數據提供方式可以更好地滿足不同需求的數據使用者更方便快捷地對數據進行增值利用。
數據的開放授權是數據開放性的另一考察維度。研究發現,目前除貴州之外的7個地方均對數據予以了授權,授權條款通常包含在開放數據門戶的免責條款或用戶協議中;僅無錫和寧波海曙兩個地方確保了其提供的數據將永久免費,而其他地方僅對數據的免費性設有一個相對模糊的時間期限,未明確指出到期之后將如何授權。進一步來看,各地的數據授權協議均未能對用戶的自由使用權利,特別是商業使用權利予以明確清晰的保障。而對于用戶的自由傳播分享權利,也存在類似問題,甚至有的地方包含了“不得有償或無償轉讓在本網站中獲取的各種數據資源”的條款,這與開放授權的要求不符。
數據的時效性也是評估的一項重點。研究對各地方平臺所承諾的更新頻率進行了分類統計(佛山南海、貴州未承諾更新頻率),結果發現整體上86.25%的數據是靜態數據(以年為單位更新,或按需更新),僅有13.75%的數據屬于動態數據(以月、周、日為單位更新,或實時更新)(參見圖3)。
注:未包含沒有申明數據更新頻率的南海和貴州。
圖3開放政府數據更新頻率分布
即使在大部分數據為靜態的情況下,少部分承諾將更新的數據也未能按承諾進行更新。研究根據各平臺上數據的發布時間和更新頻率標記出應當更新的數據集,再根據數據的上次更新時間來判定其是否按照承諾更新,結果表明,無錫是各地方中按承諾更新比例最高的(62.5%),而各地方平均僅有17.21%的數據按承諾得到了更新(參見圖4)。
圖4各地方數據按承諾更新數量和比例
各地方在提供數據的元數據時做法也不盡相同。目前,各地方都能提供基本的元數據信息,包括數據名稱、發布單位、數據分類以及數據描述等。本研究重點考察了各地方是否提供了幾項關鍵日期信息:第一項是數據的發布時間,其中佛山南海和寧波海曙均未能明確標記出該信息,僅能通過其提供的歷史數據記錄進行推算;第二項關鍵日期信息是數據的更新時間,這一項信息目前僅寧波海曙和佛山南海明確標記在數據頁面,而北京、上海、無錫、湛江都將該信息提供在數據目錄中而非數據頁面,不便于用戶查看該信息,而武漢和貴州尚未提供該元數據。
(二)平臺層
在開放數據平臺建設層面,本研究還評估了各開放數據平臺是否提供了數據導航來幫助用戶探索數據資源。結果發現,各地方均提供了搜索功能,且除貴州之外也都提供了分類導航(依發布機構和/或數據類別導航),其中上海、武漢、湛江還為用戶提供了按特定屬性(下載量、更新日期等)進行排序搜索等功能。
對于下載數據,目前能夠在上海、武漢和佛山南海的開放數據平臺上對數據進行預覽,從而能在下載數據前得以先行了解數據文件中所含的數據字段和樣例。而從數據下載的便捷性來說,目前無錫和湛江的數據下載流程最為簡便,均不需要用戶注冊登錄即可下載數據。在其余的5個地方中(貴州無數據下載故不納入評估),僅北京和南海無需實名注冊,其余3個地方都需要用戶提供身份證號碼才可注冊。
開放數據平臺不但需要提供原始的政府數據供下載,還應當成為展示社會上基于開放數據所開發的應用程序的平臺,為用戶下載使用提供便利。目前,各地方都在平臺上設立了應用頻道展示數據應用,其中北京和寧波海曙兩個地方不但展示了數據應用,還一并公開了各應用所使用的開放數據。截至2015年5月20日,8個平臺所提供的數據的應用總量僅達到158個(參見圖5);上海最多為73個應用,寧波海曙最少為0個,平均每個平臺上有20個應用。各地方中除上海之外均允許開發者提交上傳APP應用,以此激發用戶自主地對政府數據進行開發利用。
注:寧波海曙僅有測試數據,故數目為0。
圖5各地方應用頻道中應用數目
開放政府數據項目需要和用戶,特別是開放數據的增值利用者進行互動溝通。目前,除無錫之外的所有開放數據平臺都提供了交互功能,包括數據集評價功能(除貴州外)和數據請求功能。針對數據集評價,上海和湛江均能在不注冊登錄的情況下就提交評價,其他地方的平臺均要求先登錄才可提交相應評價信息。從評價方式上來說,武漢、湛江采用了星級評分,而北京、寧波海曙、佛山南海采用文字評價,上海則結合了兩種方式。對于數據請求功能,除了無錫之外各地方均允許用戶提交需要的數據,但經過研究測試沒有一個地方在一周時間內對研究的建議給出任何有效的答復,而在所有地方中,也僅有寧波海曙一個地方在功能設計中將收到的用戶數據請求予以公開,其他地方均不公開用戶的數據請求信息。
針對交互溝通,研究也同時關注了各地方是否由主管單位設立“大數據”“開放數據”相關的社交媒體賬號來宣傳、推廣政府數據開放項目,并為公眾提供交流渠道。根據評估結果,目前僅佛山南海為其開放政府數據項目設立了微博和微信賬號,通過社交媒體賬號推送了開放政府數據項目相關的新聞資訊(包括管理體制、政策、平臺更新等),但目前在佛山南海的“數說南海”平臺上尚未鏈接其社交媒體賬號。
(三)基礎層
在體制機制保障層面,開放政府數據實踐的發展亟需得到領導層的支持,這方面上海和佛山南海走在了全國的前列。研究評估中考察了地方開放政府數據項目是否獲得地方行政長官的公開支持,上海市副市長周波、佛山南海前區委書記鄧偉根都曾在公開場合發聲支持開放數據并有媒體報道,而其他地方雖有相應主管單位領導的支持,但地方行政長官在公開場合的發聲支持尚未有見。
上海是唯一一個有明確公開開放數據工作計劃的地方。其發布的《上海市政務數據資源共享和開放年度工作計劃》不但明確了整體的戰略部署和年度目標,也清楚列出當年的數據開放重點領域清單:2014年計劃開放190項數據集,2015年計劃開放428項數據集;這份工作方案同時明確了開放政府數據項目相關的配套項目建設(例如政府數據共享政策和平臺的完善)。而在其他地方,目前只有與智慧城市、大數據等相關的公開性政策文件,并未對開放數據專門公開發布相應政策,也未公開相應工作方案。
最后,從管理體制上看,目前各地方一般都由原有的信息化主管單位,比如當地的經濟和信息化委員會負責統籌和管理開放政府數據項目,其行政級別一般與其他部門(數據發布單位)相同。佛山南海和上海在管理體制上有一定的創新突破,主要體現在兩地都明確了主管單位的職能和權限,比如南海成立了數據統籌局統籌本地一切數據事宜(包括數據開放),而上海也在2015年初將原先的經信委信息化推進處變革為大數據發展處,明確體現其在大數據時代的新定位和職能,統籌推進開放政府數據工作。
五主要問題
基于評估比較分析,本研究總結了中國開放政府數據實踐存在六個方面的主要問題。
(一)數據量少、價值低、可機讀比例低
總體上,目前各地政府所開放的數據集數量和價值離社會需求仍有很大差距,無法滿足經濟發展與社會創新領域的需求,大量高價值且不涉及到國家安全、商業機密和個人隱私的數據未能開放。此外,開放數據所采用的數據格式決定了數據的技術開放性,目前各地方的開放政府數據實踐尚未能實現其所發布的所有數據都提供可機讀格式,而這將會為數據利用者,特別是非技術背景的使用者(例如學者、記者、NGO從業人員等),進一步增值利用相關數據增加難度。研究尤其發現,“云上貴州”目前所提供的數據均不能下載,其門戶所包含的17個數據集均為外鏈到原有為信息公開目的而搭建的網站(例如貴州省環境狀況公報),其主要服務目標是讓公眾知情而非增值利用,其實質并不符合開放政府數據的原則和要求。研究發現,目前僅兩個地方提供了開放格式的數據,在數據開放性方面,中國地方的開放數據實踐尚有很大提升空間。
(二)開放的多為靜態數據
開放政府數據應更多開放動態、實時的業務數據,高價值的動態數據是激發企業、個人開發者進一步增值利用的重要杠桿。在研究評估中發現,目前各地方所發布的數據中平均86.25%的數據是靜態數據(以年為單位更新,或按需更新),僅有平均13.75%的數據屬于動態數據(以月、周、日為單位更新,或實時更新),遠不能滿足和激發數據利用者的需求和興趣。
開放政府數據并非以數據釋放為終點,對于數據的更新維護也是開放政府數據項目的重要工作。研究評估發現,目前8個地方的開放政府數據項目雖然已經發布近2000個數據集,但其中僅有17.21%的數據按時得到更新,大量數據雖然清晰標明了更新頻率但是均未真正兌現承諾,這使得開放政府數據無法作為穩定、可靠的數據源被應用于產品之中。
(三)數據授權協議條款含糊
開放數據的授權協議是開放數據生態圈建設的重要元素,不但可用于確保開放數據可以自由免費地被使用、傳播,也有益于社會大眾理解開放文化,從而進一步發展出基于開放數據授權協議的商業模式。研究發現,各地方目前都采用了網站免責條款/用戶協議的形式對所發布的所有開放數據進行了一次性整體授權。但在相應的條款上,則存在較為嚴重的問題,尚不符合開放數據的法律開放性的原則。主要體現在兩個方面:一個是部分地方的授權協議中含有明顯有違數據開放性的條款,比如“不得有償或無償轉讓在本網站中獲取的各種數據資源”;二是協議中通常對用戶的權利含糊不清,未能明確、清晰地賦予和保障使用者的相應權利,比如多個地方都沒有條款來明確使用者擁有自由分享傳播的權利。
(四)缺乏便捷的數據獲取渠道
在數據獲取方式方面,平臺的數據獲取缺乏便捷性,大都須進行事先的注冊登錄,且平臺注冊難度較大,不利于民眾快速、便捷地獲取平臺數據,由此對民眾的積極性和滿意度有一定的負面影響。而且,多數地方的開放數據平臺都未提供數據內容的預覽功能,有些開放數據平臺即使提供了這一功能,也只是提供了部分數據內容的預覽;有些開放數據平臺則僅以圖片形式或者站外鏈接的方式來實現這一功能,不利于為公眾創造便利的數據獲取體驗。
(五)缺乏高質量的數據應用
總體而言,各地方的開放數據平臺所提供的數據應用數量還較少。有些平臺雖然開設了數據應用頻道,但是平臺上現存的“應用”并非可下載、可使用的數據應用,而僅僅是功能測試之后的結果;有些平臺雖然提供了可下載、可使用的數據應用,但大多并未利用本站數據,或僅僅淺層次地運用了地理位置等基礎數據,或即使利用了本站數據也并未對具體使用了哪個數據進行說明;有些平臺提供的“數據應用”名不副實,實際上是地方政府部門的政務業務處理系統,是開放數據的來源,而非數據開放后的實際應用。此外,還有些平臺雖然提供提交APP應用的功能,但是并不硬性要求提交的APP應用是利用本站數據開發的數據應用,未能有效促進本站數據創造效益;有些平臺的APP應用的提交局限于通過審核的企業用戶,受眾面狹窄,一般個人用戶即使利用該站數據進行了有益開發也無法提交,極大地打擊了用戶的積極性和創造性。
(六)缺乏便捷、及時、有效、公開的互動交流
在互動交流方面,多數地方的開放數據平臺都提供了對單個數據集的評價功能以及數據請求功能,建立了用戶和政府之間的對話機制。但多數平臺的互動交流功能的使用都缺乏便捷性,大多需要事先注冊登錄。其次,平臺的互動交流功能缺乏及時有效的回應,有些開放數據平臺雖然提供了單個數據集的評價功能,但是經過試驗,實際情況為可以提交評價但一直沒有在網頁上顯示,至于原因是審核尚未或未曾通過,還是評價功能“有名無實”,則不得而知。經過試驗,也發現這些平臺的數據請求功能大都未能進行及時有效的回應。本研究發現,僅有寧波海曙一個地方的平臺公開羅列了收到的公眾反饋意見和數據請求意見,而其他地方都將這些數據封閉在后臺,不利于激發大眾參與互動反饋和數據請求。
六改進建議
針對目前各地方開放政府數據項目的發展現狀和主要問題,本研究對中國開放政府數據發展提出七項建議。
(一)加強管理架構建設,制定相關政策與工作計劃
目前,許多地方缺乏有效的針對開放政府數據項目的管理架構和政策計劃。首先,建議設立或指定開放政府數據工作主管部門,并賦予該部門足夠的職權以協調統籌其他業務部門的數據,同時還應明確業務部門和其他相關部門在開放數據工作中的分工與職責。其次,還應盡快制定具有針對性的、切實可行的數據開放政策規范及行動計劃,明確開放政府數據的原則和要求,厘清開放政府數據與信息公開的差異和關聯性,并對開放政府數據的對象、形式、邊界進行嚴格定義,保證數據開放的規范化和制度化。最后,建議主管部門編訂年度工作方案,并公開向大眾發布,這將有利于社會公眾知曉和參與開放政府數據工作。
(二)提高領導支持力度
開放政府數據項目僅由主管部門推動還遠遠不夠,地方行政長官的公開支持無疑是推動這項工作的重要因素。已有國務院總理、副總理在不同場合對開放政府數據表示了支持,研究中也發現上海和佛山南海的地方行政領導也公開表態支持開放政府數據。建議各地方行政長官加深對開放政府數據之目的和意義的理解,并在地方重要工作會議、公開講話和實際工作中加強對政府數據開放工作的支持,在政府體系內樹立起開放政府數據的觀念,增強數據開放的意識,提升開放數據的工作能力建設,指導并支持主管部門推進開放政府數據工作。
(三)基于社會需求開放高價值數據、展現數據應用
建議主管部門以用戶需求為導向,會同數據發布單位以及數據需求者(例如企業、個人開發者、記者等)以圓桌會議等形式溝通數據需求,以提升開放數據的數量、質量、形式和價值。通過網站和社交媒體上的互動交流,采集公眾需求,不斷改進完善自身工作,并為基于政府開放數據開發的應用提供充分的展現平臺,從而激勵社會的數據利用。
(四)提升數據開放性與可機讀比例
建議正在建設的和未來要新開啟的開放政府數據項目提升開放數據的可機讀率,保證數據不以PDF、網頁、圖片等格式發布。這一點不但要體現在開放政府數據項目的本地政策文件或工作方案中,同時應作為重要的考核指標對各數據提供部門進行考核。各地方可視情況對相關管理人員進行培訓,闡述可機讀格式的概念和意義,介紹常見可機讀格式并提供相應工具幫助各部門將非機讀數據轉化為可機讀數據。更進一步,各地方應當建立完善的數據發布審核流程,結合自動化檢查和人工審查的方式,對發布的數據格式進行嚴格檢驗,確保所釋放的數據滿足數據格式的開放性要求。
(五)規范數據更新周期,落實數據更新工作
開放數據計劃的主管部門應設定相應規范和監督機制,確保數據得到及時更新。比如,可以在開放數據平臺中設定自動檢查程序,自動向相應單位發出更新警報,或借助大眾力量,在數據頁面上設定相應舉報按鈕,讓大眾舉報未得到及時更新的數據,推動相應部門及時更新數據,從而提升數據利用價值。考慮到開放數據項目對數據發布單位造成的成本壓力和運維壓力,數據發布單位可先行調研和實際測試(通過比賽、特定合作開發等)特定動態數據的價值,再由社會機構或企業競標負責相應數據API的開發和維護,通過PPP公私合作的方式將動態數據像水、電、氣一樣源源不斷地開放給社會、服務于公眾。
(六)完善數據授權協議
建議各地方學習并參考國際上現有的行之有效的知識共享協議、開放政府協議,結合中國實際法律環境,制定出適用于中國的開放數據授權協議條款,從而清晰、明確地保證用戶享有的數據訪問、獲取、利用和分享的權利及相應義務。各地方主管部門也應加強對企業、創業者、個人開發者介紹并宣傳授權協議的重要性和必要性,以及數據授權和商業模式的關聯性,從而促成數據發布者和數據利用者共同建設開放數據授權規則,有利于開放數據生態圈的構建與發展。
(七)降低數據獲取與互動門檻,推動有效公開的溝通
建議各地方的開放數據平臺降低數據獲取門檻和互動交流門檻,使用戶無需注冊便能獲取數據并參與互動。同時,落實平臺互動交流功能的有效性,即用戶所提交的對單個數據集的評價、對數據的請求、對平臺整體的意見建議應當獲得及時的審核、公開乃至回應。最后,應當加強對社交媒體工具的使用,向社會大眾及時更新政府開放數據計劃的最新發展,充分普及和宣傳開放政府數據的相關理念和活動,提升社會大眾的關注度、參與度和支持度,并借此與公眾就相關主題展開切實有效的雙向溝通。此外,互動交流可不僅限于政府和公眾間,也可使其成為公眾之間針對開放數據平臺、數據、應用進行討論交流的平臺,使得公眾之間能夠互相啟發和激勵,催生出更多的開放數據應用和需求,構建活躍、良性的開放數據生態系統。(來源:大數據文摘 編選:免費論文下載中心)