人口普查事后質量抽查的有關問題:國外經驗及借鑒
佚名
作者:賀本嵐 金勇進 鞏紅禹
摘要:事后質量抽查是對人口普查登記質量進行檢驗和評估的調查方法。文章通過對美國、英國和印度等國家的事后質量抽查經驗進行總結,對我國今后人口普查事后質量抽查提出了建議。
關鍵詞:人口普查;事后質量抽查;數據質量 Abstract:Post enumeration survey is one of the effective approaches to examine and evaluate the quality ofcensus registration.Based on the experience ofpostenumeration survey from theU. S., U.K. and India, this paperproposes some suggestions forChina2010 census.
Key words:census; post enumeration survey; data quality
我國政府統計數據質量已成為近年來國內外社會各界關注的問題之一。今年我國將進行第六次人口普查,人口普查的數據質量再次受到人們普遍的關注。目前,評價人口普查數據質量常用的方法之一是事后質量抽查。我國于1982年在人口普查中首次采用抽樣調查的方法來評價人口普查的登記質量,在歷年的人口變動情況抽樣調查中仍采取事后質量抽樣調查作為評價全國人口抽樣調查數據質量的方法之一[1]。
美國、英國等發達國家幾十年來對事后質量抽查進行了長期的討論,積累了豐富的理論和實踐經驗。對這些國家人口普查事后質量抽查進行經驗總結,將有助于我國人口普查及事后質量抽查工作的改進與完善,有助于改善我國政府統計數據質量,為日后普查方案的修訂提供依據。
美國和英國在人口普查事后質量抽查方面起步較早,而印度作為世界上的人口大國之一,與我國國情具有諸多相似之處,因此,本文選取這三個國家與中國進行比較分析。
一、抽樣設計比較
(一)美國抽樣設計美國在每十年一次的人口普查中估計人口覆蓋率歷史較長,正式測算始于1940年的人口普查。1980年開始結合雙系統估計方法采用事后質量抽查測算人口普查的覆蓋率。2000年美國的人口普查事后質量抽查稱為“準確性與覆蓋度評估”(Accuracy and Coverage Evaluation,以下簡稱為ACE),采用三階段分層整群抽樣設計。
2000年人口普查中,美國共劃分了3767000個街區群,美國聯邦人口普查局根據估計精度和事后抽查目的確定全國樣本量。第一階段,ACE調查首先將所有街區群按居住單位數量和是否美國印第安人居住分為小型街區層(每個街區群0-2個居住單位),中型街區層(每個街區群3-79個居住單位),大型街區層(每個街區群80個以上居住單位)和美國印第安人居住層[2]。再按人口比例分配各街區樣本量,在各層內等距抽取街區群樣本。
該階段樣本抽取出來以后,還需進行居住單元比較和目標延伸搜索,以彌補調查目錄的不足。對每一個街區群樣本進行現場調查,編制每個街區群內的居住單位地址目錄,稱為ACE獨立(居住單位)地址目錄。對每個入選的街區群樣本,將該街區群的ACE獨立(居住單位)地址目錄與該街區群的“最新普查(居住單位)地址目錄”進行對比,確定是否需要進行目標延伸搜索,完善調查目錄。如果這兩份目錄的居住單元一致,則無需進行目標延伸搜索。而如果兩份目錄不一致,則按照不一致單元的數量進行排序,等距抽取其中一部分進行目標延伸搜索,即對劃分區域內除調查目錄外的其他建筑和場所進行居住單元地搜索與登記,對登記錯誤的居住單元進行改正,對遺漏的進行補充。
第二階段對抽取的第一階段樣本街區群分子層基礎上,采用第一階段抽取街區群的相同方法從這些劃分子層中分別抽取調查小區樣本,目的是為了縮小最終抽取調查小區樣本的數量,提高樣本的代表性。
第三階段抽取住戶單位,對第二階段抽出的包含79個住戶單位以下的調查小區內的住戶全部進行調查,而包含80個住戶單位以上的調查小區則被再分成街區片(由若干住戶單位組成),采用系統抽樣抽取一定比例的街區片住戶單位。
對抽取的樣本住戶內的個人采用年齡、性別、種族、房屋所有權期限、地區、城市類別、郵寄回答率等進行事后分層[3]。在每個事后層內構造雙系統估計量估計該層的人口數,再通過匯總得到全國人口數。最終計算得到人口普查凈遺漏率為1. 16%。
2010年美國將進行第23次人口普查,并制定了事后質量抽查初始方案,稱為普查覆蓋度測量(CensusCoverageMeasuremen,t簡稱CCM),其抽樣設計與2000年相同。
(二)英國抽樣設計
英國自1961年開始在人口普查后進行普查日外出人口10%調查、事后調查估計覆蓋和回答誤差等。
2001年人口普查事后抽查稱為普查覆蓋度調查(CensusCoverage Survey,以下簡稱CCS),采用兩階段分層不等概率抽樣設計。
為選擇有效樣本,能對所有地方行政區按年齡和性別估計普查日人口數,調查首先將英國相鄰的地方行政區重新歸類,形成112個“設計區”。每個設計區包含大約500000人,由若干郵政編碼區域組成。由于各區域的漏報率水平不一致,為提高估計精度,根據1991年普查中影響漏報率的相關變量構造“普查難度指數(Had to Count Index)”[4],將每個設計區劃分為簡單、中等、困難三類調查區,再從每一類調查區內抽取調查區,即為第一階段樣本。
第二階段采用簡單隨機抽樣從每一調查區內抽取一定數量的郵政編碼(每個郵政編碼對應多個住戶),這些郵政編碼對應的住戶構成最終樣本單元。最后將CCS最終樣本按年齡性別交叉分為37組,經過CCS與普查記錄進行匹配,構造雙系統估計量來推斷總人口數。推估得到2001年人口普查凈遺漏率為6.1%。
為準備2011年的人口普查事后質量抽查,英國于2009年11月23日至12月17日進行了預調查。2011年的CCS在1991年的基礎上做了一些改進,如劃分設計區時不僅考慮地理位置因素,還綜合考慮區域類型等其它因素;對重復率和漏登率分別進行估計等。
(三)印度抽樣設計
印度于1872年首次進行人口普查,從1951年人口普查起開展事后質量抽查。2001年人口普查事后質量抽查(PostEnumeration Survey,以下簡稱PES),主要目的是計算覆蓋誤差(Coverage Error),采取兩階段分層系統抽樣設計。
調查首先根據1991年的遺漏率和相對百分誤差確定2001年PES的樣本量。再考慮區域的離散性,數據分析的可靠性及非抽樣誤差的控制等因素,在國家的層面上抽取3000個街區。同時由1991年的調查發現,在區域范圍內更能精確合理地估計相對標準百分比誤差。因此,將全國所有的邦分成六個區:南區、東區、東北區、北區、西區、中區,分別在全國和區域的層面上進行估計。
根據1991年人口普查結果預先推算2001年各邦人口數,再按與這個人口規模數成比例分配街區到各個邦。在每個邦內,先將該邦所有的街區按照位置代碼排序,采取系統抽樣抽取街區,最終抽取的3000個街區用來估計覆蓋誤差。再從這3000個街區中按照系統抽樣抽出600個街區,用來估計普查登記內容誤差。對被選中街區的所有住戶都進行調查。
對最終抽取的樣本按年齡、性別、城鄉和區域進行事后分層,構造雙系統估計量估計特定屬性人口的普查覆蓋率和人口數。2001年印度PES顯示全國范圍內總的凈遺漏率為2. 3%,其中:城市比農村遺漏的更多,前者凈遺漏率為4%,后者凈遺漏率為1. 7%。
2011年印度將進行第十五次全國人口普查,這次普查的準備工作已經于2010年4月1日正式啟動。
(四)中國抽樣設計
2000年我國人口普查事后質量抽查采取分層隨機等距整群抽樣設計,采用人口普查地址碼庫作為調查目錄。事后質量抽樣調查目的是只評價全國人口普查登記的質量,并不評價省級及省級以下各級的登記質量,也不評價抽中調查小區的登記質量。
首先根據1999年年末人口數據將我國31個省市按總人口規模劃分為四層,各省再按城鄉分層,在層內隨機等距整群抽取調查小區(根據《第五次全國人口普查辦法》,人口普查登記和資料匯總按照劃分的普查區域進行。農村以村民委員會所轄地域為基礎,城鎮以居民委員會所轄地域為基礎劃分普查區。每個普查區,按照一個普查員所能承擔的工作量,劃分成若干個調查小區,涵蓋調查小區的 所有住戶,不重不漏。)。5000萬人以上的省份抽取30個調查小區, 2600—5000萬人的省份抽取20個調查小區, 2600萬人以下的省份抽取10個調查小區,西藏由于地廣人疏的特殊地理條件單獨劃分為一層,抽取2個調查小區。對居住在入選調查小區的人全部進行調查。全國共抽取602個調查小區,調查了162940人,抽樣比為0. 13‰。
事后質量抽查的對象包括普查時應在該調查小區登記的常住人口和普查登記時不屬于本調查小區的常住人口(即暫住人口)。對常住人口,先與該小區原普查表結果進行逐項比對得到兩次調查不一致的地方;對接受過調查的暫住人口,匯總至省級普查機構與其原登記地進行聯系比較,得到暫住人口在普查登記中的重登和漏登情況。通過兩類人的比對,計算普查的遺漏率、重登率、性別差異率和年齡差錯率。采用雙系統估計方法估計調查遺漏人口,最終計算得出2000年人口普查凈遺漏率為1. 81%。將上述四個國家人口普查事后質量抽查抽樣設計匯總如表1所示。
二、抽樣設計特點比較通過上述四個國家人口普查事后質量抽查抽樣設計的比較,可以發現:1.從凈遺漏率的角度看,這四個國家中美國人口普查登記的誤差最小,而英國誤差最大。國際上人口統計的基本共識是,普查登記的誤差在2%以下是正常的, 2% ~5%是可以接受的,如果超過5%,則資料的使用價值就要大大降低[1]。即是說,美國和中國人口普查凈遺漏率均低于2%,人口普查數字的質量是較好的,印度人口普查數字的質量可以接受,而英國人口普查資料的使用價值則要低。
2.從樣本量的確定方式來看,美國、英國和印度均采用基于全國的設計來確定抽取的樣本量,其中美國根據抽樣估計的精度確定事后抽查的樣本量,印度根據上次普查的遺漏率和相對百分誤差確定樣本量。
根據人口規模分配調查區樣本時,美國根據各州的上次普查的人口數確定樣本量分配,印度根據上次普查預測本次普查的人口規模確定各邦的樣本分配。
3.從調查方式看,各國都采用多階段分層抽樣設計以提高抽樣的代表性。美國和英國都在第一階抽樣基礎上,通過相關特征標志對第一階段樣本進行分層,再抽取第二階段樣本,目的是為了進一步提高抽查樣本對不同特征層人群普查遺漏率的代表性。而印度則是根據地理位置來進行分層,以更精確地在國家和區域層面上估計相對標準百分比誤差。中國則是根據自身國情選擇城鄉作為分層依據來確定各省應調查的普查小區數。此外,在最終入選的街區內對全部住戶都進行事后質量抽查。
4.從推估人口普查凈遺漏率的方法來看,四個國家都使用雙系統技術進行估計。即通過全國普查人口數與事后質量抽查得到的全國人口數進行比較,構建雙系統估計來最終估計全國的真實人口數。而事后質量抽查由P樣本和E樣本組成,P樣本由抽中樣本街區群在事后調查中和普查中同時被登記的人組成,E樣本由P樣本對應街區群在人口普查中所有被登記的那些人構成,通過兩個樣本的匹配,在每一事后層內構造雙系統估計量。
三、對中國人口普查事后質量抽查的建議人口普查事后質量抽查對于提高我國普查和人口變動抽樣調查數據質量具有重要的意義,根據上述美、英、印和中四個國家2000年的經驗做法,對我國今后人口普查事后質量抽查提出以下建議:(一)進一步細化事后質量抽查目標,計算不同子總體遺漏率目前我國事后質量抽查方案主要是從全國層面上估計和調整數據,而在省一級的層面上調查值與調整值之間的差值難以解釋,某些地域、民族等子總體的普查遺漏率可能會高于其他子總體。同時普查覆蓋率越接近100%,提高每個百分點的精度所需調查費用就越高,而如某些子總體在普查中遺漏率較高,其在事后調查中的入樣概率仍會比其他子總體要低。因此,如果將事后調查目標進一步細化至子總體,即將事后調查估計目標細化到估計各省的登記質量,不僅可以提高投入的人、財、物的使用效率,還可以提高事后質量抽查的估計精度,為以后的人口普查和人口變動抽樣調查提供原始珍貴的資料。
(二)選取合適的分層指標提高樣本代表性及估計精度2000年我國人口普查事后質量抽查樣本時在各省按城鄉標志將調查小區分為城市層和鄉村層,再在每層等距抽取調查小區樣本。分層過于簡單,抽取的樣本代表性不足。英國借助1991年普查信息構造普查難度指數來進行分層提高設計效率,印度則是由1991年的普查將全國所有的邦根據地理區域分層來提高估計效率。借鑒上述國家經驗并結合我國國情,可綜合考慮以下分層指標: (1)人口流動程度。近年來隨著我國經濟社會的發展,人口流動越來越頻繁,人戶分離現象比較普遍,勢必會給人口普查帶來相當大的困難,如難以入戶登記,多次上門找不見人等,導致普查遺漏率上升。一些省份人口流入較多,如廣東省和福建省,而另一些省份則流出人口較多,如四川省和貴州省,人口流動程度相近的省份會呈現出相似的特征。
因此,有必要將人口流動程度作為一個分層指標,按照人口凈流出、凈流入程度將全國劃分為不同層。(2)地域特征。可按照我國大陸劃分的地理區域(東北、華北、華東、華南、華中、西南和西北)劃分為七層,或按照國家統計局根據我國經濟特征劃分的東部、中部、西部和東北地區四層。
(三)根據我國人口特點選擇相應標志對抽取的樣本人口進行事后分層,使得層內個體被登記概率相同使用雙系統估計需要滿足的前提假設之一是每個人有相同的概率進入普查樣本和事后抽查樣本,對調查樣本進行事后分層則能較好解決這個問題。美國、英國和印度都對最終樣本分別按年齡、性別等標志進行了事后分層,而我國在未對抽取的調查小區樣本進行事后分層就直接使用雙系統估計方法,有悖于該假設條件。因此,對照我國事后質量抽查表與人口普查表,結合我國人口自身特點,可以選擇性別、年齡、民族、城鄉、城市化程度和省份區域等作為事后分層標志,進行事后交叉分層,并分別在事后層內構造雙系統估計量,從而滿足不同屬性人口的估計要求。
(四)確定恰當的事后質量抽查時間并選擇合適的調查人員,以保證事后質量抽查與人口普查之間的獨立性使用雙系統估計需要滿足的另外一個前提假設是事后質量抽查與普查之間相互獨立,要實現這一目的可以從時間和調查人員上分別考慮。(1)調查時間上,目前我國事后質量抽查在人口普查結束后的半個月后進行,既能保證調查員及被調查者對普查內容記憶的流暢性,又能減輕人口流動對普查質量造成的影響。而英國和印度事后質量抽查則是在普查后的1-2個月內進行,來保證事后質量抽查不受前期普查的影響。但這個時間點對于我國這樣一個人口大國且人口流動性較強的國家并不適用,因此,我國事后質量抽查的時間上仍可以保持不變。(2)調查人員上,事后質量抽查人員與普查人員獨立。從人員、經費等角度考慮,結合我國具體實踐操作經驗,可選取人口普查中的優秀普查員去不同于其普查期間所在的調查小區參加事后質量抽查。對于部分特殊地區如少數民族聚居地,還可以根據當地文化、語言條件另外選擇合適的調查人員。
[1]武潔.人口普查中的事后質量抽樣調查[J].南方人口, 2002(3): 18-24.
[2]胡桂華.美國2010年人口普查的事后質量檢查介紹[J].中國統計, 2009(8): 47-49.
[3]胡桂華.使用雙記錄系統技術估計全國真實人口數[J].統計與決策, 2008(9): 31-34.
[4]OWEN ABBOTT. 2011 Census CoverageAssessment and AdjustmentStrategy[J]. Population Trends, 2007(127): 7-13.