漢字字頻統計方法的改進的策略
佚名
一、漢字字頻統計的概念
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統的文字學認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現出一定的統計規律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”①顧名思義,字頻就是字的使用頻度。蘇培成在《現代漢字學綱要》(增訂本)給字頻下的定義是:“字頻就是漢字的使用頻度,是指在一定的歷史時期內經抽樣取得的文字資料里,每一個漢字的使用次數與抽樣資料總字數的比例。”②他所說的“字頻”,就是指漢字字頻。沙宗元在《文字學術語規范研究》中收了“字頻”這個詞條,他給出的定義是:“某個漢字在一定語料中使用(出現)的次數與樣本總字數(又叫樣本容量)之比。”③這個“字頻”也指漢字字頻。兩家的定義大體不錯,但表述不夠嚴密。第一,用來作為字頻統計的文字資料不一定是經抽樣取得的,如《史記》的字頻統計這類專書字頻統計是根據特定目的選取的,而非“經抽樣取得”的。“經抽樣取得”不能作為字頻統計的必要條件。第二,“總字數”的說法比較含混,應該改作“總字次”。第三,“樣本總字數”的“樣本”表意不明確。綜合學術界的研究,漢字字頻可以定義為:個體漢字字符在按特定原則選定的文本中出現的次數與選定文本總字次之比。
對使用中的漢字進行字頻統計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據,對漢字規范、漢字教學及漢字信息處理有重要意義。漢字字頻統計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統計的主要成果
以往的漢字字頻統計與研究取得了重要的研究成果,為漢字的研究與應用作出了重要的貢獻。字頻統計一般分綜合字頻統計及分類字頻統計兩類。其代表性成果主要有以下幾項:
現代漢字綜合字頻統計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統計使用的語料時間范圍為1973-1975年,語料內容包括科學技術、文學藝術、政治理論和新聞通訊四類,統計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統計得出6376個字種。2.《漢字頻率表》,此表包含在北京語言學院語言教學研究所編的《現代漢語頻率辭典》中,1986年6月由北京語言學院出版社出版。本次字頻統計使用的語料時間范圍較多選用20世紀40年代至70年代的作品,語料內容包括報刊政論文章及專著、科普書刊材料、劇本和日常口語材料和各種體裁的文學作品四類,統計方式采用人工和計算機相結合。選用語料180萬字次,統計得出“不同漢字4574個”。(參考該書“前言”和編纂說明)3.《現代漢語字頻統計表》,此表由北京航空學院計算機科學與工程系和國家語言文字委員會漢字處研制,于1992年1月由語文出版社出版,出版署名單位是國家語言文字工作委員會和國家標準局。本次字頻統計使用的語料時間范圍為1977-1982年,語料內容包括自然科學和社會科學兩大類,統計方式完全采用計算機自動統計,選用語料13800萬字次,抽取出的統計樣本語料11873029字次,統計得出漢字7754個。(參考該書說明)4.《報紙、廣播電視、網絡用字總表》,本表收錄在“中國語言生活狀況報告”課題組編《中國語言生活狀況報告(2005)》中,《報告》于2006年9月由商務印書館出版。《中國語言生活狀況報告(2005)》是由國家語委首次向社會發布的年度語言生活報告,其中的《報紙、廣播電視、網絡用字總表》是2005年年度用字字頻統計表。該表語料時間范圍為2005年,語料介質包括報紙、廣播電視和網絡,統計手段采用計算機,共選擇892034個文本文件,包括732143010字次,統計得出字種數8128個。(該書把字種界定為“這里的字種,指字形不同的漢字。”④)
古代文獻使用漢字的綜合字頻統計成果主要有《古籍漢字字頻統計》,該書由北京書同文數字化技術有限公司編寫,2008年7月由商務印書館出版。本書統計的語料為電子版《四庫全書》和《四部叢刊》,統計方式完全采用計算機自動統計,使用語料8億字次,統計得出漢字30127個。(在該書收錄的“大規模古籍漢字用字統計報告”中“統計結果匯總與初步分析”一節中介紹該書統計出的總字數時說:“1.文淵閣《四庫全書》漢字總字數:29088字;2.《四部叢刊》漢字用字總字數:27606字;3.《四庫全書》與《四部叢刊》漢字用字合計:30127字。”⑤但是該書《古籍字頻統計表》的順序號的最后一號是30136,比30127多出9個數字。查《古籍字頻統計表》中含有部分空格和非漢字符號,如八卦卦符、古琴書中的指符等,甚至有新式標點和網址符@。因此,本書給出的總字數并不準確,只是個大致的數字。)
古代文獻專書使用漢字字頻統計的成果主要有《史記字頻研究》,李波著《史記字頻研究》,2006年3月由商務印書館出版。該書的字頻統計以漢代司馬遷所撰《史記》一書的全部文字為對象,選擇中華書局標點本130卷《史記》三家注本作底本,統計方式采用計算機手段。全書計572864字次,統計得出4932個字。
上述字頻統計的成果在漢字理論研究和現實應用等方面起了重要作用。理論研究方面,如周有光在字頻統計成果的基礎上發現了漢字效用遞減率⑥。王鳳陽在字頻統計成果的基礎上發現了漢字常用字筆畫遞減率⑦。社會應用方面,如1980年由國家標準總局發布,1981年5月1日實施的《信息交換用漢字編碼字符集·基本集》是在《漢字頻度表》的基礎上研制完成的。1988年1月26日由國家語言文字工作委員會、國家教育委員會聯合發布的《現代漢語常用字表》的研制參考了《漢字頻度表》(常用字部分4152字)、《社會科學、自然科學綜合漢字頻度表》(常用字部分3500字)和《漢字頻率表》(4574字)⑧。1988年3月25日由國家語言文字工作委員會、中華人民共和國新聞出版署聯合發布的《現代漢語通用字表》也參考了上述字頻統計成果。這些字頻統計的結果和在字頻統計成果基礎上研制的《字表》對漢字教學、漢字水平測試、漢字識別、漢字信息處理、漢字字典編纂、漢字規范等工作都起到了重要的參考作用。
三、漢字字頻統計存在的主要問題
盡管漢字字頻統計取得了諸多重要的研究成果,但是,由于受漢字自身的復雜性以及漢字信息處理技術的局限性等因素的影響,目前的漢字字頻統計還存在很多問題,影響了字頻統計的質量。其問題主要表現在以下幾個方面:
1.近些年來多數漢字字頻統計依據的是電子語料庫,這些電子語料庫建庫目標主要是為語言研究服務的,加之計算機字庫收字的限制,在把紙質文本轉換成電子文本的過程中未能保持文字使用的原始狀態,影響到統計結果的客觀性。比如,1956年1月28日國務院全體會議第23次會議通過了《關于公布〈漢字簡化方案〉的決議》,1956年1月31日《人民日報》全文發表了國務院的《關于公布〈漢字簡化方案〉的決議》和《漢字簡化方案》,在此之前報刊圖書主要使用繁體字(偶爾也用簡體字)。1955年12月文化部和文改會聯合發布了《第一批異體字整理表》(以下簡稱《一異表》),要求從1956年2月起在全國實施,這之前異體字未經整理。1977年12月20日《人民日報》、《光明日報》、《解放軍報》及各省、市、自治區一級報紙發表中國文字改革委員會《第二次漢字簡化方案(草案)》,12月21日《人民日報》開始試用《第二次漢字簡化方案(草案)》第一表的簡化字,1978年7月停止試用這批簡化字,1977年12月21日至1978年7月之間《人民日報》等曾經用過“二簡”的字。而北京語言學院語言教學研究所1986年編的《漢字頻率表》使用了1956年1月31日前的資料,如1951年1月31日的《人民日報》、1955年出版的《田漢劇作選》、1954年至1955年在《獨幕劇選》上發表的何求的《新局長到來之前》、1952年人民文學出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文學出版社出版的老舍的《駱駝祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文學出版社出版的巴金的《春》第一章等,卻沒有出現繁體字⑨。使用了1956年2月《一異表》實施前的大量資料,卻沒有出現異體字。以1951年1月31日的《人民日報》為例,該日報原版中有繁體字“對”、“裝”、“數”、“會”等,而《漢字頻率表》有“對(頻序60、頻次5138)”、“裝(頻序435、頻次841)”、“數(頻序286、頻次1325)”、“會(頻序32、頻次7075)”,而沒有“對”、“裝”、“數”、“會”等。該日報紙中有《第一批異體字整理表》中被淘汰的異體“遊(舊字形)”、“鎻”、“週(舊字形)”、“誌”等,而《漢字頻率表》有“游”、“周”、“志”等正體,有“鎻”的正體“鎖”的簡化字“鎖”,而沒有“遊”、“鎻”、“週”、“誌”等。該日報原版中文字有舊字形,而《漢字頻率表》中的字均為新字形。推測《漢字頻率表》的研制者在測查文本時按當時的規范修改了原始文本,用規范字替換了不規范的字。這種測查結果顯然不能準確反映社會用字的實際情況。又,國家語言資源監測與研究中心編《中國語言生活狀況報告(2005)》(下編)的《調查報告》中明確指出:“報紙文本是從網絡下載的,沒有與紙質版本作比較。”又說:“本次統計不包括以下兩種字符:(1)漢字部件。共有25個,計529字次,主要出現在報紙語料或網絡語料中。包含以下兩類情況中:①講解漢字中用到的偏旁部首,如‘言語的“語”這個字旁邊是個“讠”字旁’。這種部件共出現四個:亻、辶、宀、讠。②拼字,大部分出現于人名、地名,如‘講述人劉亻思亻思,14歲,樹德試驗中學’、‘本市寶坻區林亭口鎮帳房瞿阝村農民’、‘廣東中山南(艸朗)(上下結構)鎮橫門港碼頭彩旗飛揚’、‘20歲的廣西姑娘小(崩刂)昨天回廣州了’。(2)亂碼和無法顯示的字符。這些字符共出現765個,計23221字符次,占整個語料字符數的0.0026%。”⑩根據作者的自述,本次統計不是依據原始的紙質文本,而是依據電子文本,并且電子文本并未與紙質文本校對,因此,電子文本轉錄錯誤的未加改正。受轉錄者使用的計算機編碼字庫的限制,字庫中沒有的字,在電子文本中或用拼字表示,或用替代符號,或根本無法顯示,均不能統計。(舉例中出現的偲、、蓈、剻四個字在《報刊、廣播電視、網絡用字總表》中也都未收錄。) 2.未能嚴格規定統計單位,或規定的統計單位不一致,影響到統計結果的科學性,不同的統計結果也無法進行比較。前面提到的北京語言學院語言教學研究所編的《漢字頻度表》、北京航空學院計算機科學與工程系和國家語言文字委員會漢字處研制的《現代漢語字頻統計表》、李波著《史記字頻研究》以及北京書同文數字化技術有限公司編寫的《古籍漢字字頻統計》均未明確界定統計單位。只有收錄在《中國語言生活狀況報告(2005)》中的《報紙、廣播電視、網絡用字總表》的調查報告中對統計單位有粗略的說明:“字種數:8128個。這里的字種,指字形不同的漢字。”(11)這里無論是用的“字種”這個術語,還是“字形不同的漢字”,這樣對字種的解釋,表意都不夠明確。首先,使用的字種這個術語與學術界一般的用法不同。周有光在《現代漢字學發凡》一文中曾用具體實例區別“字次”、“字種”和“字形”三個術語,他指出:“‘從群眾中來到羣衆中去,是一條群眾路線的原理’。這個句子里有幾個字?甲答:20個字。乙答16個字。丙答:18個字。為什么答案不同?甲講的是‘總字次’,有一個算一個。乙講的是‘字種數’,同字異形合并計算。丙講的是‘字形數’,同字異形分別計算。”(12)他在《現代漢語用字的定量問題》一文中又指出:“‘定量’是定‘字種’的總量。一個漢字可以繁簡不同,形體不同,但是屬于同一‘字種’,以‘正字’為標準。”(13)沙宗元在《文字學術語規范研究》一書中根據周有光的研究設立了“字形數”和“字種”兩個術語,并分別給出了定義,他給“字形數”下的定義是:“根據漢字字形而不考慮其繁簡、正異等字際關系進行統計所得出的漢字數量。”給“字種”下的定義是:“一個漢字即使有多個繁簡體、異體字,也只作為一個來計算的漢字統計單位。”(14)該文中所定義的兩個術語也存在不匹配的問題。跟“字種”匹配的術語是“字形”,跟“字形數”匹配的術語應是“字種數”。《報紙、廣播電視、網絡用字總表》中用的字種大致相當于周有光所說的字形。在實際操作中,《報紙、廣播電視、網絡用字總表》繁簡字、異體字、新舊字形都作為不同的統計單位來統計的。在該表統計的8128個統計單位中包括繁體字361個,異體字193個,舊印刷字形47個,另有不合現行規范的類推簡化字7個。
前面提到的那些未對統計單位作出明確規定的統計,在實際操作中所用的統計單位各不相同。
北京語言學院語言教學研究所編《漢字頻度表》的統計單位大致是按照周有光定義的字種來操作的,統計的語料中包含繁簡字、異體字和新舊字形,統計結果中有個別異體字和錯誤類推簡化字,但未見繁體字和舊字形,應該是用簡化字替代了繁體字,用新字形替代了舊字形。統計出的異體字,包括《一異表》收錄的異體字,如,並(276)、并(1766);黏(1719)、粘(2495);渺(2321)、淼(4336)等;《一異表》未收的異體字,如,沙(649)、砂1756;衖(1901)、巷(2034)等;錯誤類推簡化字,如,4475號“垅”(2189壟);4174號飚(當是技術錯誤)。
《中國語言生活狀況報告(2005)》中的《報紙、廣播電視、網絡用字總表》的統計單位近似于周有光的字形,繁簡字、異體字、新舊字形均作為不同的統計單位進行統計。表中收錄繁體字361個(15),異體字193個(16),舊字形47個(17)。
統計單位的不明確、不統一,不僅影響到字頻統計的科學性,也不利于統計結果的正確、有效使用。
四、漢字字頻統計的改進
根據上述情況分析,我們認為必須加強字頻統計的理論研究,完善統計原則,改進統計方法,提高字頻統計的客觀性和科學性。
首先,要實現字頻統計的客觀性,必須建設滿足文字學研究需要的字料庫。所謂字料庫“是指以文字的整理和文字學的研究為目標,按照語言學和文字學的原則,收集實際使用中能夠代表特定文字或文字變體的真實出現過的文字書寫形態,運用計算機技術建成的具有一定規模的大型電子文字資源庫。字料庫是在大規模真實文本的基礎上生成的真實的文字書寫形態的有序集合,是利用計算機對文字形體進行各種分類、統計、檢索、綜合、比較等研究的基礎。”(18)只有根據字料庫的原則建設字料庫,基于字料庫進行漢字的字頻統計,改變以往基于語料庫進行字頻統計的做法,才能解決以往字頻統計客觀性不足的問題,實現字頻統計的客觀性,使得字頻統計能夠最大限度地反映社會用字的實際狀況。
其次,漢字字頻統計必須明確界定統計單位,劃分不同層級的漢字統計單位,根據不同需要對漢字的不同層級的統計單位進行分類分層的字頻統計。
漢字統計單位的界定與劃分是一個非常復雜的問題,必須專門研究,不是本文能夠全面解決的問題。本文僅以印刷楷書為例,以字頻統計為目標,示范性地討論字的概念界定與劃分方法。
學術界不少學者曾經從文字學的角度對漢字中字的單位做過區分,但是,著眼點又有所不同,有的是著眼于漢字規范對字的單位進行界定,有的是著眼于對漢字使用實際狀況的調查對字的單位進行界定。前者,如前文所述周有光在《現代漢字學發凡》一文中曾區別“字種”和“字形”。后者,如北京師范大學漢字構形學系列研究,從文本提取字形進行歸納,實際上也涉及漢字單位。王貴元的《馬王堆帛書漢字構形系統研究》是最早從文本中提取字進行構形分析的專著。該書第二章“單字整理”,專門討論從文本中提取字制作字表和進行統計的單位問題。文中先討論了異寫字、異構字、同形字三個概念,并在此基礎上討論了字樣認同與別異、通行體與變體、單字統計原則等問題(19)。李運富在《楚國簡帛文字構形系統研究》一書中,也在第二章設立了“單字整理”一章,并進一步把單字整理程序化,專門討論了字樣的提取與辨認問題,在此基礎上討論了字樣群的處理,設立了字位與符位等概念,把字的單位區別為同體字樣與異寫字樣、同符位異構字、異符位同形字等,已經有了字單位的層級性的思想(20)。到陳淑梅的《東漢碑隸構形系統研究》和齊元濤的《隋唐五代碑志楷書構形系統研究》,字樣提取及不同層次單位的歸納程序基本成熟。王寧先生在為《漢字構形史叢書》寫的總序中對此作了理論總結,她說:“對文本中的漢字加以整理,也就是必須對寫在文本上實際使用的漢字進行三種性質不同的歸納:(1)字樣的歸納。這是將重復出現的漢字字樣歸納到一起并進行統計的工作,是將一切文本形式的漢字改變為字庫形式第一步要做的工作。(2)字組的歸納,也就是對結構、功能相同書寫略有變化的異寫字的歸納。這些字屬于同字異寫,或稱同構異寫的關系。(3)字種的歸納,也就是對功能相同結構不同的異構字的歸納。這些字或因構件的選擇不同,或因構件的增減不同而異形,因而有著不同的構意,但記詞的功能是相同的。它們的關系屬于同職異字,或稱同詞異字。”(21)王寧先生所說的“三種性質不同的歸納”如果都把它定義為字的話,也就是三個不同層次的“字單位”。
從規定的角度可以采納周有光先生的界定,把字的單位劃分為字種、字形兩級。
字的單位確定了,字頻統計則可以根據不同的統計目的規定統計單位,可以以字型為統計單位統計型頻,也可以以字樣為單位統計樣頻,可以以字式為單位統計式頻,可以以字種為單位統計種頻。這樣,不僅統計單位明確、清晰,而且每次特定的統計,統計單位統一、等質,便于統計數據的使用,以及不同統計數據的比較,使得字頻統計的科學性得到保障。
注釋:
①馮志偉:《現代漢字和計算機》,北京:北京大學出版社,1989年版,第109頁。
②蘇培成:《現代漢字學綱要》(增訂本),北京:北京大學出版社,2001年版,第32頁。
③沙宗元:《文字學術語規范研究》,合肥:安徽大學出版社,2008年版,第402頁。
④國家語言資源監測與研究中心:《中國語言生活狀況報告(2005)》,北京:商務印書館,2006年版,第6頁。
⑤北京書同文數字化技術有限公司:《古籍漢字字頻統計》,北京:商務印書館,2008年版,第14-15頁。
⑥周有光:《中國語文縱橫談》,北京:清華大學出版社,1997年版,第64頁。
⑦王鳳陽:《漢字頻率與漢字簡化》,載《語文現代化叢刊》,北京:知識出版社,1980年第3輯,第92頁。
⑧國家語言文字工作委員會、國家教育委員會:《關于發布〈現代漢語常用字表〉的聯合通知》,1988年版。
⑨北京語言學院語言教學研究所:《現代漢語頻率詞典·編輯說明》,北京:北京語言學院出版社,1986年版。
⑩國家語言資源監測與研究中心:《中國語言生活狀況報告(2005)》,第6頁。
(11)國家語言資源監測與研究中心:《中國語言生活狀況報告(2005)》,第6頁。
(12)周有光:《周有光語言學論文集》,北京:商務印書館,2004年版,第316頁。原載于《語文現代化》叢刊第2輯,1980版。
(13)周有光:《周有光語言學論文集》,第339頁。原載于《辭書研究》,1984年第4期。
(14)沙宗元:《文字學術語規范研究》,第401頁。
(15)(16)(17)國家語言資源監測與研究中心:《中國語言生活狀況報告(2005)》,第257-261、262-264、266頁。
(18)李國英、周曉文:《字料庫建設的必要性與可行性》,《北京師范大學學報(社會科學版)》,2009年第5期。
(19)王貴元:《馬王堆帛書漢字構形系統研究》,南寧:廣西教育出版社,1999年版,第15-24頁。
(20)李運富:《楚國簡帛文字構形系統研究》,長沙:岳麓書社,1997年版,第22-43頁。
(21)王寧:《漢字構形史叢書·總序》,上海:上海教育出版社,2003年版。