跳转到内容

汉字排检法

维基百科,自由的百科全书

汉字排检法就是排序和检索汉字的方法,对于工具书条目的排检、图书和档案目录的编查,人名地名的排列,各种字表的编排,计算机字符集编码与文字检索等等,都是不可或缺的。 [1]

英文等文字只用几十个拉丁字母,排序非常简易:字母表直接规定了字母序,而词语也是通过字母顺序来排列的。 汉字是语素文字,字数繁多,结构复杂,字序排列相当艰巨。 为了方便学习和使用,汉语的字序排列必须利用汉字本身的属性特征。 汉字有形、音、义等方面的属性,相应的就有形序、音序和义序排检法。这些方法各有所长。[1]

形序排检法

形序法是基于汉字的形体特征来编排和检索汉字的方法。常用的形序法有部首法、笔画法和号码法。[2]

部首排检法

《说文解字》部首法

最早的形序法是东汉人许慎在编写《说文解字》时首创的部首法。《说文解字》(简称《说文》)写作于公元100年至121年,是中国第一部字书。

《说文》收字9,353个(篆体字形),把有相同表义偏旁的字汇集在一起,建立为一部,每一部就用那个相同偏旁作为代表,叫做部首。 全书共分540部,也就有540个部首。形体相似或意义相近的部首排在一起,每一部内的字基本上是按“以类相从”的方法排列。例如水部字,大致上是先列水名,后列与水有关的动词和形容词。 《说文》严格依照传统六书的体系,同一意旁的字隶属同一部首,具有文字学的理据。但从后世的检索来看,《说文》的据义归部法不够方便。为查一字,往往需要采用“地毯式的”检索方法。[3]

《康熙字典》部首法

明代梅鹰祚编《字汇》,将部首减为214部,按照笔划数排列部首和部首内的字。在字的归部上,采取据形归部的原则。 清代的《康熙字典》沿用了《字汇》的部首法。进入20世纪后,《中华大字典》(1915)、《辞源》(1915)、《辞海》(1936)和 Unicode 中的CJK汉字集等都以《康熙字典》部首法为基础。[4]

以《康熙字典》部首法为代表的传统字序法,用现代科学的眼光来看仍有许多缺点。据王云五(1928)在《四角号码检字法 自序》中所指出的,这些缺点包括: 对于大型的字典,同一部同一笔划数的字都可能有数百之多。 部首的界线不分明:例如“夜”属夕部,“滕”归水部,“求”归水部,“年”归干部,都是难以捉摸的。 笔划的连笔和分笔没有一定的规则。[5]

《汉字部首表》

汉字部首表》规范 [6]规定了汉字的部首表及其使用规则,主部首201个,附形部首共100个。 《汉字部首表》是中国现行的部首规范,从2009年5月1日起实施。 《汉字部首表》 以现存有代表性有影响的《康熙字典》《辞海》《新华字典》《现代汉语词典》等字书的部首表为基础和依据设立部首。首先考虑现行汉字检索的需要,依据现行汉字的字形特征确立主部首和处理主附关系;同时为适应更大范围汉字楷书字形检索的需要,增设附形部首幷允许变通处理。 最近出版的新华字典第11、12版 和现代汉语词典第6、7版都已经转用《汉字部首表》规范。

部首法的优点主要是支持大字符集的汉字检索,可用于查找不知读音的字。 缺点有:部首的位置不固定,在不同的字中可能位于上、下、左、右、内、外等部位。 各辞书的立部归部不统一。 部首之间的排列和同部首的单字的排序以及难检字表都需要借助其他排检法。[7]

就现阶段来说, 港澳台多采用《康熙字典》的214部(或稍作删改), 内地多采用《汉字部首表》的201部。 还有其他的变化,一般都是以康熙部首为基础,例如Unicode的汉字表。[8]

笔划排检法

笔划排检法是根据汉字的笔画属性来排序和检索汉语字词的方法。笔划排检法包括笔划数法和笔划数-笔顺法等。[9]

笔划数法根据汉字笔划数的多寡来排序,笔画少的汉字排在多的汉字的前面。 例如,“汉字笔画, 漢字筆劃” 中的不同汉字的排序是“汉(5)字(6)画(8)笔(10)[筆(12)畫(12)]漢(14)”,圆括号内是笔画数。 [10]

笔划数-笔顺法,也称笔画笔形法,其基本原理是:先按笔画数从少到多排序,同笔画数的两个字按笔顺第一笔的“横、竖、撇、点、折”(中国大陆和香港澳门等) 或“点、横、竖、撇、折”(台湾和香港澳门等)笔形顺序排列。如果第一笔属同一类笔形,则按第二笔排列,以此类推。[11]

在上一节的例子中,繁体字“筆” 和 “畫” 都是 12 笔划。“筆”的第一划是 “㇓”属于撇类, “畫”的 第一划是 “㇕”,属于折类, 根据排列顺序,“撇”在“折”之前,所以汉字“筆”排在“畫”之前。于是, "汉字笔画, 漢字筆劃" 中不同汉字的最终排序是 "汉(5)字(6)画(8)笔(10)筆(12)畫(12)漢(14)"。

GB13000.1字符集汉字字序(笔画序)规范 是中国内地的国家标准,由国家语言文字工作委员会于1999年发布,是传统笔画数-笔顺排检法的增强版本。[12]

根据这个标准,两个汉字首先按笔画数排序。 若笔画数相同,则依笔顺(横、竖、撇、点、折 五类)排序。 如果汉字笔顺也相同,则依照笔画主次排序。 例如,“子”和“孑”的笔画数和笔顺都相同(“㇐”和“㇀”都属于横类),但根据主次笔画规则,主笔画“㇐”在次笔画“㇀”之前。 所以“子”在“孑”之前。 若两汉字笔画数、笔顺、主次笔画相同,则依笔画组合方式排序。 笔划相离先于笔划相接,笔画相接先于笔划相交。 例如:“八”在“人”之前,“人”在“乂”之前。 标准中还有其他排序规则,可以实现更准确的排序。[12]

一二三汉字笔顺排检法[13]根据笔顺和一个有序的笔画表

"㇐ ㇕ ㇅ ㇎ ㇡ ㇋ ㇊ ㇍ ㇈ ㇆ ㇇ ㇌ 飞(首筆) ㇀ ㇑ ㇗ ㇞ ㇉ ㄣ ㇙ ㇄ ㇟ ㇚ ㇓ ㇜ ㇛ ㇢ ㇔ ㇏ ㇂"

来给汉字排序,原理与拉丁文字的字母顺序排检法(alphabetical order)完全一致。例如, "汉字笔画, 漢字筆劃" 中不同汉字的一二三排序是 "画畫筆笔字漢汉"。

与传统笔画排检法相比,该排检法免除了数算笔画和归并笔画(为五类)的负担,但保持了排检的精确度。[14]

号码法

号码法实质上是形序法的代码化,一般是把笔形转化为数字代码,根据代码来排检。 影响最大的号码法是王云五1925年提出来的四角号码查字法。 现在还有一些工具书提供这种查字法,例如《新华字典》大字本(2011年版) 。[15]

四角号码查字法把汉字四个角的笔形分为十种,用0到9表示:取角的顺序是左上、右上、左下、右下。例如:端0212、香2060、港3411。为了减少重码字,可取右下角上方贴近而露锋芒的笔形为第五角,称为“附角号码”。例如:香20609、港34117。[16]

1964年中国政府组织的汉字查字法工作小组公布的《四角号码查字法(草案)》对原有的方法作了几处改动,习惯上称之为“新四角号码查字法”。 [17]

四角号码的优点是:不用部首、不用计算笔划数、不用笔顺、不用知道字的读音、号码字序固定等。 缺点是:笔形和号码之间的对应没有理据,需要死记。另一个缺点是重码字较多。例如在《新华字典》(2012年大字本)中,代码为44227的字有57个。需要借助其他排序法来处理。[18]

音序法排检法

音序法根据读音来排列字词。最早采用音序排字法的工具书是韵书。韵书的产生是为了满足写作诗赋的需要。 韵书一般用反切标音。 根据记载,最早的韵书产生于三国,但较有代表性的是《广韵》。 《广韵》,全名《大宋重修广韵》,是中国第一部官修韵书。 《广韵》按四声分出206韵:上平声28韵,下平声29韵,上声55韵,去声60韵,入声34韵。 同一个韵里的字按照声母或介音的异同分出完全同音的字组,叫做小韵。 现代人使用《广韵》这类韵书查字幷不容易。 [19]

现代比较通用的音序法有汉语拼音音序法和注音字母音序法

注音字母音序法

注音字母是1913年召开的读音统一会制定的,1918年由民国政府教育部公布实施。 1919年,教育部公布《注音字母音类次序》。 1928年政府大学院公布国语罗马字注音法式,作为国音字母第二式。注音字母也就成为国音字母第一式,1930年更名为注音符号[20]

使用注音字母音序的辞书包括 《国语常用字汇》。教育部国语统一筹备委员会编,1932年公布,用注音字母和国语罗马字注音。字条按注音符号的顺序排列。同音字中常用的排前面。 《国语辞典》,1937~1945年出完全部四册。1980年台湾出版《重编国语辞典》,现今是《教育部国语辞典》。书中各词按照注音符号排序,同音之字按声调为序。调也相同则按笔划数由少到多排列。 [21]

汉语拼音音序法

1958年2月,中国政府发布实施《汉语拼音方案》后,内地的音序排字法大多采用汉语拼音,如《新华字典》、《现代汉语词典》、《中国大百科全书》等。[22]

单字条目的排列是,先按照声韵母的字母顺序排列。声韵母相同的,按照声调阴平、阳平、上声、去声、轻声排列。 声韵调相同的字现在一般是借助笔划法排列。

多字条目通常是逐字按拼音排列。 先按第一个字的拼音音节排列,第一个字相同的词聚在一起,按照第二个字的音节排列,以此类推。例如:[23]

底層 (dǐcéng), 地標 (dìbiāo), 地表 (dìbiǎo), 地租 (dìzū), 電燈 (diàndēng) 

《现代汉语词典》(2012,2016)等采用这种排法。

音序法的优点是简单易用,与国际通用的字母顺序原理一致。音序法的局限包括,要了解所查字的正确读音。还要掌握所用的拼音系统,例如:注音符号、汉语拼音、粤语拼音。此外,同音字(包括繁简异体字)的排列需要借助其他排检法来解决。[24]

义序排检法

义序法是一种基于字词意义的排序方法。古代的义序法以《尔雅》为代表。《尔雅》成书于战国末年,是最先采用义序法编著的字书。《尔雅》是一部故训汇编,把前人传下来的有关经义的解释汇集在一起,供人使用。 现存的《尔雅》共三卷,把要解释的语词根据意义分为十九类, 每类一篇,每一篇有许多条,每条是一组同义词,先列出需要解释的词语,然后用一个常用词来解释。例如:“ 林、烝、天、地、皇、王、后、辟、公、侯,君也”。 [25]

在《尔雅》之后产生的和《尔雅》性质相同的著作有《小尔雅》、《释名》和《广雅》等。 汉代扬雄著的《方言》是古代方言词汇汇编,也采用同《尔雅》类似的义序法。不同的是,对于同属一个条目的一组同义词,还要说明它们各属什么方言。例如: 党、晓、哲、知也。楚谓之党,或曰晓。齐宋之间谓之哲。 [26]

在义序法的具体设计中,应该把词语分为多少类、类间如何排列次序、类内词语如何排列,都有很大的任意性。使得使用者对词语的分类和排列的了解,难以做到和编书人的想法完全一致,因此在检索时常常遇到困难。

现代也有用义序编排的辞书,例如《同义词词林》[27],《实用广州话分类词典》[28],分类比古代精密得多,但仍需要附上汉语拼音、部首或笔划索引。这说明义序法在很讲究工作效率的今天已经很难作为一种独立的排检法来使用了。

参见

参考资料

引用

  1. ^ 1.0 1.1 苏 2014,第183页.
  2. ^ 王 2003,第20页.
  3. ^ 苏 2014,第186页.
  4. ^ 王 2003,第22-23页.
  5. ^ 苏 2014,第187-188页.
  6. ^ 国家语委 2009a.
  7. ^ 詹 2008,第20页.
  8. ^ Unicode Consortium 2013.
  9. ^ 王 2003,第23-25页.
  10. ^ 王 2003,第23-24页.
  11. ^ 李 2013,第326页.
  12. ^ 12.0 12.1 国家语委 1999.
  13. ^ 存档副本. [2023-12-05]. (原始内容存档于2023-12-13). 
  14. ^ 张 2013.
  15. ^ 苏 2014,第203页.
  16. ^ 王 2003,第25-26页.
  17. ^ 王 2003,第26页.
  18. ^ 苏 2014,第205页.
  19. ^ 苏 2014,第188-189页.
  20. ^ 苏 2014,第197-198页.
  21. ^ 苏 2014,第198-199页.
  22. ^ 苏 2014,第200页.
  23. ^ 王 2003,第27页.
  24. ^ 苏 2014,第202页.
  25. ^ 苏 2014,第184页.
  26. ^ 苏 2014,第185页.
  27. ^ 梅 1996.
  28. ^ 麦 1997.

引用文献

  • 国家语委, 国家语言文字工作委员会. GB13000.1字符集汉字字序(笔画序)规范 (PDF). 上海: 上海教育出版社. 1999 [2023-12-05]. (原始内容存档 (PDF)于2023-05-23) (中文). 
  • 国家语委, 国家语言文字工作委员会. 漢字部首表 (The Table of Indexing Chinese Character Component). 北京: 语文出版社. 2009a. 
  • 李, 大遂. 简明实用汉字学 3rd. 北京: 北京大学出版社. 2013. ISBN 978-7-301-21958-4 (中文). 
  • 麦, 耘 (麦耘,谭步云). 实用广州话分类词典. 广州: 广东人民出版社. 1997. ISBN 978-9-620-70305-8 (中文). 
  • 梅, 家驹 (梅家驹等). 同义词词林. 上海: 上海辞书出版社. 1996. ISBN 978-7-532-60396-1 (中文). 
  • 苏, 培成. 现代汉字学纲要 3rd. 北京: 商务印书馆. 2014. ISBN 978-7-100-10440-1 (中文). 
  • 王, 宁 (王宁 和 邹晓丽). 工具書. 香港: 和平图书有限公司. 2003. ISBN 962-238-363-7 (中文). 
  • 杨, 润陆. 现代汉字学. 北京: 北京师范大学出版社. 2008. ISBN 978-7-303-09437-0 (中文). 
  • 詹, 德优 (詹德优等). 中文工具書使用法. 北京: 商务印书馆. 2008. ISBN 978-7-100-01510-3 (中文). 
  • 张, 小衡 (张小衡,李笑通); et al. 一二三笔顺检字手册. 北京: 语文出版社. 2013. ISBN 978-7-80241-670-3 (中文). 
  • Unicode Consortium. Unicode Standard, Version 15.1.0.. Mountain View, CA: Unicode Consortium. 2023 [2023-12-07]. (原始内容存档于2024-02-13) (英语).