用户:Arnie97/Unicode字符属性
此条目可参照英语维基百科相应条目来扩充。 |
Unicode 字符属性(Character Properties)是Unicode标准中与码位实体相对应的一组字段,每个属性都有独一无二的名称,同时标准预先定义了每个属性的有效取值范围[1]。
Properties have levels of forcefulness: normative, informative, contributory, or provisional.
这些属性有助于正确的处理Unicode文本,例如确定合适的换行位置、文字书写方向等。 属性和属性的值有预先定义好的名称和缩写[2]。Unicode标准#44号附录中详细描述了这些属性[3]。
名称
Unicode字符拥有一个独一无二的名称(Name),用英文描述了对应字符的性质。名称只由大写拉丁字母(A
至Z
),阿拉伯数字(0
至9
),连字符(-
) 和空格这些ASCII字符组成;其中连字符和空格不会连续出现,且不会位于名称的开头和结尾。例如,中文句号 U+3002 。 的名称是IDEOGRAPHIC FULL STOP
;中日韩统一表意文字 U+6F22 漢 的名称是CJK UNIFIED IDEOGRAPH-6F22
。
用于排版的空格等字符同样有自己的名称,如 U+00A0 的名称是NO-BREAK SPACE
。但并非所有码位都有相应的名称;控制字符、私人使用区(PUA)码位、代理对(Surrogates)、非字符码位(Non-characters)、保留码位和未分配码位等并没有对应的名称。为了便于辨识这些码位,Unicode为这些码位分配了标签(Code Point Labels)[4];标签的形式通常是包含在尖括号中的小写英文描述,以避免与名称相混淆,例如换行符的码位和标签分别是 U+000A <control-000A> 。
自Unicode 2.0版本起,已发布的码位名称将永远保持不变。若名称当中出现了拼写错误等情形,更正后的新名称被作为字符别名(Name Alias)分配给这个码位。别名同样是独一无二的,不允许与其他字符的名称或别名相同。
除了上面这些标准化的名称以外,字符还可以有多条非正式名称。这些非正式名称往往取自字符的常用称呼,起到补充说明的作用,不保证唯一性。
区块
区块(Block)指的是码位所属的范围,通常用于组织码位的分配方式。区块会被给予唯一的名称,且区块与区块间不会重叠。通常一个最小的区块至少包含16个码位。
通用类别
每个Unicode码位都属于某个通用类别(General Category),即便是未分配的码位也不例外[5]。
参考文献
- ^ The Unicode Consortium. 3.5. The Unicode Standard (pdf) 11.0. Mountain View, CA. 2018-06: 95 [2018-07-04]. ISBN 978-1-936213-19-1 (英语).
D19 Property: A named attribute of an entity in the Unicode Standard, associated with a defined set of values.
- ^ The Unicode Standard, Version 11.0, Chapter 3: Conformance
- ^ UAX #44: Properties
- ^ UAX #44: Code Point Labels
- ^ UAX #44: General Category Values