統一碼二進制有序壓縮

統一碼二進制有序壓縮^[1]（英語：Binary Ordered Compression for Unicode，縮寫：BOCU）是統一碼技術注解文件所定義的規範^[2]，可以兼容MIME的統一碼压缩方案。

雖然UTF-8適合廣泛使用，但對於非拉丁文和中日韓統一表意文字的文字，相較於代码页技術，它佔用了更多的空間（較高的 "字節 / 碼位" 之比）。另一方面，SCSU 佔用的空間與代碼頁差不多，但卻不相容於MIME。二進制有序壓縮則结合了UTF-8的廣泛適用性和統一碼標準壓縮方案（SCSU）的紧凑性。^[2]

这种编码旨在用于压缩短字符串，并保持码点顺序。

BOCU-1是IANA注册的字符集^[3]。

细节

本章節中使用的數字都是十六進制，且使用的範圍都是包含在内。

統一碼二進位有序壓縮的核心概念在於：同一種語言的字符，通常被放在鄰近位置（同一區段內），所以文件中的一個字符與前一個字符碼值的差值是小的，可以用較少的字節來編碼。

而實際作法上，不是直接使用前一個字符的碼值，而是前一固字符歸一化的碼值，即所在區段的中間值。其對應如下：

編碼范围	歸一化碼值	笔记
`U+3040`至`U+309F`	`U+3070`	平假名
`U+4E00`至`U+9FA5`	`U+7711`	中日韓統一表意文字
`U+AC00`至`U+D7A3`	`U+C1D1`	韩文
`U+0020`	编码器状态保持原样	空格
`U+ hhhh00` `U+hhhh7F` （不包括上述范围）	`U+hhhh40`	中间共128个
`U+hhhh80` `U+hhhhFF` （不包括上述范围）	`U+hhhhC0`	中间共128个

此壓縮法的規則為，码位U+0020使用其原本的值。其他码位（即U+0021到U+D7FF和U+E000到U+10FFFF ），則計算其與前一個字符的歸一化版本的碼值差值，並對此差值編碼。

差值的編碼規則如下：

差值範圍	字节序列范围（见下文）
`-10FF9F`到`-2DD0D`	`21` `F0` `58` `D9`到`21` `FF` `FF` `FF`
`-2DD0C`到`-2912`	`22` `01` `01`到`24` `FF` `FF`
`-2911`至`-41`	`25` `01`至`4F` `FF`
`-40`至`3F`	`50`到`CF`
`40`至`2910`	`D0` `01`到`FA` `FF`
`2911`至`2DD0B`	`FB` `01` `01`到`FD` `FF` `FF`
`2DD0C`至`10FFBF`	`FE` `01` `01` `01`至`FE` `19` `B4` `54`

每个位元范围按字典顺序排序，但不包括以下十三个字节值00 07 08 09 0A 0B 0C 0D 0E 0F 1A 1B 20。例如，差值1156B 的編碼，其字節序FC 06 FF。紧接着差值1156C 的編碼，是字节序列FC 10 01 （第三個字節，FF 跳過00 01，而第二個字節，06 跳過07 08 09 0A 0B 0C 0D 0E 0F 10）。

除了空格U+0020為例外，對所有ASCII字符U+0000到U+007F，编码器會重置为U+0040。由於上述的按原样包含了行尾码位U+000D和U+000A (0D 0A )，因此编码器在每行的开头处于已知状态。因此，单个字节的损坏最多影响一行。相比之下，UTF-8单个字节的损坏最多影响一个字符，对于SCSU来说，則可能會影响整个文档。

對於没有上述值的文本，BOCU-1亦提供了类似的穩健性，带有特殊的重置代码0xFF。当解码器找到这个八位字节时，它会将其状态重置为U+0040就像行尾一样。BOCU-1规范中不推荐使用0xFF复位字节，因为它与其他BOCU-1设计目标相冲突，尤其是二进制顺序。

在BOCU-1编码文本的开始处，可選擇地使用签名U+FEFF，其字節串列FB EE 28，會将初始状态由U+0040改为U+FEC0。换句话说，無法像其他大多數的統一碼编码方案一样简单地剥离簽名。若額外添加一個復位字節，使之成為字節順序FB EE 28 FF，則可以避免这种影响，但BOCU-1规范不推荐这种做法。

理论上，UTF-1和UTF-8可以為原始UCS-4集（使用 31 位元、上到7FFFFFFF）編碼。BOCU-1和UTF-16可以為現代統一碼集（U+0000到U+10FFFF）。排除 13 個受保護碼位外，BOCU-1单个位元組可以 $256-13=243$ 多字节编码。BOCU-1最多需要四个位元組，包括一个前导字元和一到三个尾端位元組。尾字节编码剩余的“模243”（基数 243）差，前导字节确定尾字节数和初始差。请注意，复位字节0xFF不受保护，可以作为尾字节出现。

专利

在美国专利#6,737,994中，涵盖了通用BOCU算法，同時还提到了特定的BOCU-1实现^[4]IBM當時雇用了BOCU-1的两位发明者，在統一碼技术说明中指出「完全兼容的BOCU-1版本」的实现者必须联系 IBM 以申请免版税许可^[5]BOCU-1是統一碼网站上，目前唯一已知的受到知识产权限制的統一碼压缩方案。

相比之下，IBM也為UTF-EBCDIC申請专利，但它选择使文档和编码方案不要求對實施者申請許可證，而是「任何将轉換格式成为UCS标准的一部分，將對他們們免费提供」^[6]

参考

^ About Unicode Terminology. unicode.org. [2021-12-10]. （原始内容存档于2021-04-21）.
^ ^2.0 ^2.1 Markus Scherer, Mark Davis. UTN #6: BOCU-1: MIME-COMPATIBLE UNICODE COMPRESSION. 2006-02-04 [2008-05-18]. （原始内容存档于2021-12-08）.
^ IANA 中BOCU-1的註冊記錄. [2021-11-16]. （原始内容存档于2020-08-11）.
^ Davis; et al. United States Patent #6,737,994, "Binary-ordered compression for unicode". 2004-05-18 [2022-12-28]. （原始内容存档于2022-12-28）.
^ Markus Scherer, Mark Davis. UTN #6: BOCU-1. 2006-02-04 [2014-02-05]. （原始内容存档于2021-12-08）.
^ V.S. Umamaheswaran. UTR #16: UTF-EBCDIC. 2002-04-16 [2008-11-16]. （原始内容存档于2022-01-30）.

另見

UTF-1：包含 UTF-1、UTF-8和BOCU-1设计的比较
International Components for Unicode：一个可以在BOCU-1和其他Unicode编码之间转换的库

[1] About Unicode Terminology. unicode.org. [2021-12-10]. （原始内容存档于2021-04-21）.

[:0-2] 2.0 ^2.1 Markus Scherer, Mark Davis. UTN #6: BOCU-1: MIME-COMPATIBLE UNICODE COMPRESSION. 2006-02-04 [2008-05-18]. （原始内容存档于2021-12-08）.

[3] IANA 中BOCU-1的註冊記錄. [2021-11-16]. （原始内容存档于2020-08-11）.

[4] Davis; et al. United States Patent #6,737,994, "Binary-ordered compression for unicode". 2004-05-18 [2022-12-28]. （原始内容存档于2022-12-28）.

[5] Markus Scherer, Mark Davis. UTN #6: BOCU-1. 2006-02-04 [2014-02-05]. （原始内容存档于2021-12-08）.

[6] V.S. Umamaheswaran. UTR #16: UTF-EBCDIC. 2002-04-16 [2008-11-16]. （原始内容存档于2022-01-30）.

[1]

[2]

[3]

[4]

[5]

[6]

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集