中日韩越统一表意文字的介绍
1978 年,日本基于ISO 2022,制订了全世界最早的汉字编码 JIS C6226。1980年代,中国大陆、台湾、韩国则各自制订了自己的规范。这些规范彼此之关并无关联。若要在一份文件中同时使用,则要以脱序字符的方式来交换。
1980 年,日本的国立国会图书馆的高桥德太郎以图书学的观点指出,一个统一的东亚汉字编码系统是有必要的。同年,台湾制定了三字节的中文信息交换码。偶然的是,这是第一个期望可以一致处理中国大陆、日本、台湾汉字的编码。之后,美国的国会图书馆采用了此规格,并另外命名为东亚编码字符(EastAsia Coded Character,EACC,ANSI/NISOZ39.64)。
1984年,ISO 的文字编码委员会(ISO/TC97/SC2)决议制订出一套编码规格(ISO10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC97/SC 2/ WG 2)。这个编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对。并于1989年,提出了各国的汉字统合集合(HanCharacter Collection,HCC)的构想。
1990年完成了 ISO10646 的初版草案(DIS10646)。汉字使用32 位来表示。并将各国的汉字编码原封不动地加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后关于汉字编码的讨论及方针能顺利进行,并呼吁WG 2 特别设置了中日韩联合研究小组(CJK-JRG,JointResearch Group,为表意文字小组的前身),以持续讨论。
另一方面,1987年,全录的 JoeBecker 和Lee Collins 开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为 16 位。于是,中、日、韩文字统合了。基本方针为以16 位处理所有文字。 1990年,完成了基于此方针的最终草案。来年1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩中类似的汉字使用约二万多个字。为了未来扩充,保留了三万个汉字以供其它用途。
1991年,各国希望能以一致的方式处理文字,如统一码这般,因而否决了ISO/IEC 10646 的初版草案。基于中国与统一码联盟的提议,ISO10646 和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自订定规范、制作ISO 10646 和统一码的统一汉字编码。年尾,完成了UnifiedRepertoire and Ordering (URO) 。
1992年,URO 加入 ISO10646 的第二版。但是,发现了一些缺失,之后进行了修正。
1993年5月,正式制订了最初的中日韩统一表意文字,位于U+4E00–U+9FFF 这个区域,共20,902 个字。一个月后,制订了统一码1.1 。
1999年,依据 ISO/IEC10646 的第17 个修正案(Amendment17)订定了扩充区 A ,于U+3400–U+4DFF 加入了6,582 个字。
2001年,依据 ISO/IEC10646-2,新增了扩充区B ,有 42,711 字。位于U+20000–U+2A6FF。但因在短时间内增加了大量的汉字,导致产生了许多重复的字形。
2005年,依据 ISO/IEC10646:2003 的第1 个修正案(Amendment1),基本多文种平面增加了 U+9FA6 到 U+9FBB 等 22 个汉字。
2009年,统一码 5.2 扩充区 C 增加了U+2A700-U+2B734 和U+9FC4~U+9FCB。
2010年,统一码 6.0 扩充区 D 增加了U+2B740-U+2B81F 。
2012年,1字增加 U+9FCC 。
多重随机标签