第三章汉字编码原理



《第三章汉字编码原理》由会员分享,可在线阅读,更多相关《第三章汉字编码原理(95页珍藏版)》请在文档大全上搜索。
1、第三章汉字编码原理第三节 汉字编码原理一、什么是汉字编码 汉字外码:汉字的字母数字代码 计算机人机界面:键盘 字母 数字 控制符号 功能键位二、汉字编码的历史发展 广义的汉字编码是从汉字字书的编撰算起的。因为字典的编撰,离不开字的排序和检索。 字典是供人来*查阅,编码输入法是让机器到字库中去查找。都是按照某种规则排列和检索汉字*的。 可以说,早期的汉字排字检字法就是汉字编码的早期形式。比如, 笔画部首法、四角号码法、拼音查字法、笔形查字法等。最早的汉字代码 年清政府创办电报局,由丹麦人设计的汉字电报码。它的方法是将电报用的汉字按照笔画顺序由少到多排列成一个字表。 使用的字数不到一万,就以字的顺
2、序号作该字的代码。第一个字的代码就是,第五个字的代码就是,第个字的代码就是。 电报码一直使用到今天,经过不断的修订完善成为标准电码本。 十个数字如果转换为二进制表示,则只需四位二进制单位。这样,用“嘀嗒”两种状态就可以传输汉字了。 电报码的特点是“字”“码”一一对应,没有重码。 缺点是难以记忆,非经过专门训练无法使用。三、编码原理 、确定编码对象 汉字的总字数有万多,现代汉语常用的也有万左右。信息交换用汉字编码字符集基本集根据各种统计数据确定收入汉字个。这些汉字就是一个编码对象的数量级。 “大字符集” 包括大陆、台湾、日本、韩国所使用的全部汉字的集合。有0902字。 数量不同,有关参数也不同。
3、、确定码元类型和数量 码元是用来作为汉字代码的元素。例如, 电报码的码元就是这十个阿拉伯数字。 码元的种类和数量与编码容量、以及码长、重码数等指标直接相关。 比如电报码,采用十个数目字作码元,四位码长的编码容量至多个汉字,从到。超过万字就是出现重码,否则就必须增加码长。 一般的编码方案多采用个英文字母作码元, 也有的在这个基础上再增加个数目字,使码元数增加到个的方案, 还有的把字母键盘区的其它功能键也利用上的。 这种需要增加码元数的方案多数是形码方案。、确定编码规则 理想的规则是“字码意义对应” 、规则简单,好学易记,没有复杂的条件限制或特例情况。 实际上最难做到。 比如按形排序,同笔画数的字
4、很多,同笔画的字当中,起笔相同的也不少,甚至笔顺相同的也有。究竟谁先谁后,难以给出一个标准。 按音排序也有个同音字的先后问题。同音、同调、同笔画数的汉字再按什么条件排先后,都是难题。 人为地增加许多规定,势必增加用户的学习量。、编制码表 所谓码表就是“字”“码”对照表。 按照确定的编码规则将基本集中的全部汉字逐个给出正确的代码,形成一个字码对照表。、编制软件、上机实现 这部分是软件人员的工作。软件人员根据编码规则和码表, 设计一个查字管理程序,经过调试,准确无误,就可以投入使用。 至此,一个汉字编码系统就完成了从设计到实现的整个过程。四、汉字编码的技术参数指标 汉字编码是一个理论与实践性都很强
5、的课题,而最重要的是它的实践性,也即在实际应用中的效果。 因为这是要解决汉字信息处理的第一个“人机界面”,所以,几乎全部技术指标都与“人”密切相关。 在“人服从机器”还是“机器服从人”这个问题上,曾经有过一个认识过程。 开始为了使机器能够处理汉字,主要是从机器出发的,重点考虑机器的特点和条件,较少考虑人的特点和需要。 后来才将立脚点转移到“人”这方面来,将许多困难都留给机器,使机器对人服务得友好、周到,人的操作变得轻松、愉快。什么是理想的编码 、规则简单。 一般具有中等文化水平的人不需要经过专门培训就可以通过“自学”完全掌握。 如果能够利用人的常识和知识,如果这种常识和知识中涉及或包括了关于汉
6、字的基本知识, 编码规则应当简化到不需要特殊的规则的地步。、码元数量少 一般不超过个,即个字母外加个数字键。最好只使用个字母键。 这样,对于人来说记忆量减少,对于机器来说,在键盘管理方面较好处理。、码长短 每个汉字的代码不超过四码。如果采用简码和不等长码处理的话, 平均码长应当在码以下。、编码容量具有可扩展性 汉字信息处理除了基本集的个汉字外,随着实际应用的发展,不可避免地出现繁体汉字的问题以及大字符集的问题。 理想的汉字编码应当在不增加或少增加规则的基础上,就能够使编码容量扩展到繁体汉字或更大的范围。、采用词语编码 应具有足够的词汇编码容量。词语码最长不超过码。 应该给用户提供足够的词库扩展
7、空间和扩展手段,使用户能够方便自如地根据自己的需要增加用户词汇。、重码率低 一般用户可以实现“盲打”,即不用看键盘(有一定的键盘基础的情况下)和提示行就能够输入汉字。 只有能实现盲打,才能提高输入速度。、服务功能 系统能提供方便周到的自学检索服务功能。例如, 对规则的训练指导、查询疑难字,容错处理、允许模糊输入等等。、具有广泛的适应性 适合不同年龄层次、不同地域、不同文化背景的人学习使用, 同时,又能适应各种类型的输入,比如 “照打”、“想打”、“听打”、“盲打”等。第四节汉字编码类型、流水码 流水码的特点是: 码元只有个阿拉伯数字; 一般多为等长四码,有效数字不足四位的在前面加零补足四位;
8、字、码一一对应,没有重码; 字、码之间没有理据性,就是没经过专门训练不能做到“见字识码”;、拼音码 是以汉字的读音属性为编码依据,采用键盘上的拉丁字母做为码元的编码方法。又分为 “全拼音码”、 “简化拼音码”、 “双拼音码”三种。 一般不加声调。全拼音码的特点 码元为个拉丁字母; 与教学、社会应用的拼音规则完全一致,只要会拼音的人就会编码,能够作到“见字识码”; 因为是“按音编码”,怎么读就怎么输入,便于思路的连续性,适于“想打”即写作者边想边打的方式; 为不等长码,最长的如“装”“创”“双”音节都是码; 重码较多,有的音节多达上百个重码,多次翻页,很不方便;简化拼音码 主要为了解决码长过长的
9、问题,减少击键次数,提高输入速度,在拼写规则上加以简化处理,将双字母声母“”“”“”以及许多两字母以上的复韵母都各用一个字母代替。比较常用的如前面介绍的所配置的拼音码。 简化拼音码的特点,除了比全拼音码减少码长外,其余与全拼音码都一样。但是,因为,增加了字母替换规则,所以,就比全拼音码增加了学习量。双拼音码 根据汉字传统的“反切”拼音的原理,采用一声一韵的字母拼写形式,进一步将每字的码长减少到两码。 双拼音码的特点是: 码元为个拉丁字母; 较复杂的声母、韵母替换规则,须经过一段时间的学习才能掌握; 重码仍然与普通音码一样多; 由于码长短可以提高输入速度;标调拼音码 汉语是有声调的语言,汉语的声
10、调是一个重要的“音位”,具有重要的辨义功能。有一种乐器叫做“雷琴”,可以只用“音高”就能模拟汉语的句子。这个例子足以说明汉语声调的重要性。 拼音码为了降低重码率,采用标调的办法,这样的拼音码,我们称之为“标调拼音码”。 汉语的音节是有数的:不加声调只有个,加声调则有个左右。 汉字共有万个。收在基本集中的有个。 不加声调平均每个音节约有个重码,加上重码分布的不平衡,个别的音节就有几十甚至上百个; 如果加上声调,平均每个音节只有不到个重码了。 在汉语拼音方案中规定了“阴平、阳平、上声、去声”四种声调的调号,调号的位置要标在一个 音 节 的 主 要 元 音 的 上 面 。 比 如 ,“”等。虽然字库
11、中做好了带调号的主要元音的字模点阵,但是键盘上却没有相应的键位,所以,采用通用键盘输入汉字就无法输入调号,所以只好采用变通的办法。 汉语拼音历史上标调的方法有三种:符号标调法、数字标调法和字母标调法。符号标调法 年注音字母公布时采用小圆圈标调,以一个拼音音节的四个角表示四个不同的声调,叫做“四声点法”或叫“点角法”。后来,改用现在的调号来表示。数字标调法 比如用、分别表示一声、二声、三声、四声,将表示调号的数字放在一个音节的末尾。 在实际使用当中,又有一些变通的处理办法。比如, 挑选出一个含字数最多的声调,作为“默认值”,用“零位”表示,即用不加调号来表示该调号。其余的分别加上数字调号,实际上