中级职称论文范文T形汉字码输入法
所属栏目:计算机应用论文
发布时间:2014-09-24 11:54:19 更新时间:2014-09-24 11:41:18
计算机专业中级职称论文发表期刊推荐《电子技术应用》杂志以应用为主,坚持技术与应用,产品与研发,产业与市场相结合的办刊宗旨。刊载与计算机技术、自动控制技术、通讯技术及集成电路应用技 术相关的创新、实用文章。以专业的视角,严谨的态度,科学的数据向读者提供第一手的应用方案,技术趋势及产品信息。每年刊出各类技术文章三千余篇,得到电 子行业广大工程技术人员销售人员及厂商的关注。
摘 要: T形汉字码输入法的提出,目的是提供一种易学易用、汉字部件规范直观、取码规则合理、重码率低、能够高速盲打或听打的计算机汉字编码输入法。它由拼音码和形部编码两部分组成,形部编码优选28个左右的多笔画部件和5种基本笔画,形部编码的取码规则规定为:左右结构的汉字,分别按书写顺序取该汉字的左部和右部的第一个基本部件的代码进行编码;非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的代码编码。
关键词: 拼音,取码,简单,快速,输入法
Input method of T-shape Chinese characters
Wang Zhiyang
(Zhejiang province Xinchang county administrative service center, Shaoxing, Zhejiang 312500, China)
Abstract: The purpose of T-shape Chinese characters code input method is to provide a chinese character input method which is easy to learn and use, with intuitive and normal Chinese characters component, and a reasonably low duplication code rate, and which can realize high speed input. It consists of two parts: phonetic code and shape code. The shape code choose preferably multiple strokes of around 28 and 5 basic strokes. The coding rules of shape code are stated as follows. For Chinese characters with left and right structure, the first and last basic components are taken to be coded separately according to the writing order of the Chinese characters, and for Chinese characters not left and right structure, the first and last components are taken to be coded according to the order of writing.
Key words: pinyin; code fetch; simple; fast; the input method
1 背景技术
键盘输入法是目前汉字输入法中技术最成熟,使用最广泛的输入法。按编码划分,可分为音码、形码、音形码三类[1-3]。
音码以汉语拼音为基础,利用汉字的读音进行编码。音码的优点是使用方便,只要会汉字拼音,就可以进行输入,简单易学,所以使用最为广泛;缺点是同音字多,单字重码率高,汉字输入速度会慢。搜狗输入法等采用了智能和云输入技术提高了拼音输入速度,但重码选择仍是个难题[4-5]。
形码利用汉字的字形特征进行编码,往往汉字部件太多,记忆麻烦,有时拆分也麻烦。五笔字型是其典型,有的形码采用将汉字五种基本笔画二二组合的方法,虽然汉字部件少,记忆方便,但却付出了不够直观,将汉字部件拆散了的代价,易学的同时却不易用。
音形码利用汉字的语音特征和汉字的字形特征编码。它利用了汉字的音码和形码各自的优点,兼顾汉字的音和形,往往较为简单,缺点是打字时在音和形之间思维不断转换,容易疲劳。只用汉字声母参与编码的音形码,如二笔输入法等,由于必须舍弃韵母,与人们的习惯思维不符,才特别存在音形思维转换问题。完整地利用了汉字的声母和韵母,并且规定音码部分在先,形部编码部分在后的话,则思维不需要在音和形之间转换,基本上不会影响思维。
这样我国三十多年所发明的二、三千种输入法都未能克服“简单的不快速,快速的不简单”这一汉字输入法技术难题。
2 发明方案
本方案属于计算机汉字编码输入法。目的是提供一种汉字部件规范直观、简单易学、取码规则合理、部件分类合理、输入汉字简便快捷的计算机汉字编码输入方法,这就是T形汉字码输入法。
本T形汉字码输入法的编码由音码和形部编码两个部分组成。音码在先,形部编码在后。音码部分可用全拼或其他双拼或注音字母拼音或不完整拼音,一般采用拼音,为提高速度,音码还可采用双拼,占二码。形部编码部分也最多占二码。形部编码也可作为一种输入法单独使用。
本编码方案采用双拼对那些按汉语声韵互补规律中没被合并的多个字母组成的韵母按第一个字母分为a、o、e、i、u区,每区又按a、o、e、i、u、n、 g的顺序排列,极具规律性。惟一需要记忆的是双拼韵母的合并规律。在记忆双拼韵母合并规律时,只要记住以a、ong结尾的多个字母的韵母合并,以ang结尾的4个字母的韵母合并排列就是,ia被ua合并,iang被uang合并,iong被ong合并,以ü开头的多个字母的韵母均被以u开头的多个字母的韵母合并,另外ui被v合并,uo被o合并,读音简记为“为余”,“我窝”。另外er有多个键可排,优选排在r键上。见附图1所示。 这时各韵母与字母映射关系设定为:
a―a b―uang iang c―uan üan d―ai
e―e f―an g―ang h―ou
i―i j―ong iong k―ei l―en
m―un ün n―ue üe o―o uo p―ing
q―iao r―ie er s―ao t―iu
u―u v―ü ui w―ian x―uai
y―in z―ua ia ;―eng
在键盘上的排列如附图1所示,翘舌音ch、sh、zh仍按英文音序分别用i、u、v表示。
形部编码也一般由两个代码组成,有时可能只有一个代码。本方案优选了国家语委规定的横、竖、撇、点、折五种基本笔画和28个左右的多笔画部件参与编码,这五种基本笔画和28个左右的多笔画部件被统称为基本部件,全部选自汉字的偏旁部首,既简单常见又直观,并且数量少,容易记忆。由于国家语委将五种基本笔画也称为汉字部件,因此在本发明中称五种基本笔画称为单笔画部件,而其他28个左右的优选的汉字部件由多个笔画组成,称为多笔画部件。在形部编码时要优先按笔画多的基本部件编码,否则由于多笔画部件可拆分成单笔画部件,将多笔画部件拆成单笔画部件编码的话,选取多笔画部件就无意义。
本人在编码研究中早就认识到,一个汉字是否为左右结构是一目了然的,左右结构的汉字很容易在其产生空隙处将它一分为二,(空隙在左边部分和右边部分之间),而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。除了“川”、“顺”这两个字划分左右结构有点难度外,建议把“川”看一个整体,但也可不把“川”看成一个整体,本发明提供两种不同的分法,以兼容的方式处理,根据一个汉字是否为左右结构划分是最简单易学。因此可将汉字分为左右结构的汉字和非左右结构的汉字,左右结构的汉字按整体结构一分为二,先写部分为左部,或称为左边部分,后写部分为右部,或称为右边部分,左中右结构的汉字,中间部分可划到右边部分,也可划到左边部分,为降低重码,中间部分和右边部分一律划到右部。
形部编码的取码规则规定为:左右结构的汉字,按整体结构分为二部分,左半部分简称左部,右半部分简称右部,分别按书写顺序取该汉字的左部和右部的第一个基本部件的代码进行编码,即按该汉字的书写顺序分别取左部和右部的第一个基本部件的代码进行编码。非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的代码编码,只有一个基本部件的汉字,就只取这个基本部件的代码进行编码。只有一个基本部件的汉字或者规定接连两次取这个基本部件的代码进行编码,或者规定再取该基本部件的第一个笔画的代码进行编码,编码实例中不这么规定。编码时要优先按笔画多的基本部件编码。
还要特别指出的是,之所以不规定所有的汉字都按书写顺序取前二个基本部件的代码或都取首个、末个基本部件的代码编码,是因为这样规定的话表面上会使形部编码的取码规则显得更简单易记,实际上却会造成大量的重码,或付出增加大量多笔画部件的代价。
若在汉字输入中不停对汉字作是否为左右结构,这是比较麻烦的,会影响头脑反应,本人在经历长达二十年潜心研究后,并于深夜睡醒,突发灵感,终于设计出的其他任何输入法都没想到过的取码思路,那就是“一竖横向T形选取基本部件”的取码思路。用这个思路编码与将汉字分为左右和非左右结构编码是等效的。具体讲,就是按书写顺序取该汉字的第一个基本部件的代码作为形部编码的第一码后,从第一个基本部件的最右端起,用一根与该汉字齐长的大致竖线从左到右横向推移,去分隔该汉字,若能将整个汉字一分为二,则该竖线就为分隔线,将该汉字分为左边和右边两个部分,简称左部、右部,再按书写顺序分别取右部的第一个基本部件的代码作为形部编码的第二码进行编码,若该竖线从左到右地横向推移到整个汉字的最右边,意味着不能用竖线将汉字一分为二,这时按书写顺序取该汉字的最末一个基本部件的代码作为形部编码的第二码编码。这个方法的核心是:碰到汉字要先按书写顺序取第一个部件的代码,然后用大致的竖线左右扫描,能分为左部和右部的话,再按书写顺序取右部的第一个部件的代码,不能将汉字分为左部和右部的话,就按书写顺序取该汉字的最末一个部件的代码。扫描的方向形似T形,对任何一个汉字都可用一根竖线沿着该汉字上方的一根虚拟的横线从左到右扫描,试着将该汉字分隔为左部、右部。
为降低重码,优选了氵、艹、口、木、扌、钅、亻、女、讠、忄、月、虫、土、纟、火、疒、、、山、石、日、王、阝、鱼、禾、辶、鸟、贝等偏旁部首,分别用一个字母或别的符号编码。
横、竖、撇、点等基本笔画的出现的频率较高,为降低重码,不宜与除个别如“鸟”以外的多笔画部件排在同一个键上,在编码实例中,将它们分别排到三个标点符号“,”、“.”、“/”、“;”键上,用三个标点符号“,”、“.”、“/”、“;”编码,还可将基本笔画折排到其他一个标点符号键上,用该标点符号编码,不与多笔画部件合并排列,考虑到减少键位和重码仍然比较低,在编码实例中基本笔画折按其拼音首字母z编码。折或者排在v上,用v编码,因为zh用v 表示,编码实例中不这么表示。
为便于记忆,排列多笔画部件时可按笔画数和横、竖、撇、点、折的次序排列,也按拼音或象形排列,还可按部件的义排列。为便于记忆,排列时主要以多笔画部件的读音的拼音首字母或声母为代码。为避免重码,还将若干声母相同的部件取了出来,改按象形或韵母的方式编码,如图2所示。
多笔画部件、单笔画部件与字母、标点符号的影射关系设定为:
a――钅 b――疒 辶 c――艹 d――氵
e――禾 f――扌 g――贝 鸟 h――火
i――虫 j――纟 k――口 l――鱼
m――木 n――女 o――月 p――阝 q――日 r――亻 s――石 t――土
u――山 v―― w――王 x――忄
y――讠 z――折 ;――点
, ――横 .――竖 /――撇
根据设定关系将部件分别用相应的字母和标点符号编码。
下面作具体解释:a的大写A与钅相似;b是疒的声母; c是艹的声母;d是氵的声母;e是禾的韵母;f似扌;g形似鸟、贝; h是火的声母;i因为ch排在其上,而ch是虫的声母;j是纟的声母; k是口的声母;L似鱼的左上角;m是木的声母;n是女的声母;o似月亮的外形;p似阝;Q似日,就作为日代码;r是亻的声母;s是石的拼音的首字母;t是土的声母;u因为sh排在u上,而sh是山的声母;v因为zh排在u上,而zh是的声母;w是王的声母;x是忄的声母;Y是讠的声母;z是和折的声母;这些字母就分别作为相应的基本部件的代码。“;”作为点的代码;“,”作为横的代码;“.”作为竖的代码;“/”作为撇的代码。这种排列方式基本上是按表音排列的,往往将基本部件按其拼音首字母或声母排列,对拼音首字母相同的少数多笔画部件,改按象形或韵母排列。
有的基本部件在作为偏旁部首后,字形会有所改变,但必须视为同类基本部件,用同一字母编码,这类基本部件如和竹,和足,亻和人,讠和言,钅和金,氵含水、