简体语言与繁体之间并非简单的一对一的关系。根据转换的精确性等级,简繁转换大概可以分成4个等级:
1.字符码表一对一映射。
2.对于一对多单字,根据词语识别进行转换。
3.对词语表达方式差异的转换。
4.根据上下文的词汇翻译。
转换层次一-------- 内码映射
其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。
以下是一个一对一字符内码映射表的例子:
简体 内码GB 繁体 BIG5 其他可能性
出 B3F6 出 A558 齣
发 B7A2 發 B56F 髮
干 B8C9 幹 A47A 乾 干 榦
暗 B0B5 暗 B774 闇
里 C0EF 裡 B8CC 里 裏
征 D5F7 徵 BC78 征
门 C3C5 門 AAF9
汤 CCC0 湯 B4F6
转换层次二------- 一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:
简体词语 繁体词语
头发 頭髮
特征 特徵
出发 出發
干燥 乾燥
暗里 暗裡
千里 千里
秋千 鞦韆
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。
转换层次三----- 繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
英文 简体表达方式 繁体表达方式
bit 位 位元
byte 字节 位元組
CD-ROM 光盘 光碟
computer 计算机 電腦
database 数据库 資料庫
file 文件 檔案
information 信息 資訊
Internet 因特网 網際網路
software 软件 軟體
week 星期 禮拜
能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
转换等级四 根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。
该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。