Loadding
Home | English | ‪简体中文‬ | 繁体中文
Beta

WebMaster Online Tools

简繁转换

简体语言与繁体之间并非简单的一对一的关系。根据转换的精确性等级,简繁转换大概可以分成4个等级:
     1.字符码表一对一映射。
     2.对于一对多单字,根据词语识别进行转换。
     3.对词语表达方式差异的转换。
     4.根据上下文的词汇翻译。

转换层次一--------  内码映射
其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。
以下是一个一对一字符内码映射表的例子:
简体    内码GB  繁体   BIG5  其他可能性
出           B3F6    出    A558  齣
发           B7A2    發    B56F  髮
干           B8C9    幹    A47A  乾 干 榦
暗           B0B5    暗    B774  闇
里           C0EF    裡    B8CC  里 裏
征           D5F7    徵    BC78  征
门           C3C5    門    AAF9
汤           CCC0    湯    B4F6       

转换层次二------- 一对多关系的字根据词语识别转换
      对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:
简体词语         繁体词语
头发                頭髮
特征               特徵
出发               出發
干燥               乾燥
暗里               暗裡
千里               千里
秋千               鞦韆
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。

转换层次三----- 繁简词汇表达方式不同之转换
    有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
英文         简体表达方式         繁体表达方式
bit             位                       位元
byte         字节                    位元組
CD-ROM          光盘                        光碟
computer  计算机                     電腦
database 数据库                     資料庫
file                 文件                      檔案
information 信息                        資訊
Internet      因特网               網際網路
software     软件                 軟體
week                星期                   禮拜
能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
转换等级四 根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。
    该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。 




意见建议
  • 昵 称     
  • 留言内容 *留言字数200字以内
  • 验 证 码    点击显示验证码