Loadding
網站首頁 | 英語 | 簡體中文 | 繁體中文 | 移動設備
Beta

WebMaster Online Tools

簡繁轉換

簡體語言與繁體之間並非簡單的壹對壹的關系。根據轉換的精確性等級,簡繁轉換大概可以分成4個等級:
     1.字符碼表壹對壹映射。
     2.對於壹對多單字,根據詞語識別進行轉換。
     3.對詞語表達方式差異的轉換。
     4.根據上下文的詞匯翻譯。

轉換層次壹--------  內碼映射
其轉換機制是按照內碼字符映射表,在簡繁轉換時,用big5的內碼把GB的內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 簡繁轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。實踐證明,如果按照字符的轉錯幾率來統計,對壹般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於簡繁字體並非壹對壹的關系,因此忽略掉壹些其他較不常用的字。
以下是壹個壹對壹字符內碼映射表的例子:
簡體    內碼GB  繁體   BIG5  其他可能性
出           B3F6    出    A558  齣
發           B7A2    發    B56F  髮
幹           B8C9    幹    A47A  乾 幹 榦
暗           B0B5    暗    B774  闇
裏           C0EF    裡    B8CC  裏 裏
征           D5F7    徵    BC78  征
門           C3C5    門    AAF9
湯           CCC0    湯    B4F6       

轉換層次二------- 壹對多關系的字根據詞語識別轉換
      對於壹個單字應該翻譯成在當前有可能的異種內碼中的哪壹個,我們可以根據該字所在的詞匯來決定。比如,下表:
簡體詞語         繁體詞語
頭發                頭髮
特征               特徵
出發               出發
幹燥               乾燥
暗裏               暗裡
千裏               千裏
秋千               鞦韆
在上表中,頭發與出發的“發”字在簡體中是同壹字型的,但繁體中卻不壹樣。這樣就可以根據“發”字所在的詞匯來對該字進行準確的轉換。如果是頭發就翻譯成“頭髮”,如果是出發就翻譯成“出發”。

轉換層次三----- 繁簡詞匯表達方式不同之轉換
    有壹些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了壹些詞匯表達方式差異的例子:
英文         簡體表達方式         繁體表達方式
bit             位                       位元
byte         字節                    位元組
CD-ROM          光盤                        光碟
computer  計算機                     電腦
database 數據庫                     資料庫
file                 文件                      檔案
information 信息                        資訊
Internet      因特網               網際網路
software     軟件                 軟體
week                星期                   禮拜
能夠實現以上表達方式轉換,就是在本文中所提到的第三級轉換功能。
轉換等級四 根據上下文對詞匯翻譯
有壹些詞,是需要根據上下文才能夠準確地決定如何翻譯的。比如在中國大陸的語言習慣中,“文件”可以是通常意義上的“文件”,也可以表達計算機磁盤中存取的“文件”(document)。但是,在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的“文件”和在電腦磁盤中保存的“檔案”。
    該層次的翻譯需要根據上下文的意思對文章進行斷句,分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。