簡體語言與繁體之間並非簡單的壹對壹的關系。根據轉換的精確性等級,簡繁轉換大概可以分成4個等級:
1.字符碼表壹對壹映射。
2.對於壹對多單字,根據詞語識別進行轉換。
3.對詞語表達方式差異的轉換。
4.根據上下文的詞匯翻譯。
轉換層次壹-------- 內碼映射
其轉換機制是按照內碼字符映射表,在簡繁轉換時,用big5的內碼把GB的內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 簡繁轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。實踐證明,如果按照字符的轉錯幾率來統計,對壹般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於簡繁字體並非壹對壹的關系,因此忽略掉壹些其他較不常用的字。
以下是壹個壹對壹字符內碼映射表的例子:
簡體 內碼GB 繁體 BIG5 其他可能性
出 B3F6 出 A558 齣
發 B7A2 發 B56F 髮
幹 B8C9 幹 A47A 乾 幹 榦
暗 B0B5 暗 B774 闇
裏 C0EF 裡 B8CC 裏 裏
征 D5F7 徵 BC78 征
門 C3C5 門 AAF9
湯 CCC0 湯 B4F6
轉換層次二------- 壹對多關系的字根據詞語識別轉換
對於壹個單字應該翻譯成在當前有可能的異種內碼中的哪壹個,我們可以根據該字所在的詞匯來決定。比如,下表:
簡體詞語 繁體詞語
頭發 頭髮
特征 特徵
出發 出發
幹燥 乾燥
暗裏 暗裡
千裏 千裏
秋千 鞦韆
在上表中,頭發與出發的“發”字在簡體中是同壹字型的,但繁體中卻不壹樣。這樣就可以根據“發”字所在的詞匯來對該字進行準確的轉換。如果是頭發就翻譯成“頭髮”,如果是出發就翻譯成“出發”。
轉換層次三----- 繁簡詞匯表達方式不同之轉換
有壹些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了壹些詞匯表達方式差異的例子:
英文 簡體表達方式 繁體表達方式
bit 位 位元
byte 字節 位元組
CD-ROM 光盤 光碟
computer 計算機 電腦
database 數據庫 資料庫
file 文件 檔案
information 信息 資訊
Internet 因特網 網際網路
software 軟件 軟體
week 星期 禮拜
能夠實現以上表達方式轉換,就是在本文中所提到的第三級轉換功能。
轉換等級四 根據上下文對詞匯翻譯
有壹些詞,是需要根據上下文才能夠準確地決定如何翻譯的。比如在中國大陸的語言習慣中,“文件”可以是通常意義上的“文件”,也可以表達計算機磁盤中存取的“文件”(document)。但是,在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的“文件”和在電腦磁盤中保存的“檔案”。
該層次的翻譯需要根據上下文的意思對文章進行斷句,分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。