Loadding
網站首頁 | 英語 | 簡體中文 | 繁體中文 | 移動設備
Beta

WebMaster Online Tools

Base64

Base64是壹種使用64基的位置計數法。它使用2的最大次方來代表僅可打印的ASCII 字符。這使它可用來作為電子郵件的傳輸編碼。在Base64中的變量使用字符A-Z、a-z和0-9,這樣共有62個字符,用來作為開始的64個數字,最後兩個用來作為數字的符號在不同的系統中而不同。壹些如uuencode的其他編碼方法,和之後binhex的版本使用不同的64字符集來代表6個二進制數字,但是它們不叫Base64。

在MIME格式的電子郵件中,base64可以用來將binary的字節序列數據編碼成ASCII字符序列構成的文本。使用時,在傳輸編碼方式中指定base64。使用的字符包括大小寫字母各26個,加上10個數字,和加號「+」,斜杠「/」,壹共64個字符,等號「=」用來作為後綴用途。

完整的base64定義可見 RFC1421和 RFC2045。編碼後的數據比原始數據略長,為原來的4/3。在電子郵件中,根據RFC822規定,每76個字符,還需要加上壹個回車換行。可以估算編碼後數據長度大約為原長的135.1%。

轉換的時候,將三個byte的數據,先後放入壹個24bit的緩沖區中,先來的byte占高位。數據不足3byte的話,於緩沖區中剩下的Bit用0補足。然後,每次取出6個bit,按照其值選擇ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/中的字符作為編碼後的輸出。不斷進行,直到全部輸入數據轉換完成。

如果最後剩下兩個輸入數據,在編碼結果後加壹個「=」;如果最後剩下壹個輸入數據,編碼結果後加兩個「=」;如果沒有剩下任何數據,就什麽都不要加,這樣才可以保證資料還原的正確性。

舉例來說,壹段引用自Thomas Hobbes's Leviathan的文句:

Man is distinguished, not only by his reason, but by this singular passion from other animals, which is a lust of the mind, that by a perseverance of delight in the continued and indefatigable generation of knowledge, exceeds the short vehemence of any carnal pleasure.

經過base64編碼之後變成:

TWFuIGlzIGRpc3Rpbmd1aXNoZWQsIG5vdCBvbmx5IGJ5IGhpcyByZWFzb24sIGJ1dCBieSB0aGlz
IHNpbmd1bGFyIHBhc3Npb24gZnJvbSBvdGhlciBhbmltYWxzLCB3aGljaCBpcyBhIGx1c3Qgb2Yg
dGhlIG1pbmQsIHRoYXQgYnkgYSBwZXJzZXZlcmFuY2Ugb2YgZGVsaWdodCBpbiB0aGUgY29udGlu
dWVkIGFuZCBpbmRlZmF0aWdhYmxlIGdlbmVyYXRpb24gb2Yga25vd2xlZGdlLCBleGNlZWRzIHRo
ZSBzaG9ydCB2ZWhlbWVuY2Ugb2YgYW55IGNhcm5hbCBwbGVhc3VyZS4=

壹個例子

  • 編碼「Man」
「M」的ASCII碼 =  77 = 01001101
「a」的 =  97 = 01100001
「n」的 = 110 = 01101110 

將這三個字節合並,得出壹個24位的資料:

010011010110000101101110

現在六個壹組的分開,這樣便得到六個數。將這些數轉為:

010011 = 19 = T (T是第19個英文字母)
010110 = 22 = W (W是第22個英文字母)
000101 =  5 = F
101110 = 46 = u (U是第20個英文字母)

base64編碼是:
00010011 00010110 00000101 00101110

即是每3個未編碼字節,編碼後會得到4個字節。

  • 加密M:M=01001101,變成加密010011010000,六個壹組分開是010011 010000,結果是TQ,然後在後面加兩個「=」,結果就是「TQ==」。

UTF-7

UTF-7 是壹個修改的Base64(Modified Base64)。主要是將UTF-16的數據,用Base64的方法編碼為可打印的 ASCII 字符序列。目的是傳輸 Unicode 數據。主要的區別在於不用等號"="補余,因為該字符通常需要大量的轉譯。

標準可見RFC 2152, 《A Mail-Safe Transformation Format of Unicode》。


IRCu

在IRCu等軟件所使用的P10 IRC服務器間協議中,對客戶與服務器的消息類型號(client/server numerics)和二進制IP地址采用了base64編碼。消息類型號的長度固定為3字節,故可直接編碼為4個字節而不需要加填充。對IP地址進行編碼時,則需要在地址前添加壹些0比特,使之可以編碼為整數個字節。這裏所用的符號集與前述MIME的也有所不同,將+/改成了[]。

在URL中的應用

Base64編碼可用於在HTTP環境下傳遞較長的標識信息。例如,在Java Persistence系統Hibernate中,就采用了Base64來將壹個較長的唯壹標識符(壹般為128-bit的UUID)編碼為壹個字符串,用作HTTP表單和HTTP GET URL中的參數。在其他應用程序中,也常常需要把二進制數據編碼為適合放在URL(包括隱藏表單域)中的形式。此時,采用Base64編碼不僅比較簡短,同時也具有不可讀性,即所編碼的數據不會被人用肉眼所直接看到。

然而,標準的Base64並不適合直接放在URL裏傳輸,因為URL編碼器會把標準Base64中的「/」和「+」字符變為形如「%XX」的形式,而這些「%」號在存入數據庫時還需要再進行轉換,因為ANSI SQL中已將「%」號用作通配符。

為解決此問題,可采用壹種用於URL的改進Base64編碼,它不在末尾填充'='號,並將標準Base64中的「+」和「/」分別改成了「*」和「-」,這樣就免去了在URL編解碼和數據庫存儲時所要作的轉換,避免了編碼信息長度在此過程中的增加,並統壹了數據庫、表單等處對象標識符的格式。

另有壹種用於正則表達式的改進Base64變種,它將「+」和「/」改成了「!」和「-」,因為「+」,「*」以及前面在IRCu中用到的「[」和「]」在正則表達式中都可能具有特殊含義。

此外還有壹些變種,它們將「+/」改為「_-」或「._」(用作編程語言中的標識符名稱)或「.-」(用於XML中的Nmtoken)甚至「_:」(用於XML中的Name)。

其他應用

  • Mozilla Thunderbird和Evolution用Base64來保密電子郵件密碼
  • Base64 也會經常用作壹個簡單的“加密”來保護某些數據,而真正的加密通常都比較繁瑣。
  • 垃圾信息傳播者用Base64來避過反垃圾郵件工具,因為那些工具通常都不會翻譯Base64的信息。
  • 在LDIF檔案,Base64用作編碼字串。