Ⅰ 漢字國際碼(GB2312-80)規定的漢字編碼,每個漢字用多少個位元組表示 為什麼
四個
在使用GB2312的程序中,通常採用EUC儲存方法,以便兼容於ASCII。瀏覽器編碼表上的「GB2312」,通常都是指「EUC-CN」表示法。 每個漢字及符號以兩個位元組來表示。第一個位元組稱為「高位位元組」(也稱「區位元組)」,第二個位元組稱為「低位位元組」(也稱「位位元組」)。 「高位位元組」使用了0xA1-0xF7(把01-87區的區號加上0xA0),「低位位元組」使用了0xA1-0xFE(把01-94加上 0xA0)。 由於一級漢字從16區起始,漢字區的「高位位元組」的范圍是0xB0-0xF7,「低位位元組」的范圍是0xA1-0xFE,佔用的碼位是 72*94=6768。其中有5個空位是D7FA-D7FE。 例如「啊」字在大多數程序中,會以兩個位元組,0xB0(第一個位元組) 0xA1(第二個位元組)儲存。區位碼=區位元組+位位元組(與區位碼對比:0xB0=0xA0+16,0xA1=0xA0+1)。
Ⅱ 漢字國標碼規定每個漢字用幾個位元組表示
漢字國標碼規定每個漢字用兩個位元組表示,第一個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。漢字國標碼,創建於1980年,目的為了使每個漢字有一個全國統一的代碼而頒布了漢字編碼的國家標准。
每個漢字有個二進制編碼,叫漢字國標碼。在我國漢字代碼標准GB2312-80中有6763個常用漢字規定了二進制編碼。將代碼表分為94個區,對應第一位元組;每個區94個位,對應第二位元組,兩個位元組的值分別為區號值和位號值加32(20H)。01-09區為符號、數字區,16-87區為漢字區,10-15區、88-94區是有待進一步標准化的空白區。GB2312將收錄的漢字分成兩級:第一級是常用漢字計3755個,置於16-55區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字計3008個,置於56-87區,按部首/筆畫順序排列。故而GB2312最多能表示6763個漢字。