查看單個文章
舊 2005-03-30, 09:18 AM   #3 (permalink)
psac
榮譽會員
 
psac 的頭像
榮譽勳章
UID - 3662
在線等級: 級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時
註冊日期: 2002-12-07
住址: 木柵市立動物園
文章: 17381
現金: 5253 金幣
資產: 33853 金幣
預設

開啟的文本文件的編碼檔案類型,在狀態列可以顯示,用EDITPLUS和EMEDIT都可以
關於Unicode、UTF-8的來龍去脈,參考這篇文章。
http://www.linuxforum.net/books/UTF-8-Unicode.html
http://img124.exs.cx/img124/6820/tafonts3pz.jpg
Unicode定義了兩種編碼格式:UTF-8和UTF-16。UTF-8編碼與ASCII向後相容。任何合法的ASCII編碼都會自動成為合法的UTF-8編碼,使得將現有的ASCII資料庫轉換為Unicode資料庫非常容易。UTF-8使用一個碼點值來產生一個分佈到一到四個字元上的位模式。

給定字串的UTF-8編碼中的每個字元都被稱為一個編碼單元。標準ASCII字串集中字串的碼點使用0x00到0x7F範圍內的單一編碼單元進行編碼。大多數非亞洲文字用一個或兩個編碼單元(或字元)來表示每個字串。例如,烏克蘭語的字母ghe的UTF-8表示為:

碼點0x0490是:0xD2 0x90。亞洲文字一般要求每個字串包含三個編碼單元。在Unicode 3.1中,定義了大量新的增補字串,每個字串需要包含四個UTF-8編碼單元。

第二種重要的編碼格式是UTF-16,它使用了一個雙字元的編碼單元。最重要的是,UTF-16和ASCII一樣簡單,因為編碼單元的值與0x0000到0xFFFF範圍內的任意碼點的碼點值相同。對於該範圍內的字串,UTF-16是固定長度的雙字元編碼。再回過來看一下我們前面涉及ghe的例子,你可以使用直接與該字串的碼點對應的編碼單元0x0490在UTF-16中表示它。
psac 目前離線  
送花文章: 3, 收花文章: 1631 篇, 收花: 3205 次