開啟的文本文件的編碼檔案類型,在狀態列可以顯示,用EDITPLUS和EMEDIT都可以
關於Unicode、UTF-8的來龍去脈,參考這篇文章。
http://www.linuxforum.net/books/UTF-8-Unicode.html
Unicode定義了兩種編碼格式:UTF-8和UTF-16。UTF-8編碼與ASCII向後相容。任何合法的ASCII編碼都會自動成為合法的UTF-8編碼,使得將現有的ASCII資料庫轉換為Unicode資料庫非常容易。UTF-8使用一個碼點值來產生一個分佈到一到四個字元上的位模式。
給定字串的UTF-8編碼中的每個字元都被稱為一個編碼單元。標準ASCII字串集中字串的碼點使用0x00到0x7F範圍內的單一編碼單元進行編碼。大多數非亞洲文字用一個或兩個編碼單元(或字元)來表示每個字串。例如,烏克蘭語的字母ghe的UTF-8表示為:
碼點0x0490是:0xD2 0x90。亞洲文字一般要求每個字串包含三個編碼單元。在Unicode 3.1中,定義了大量新的增補字串,每個字串需要包含四個UTF-8編碼單元。
第二種重要的編碼格式是UTF-16,它使用了一個雙字元的編碼單元。最重要的是,UTF-16和ASCII一樣簡單,因為編碼單元的值與0x0000到0xFFFF範圍內的任意碼點的碼點值相同。對於該範圍內的字串,UTF-16是固定長度的雙字元編碼。再回過來看一下我們前面涉及ghe的例子,你可以使用直接與該字串的碼點對應的編碼單元0x0490在UTF-16中表示它。