史萊姆論壇 - 查看單個文章

psac · 2005-03-30, 09:18 AM

開啟的文本文件的編碼檔案類型,在狀態列可以顯示，用EDITPLUS和EMEDIT都可以
關於Unicode、UTF-8的來龍去脈，參考這篇文章。
http://www.linuxforum.net/books/UTF-8-Unicode.html

http://img124.exs.cx/img124/6820/tafonts3pz.jpg

Unicode定義了兩種編碼格式：UTF-8和UTF-16。UTF-8編碼與ASCII向後相容。任何合法的ASCII編碼都會自動成為合法的UTF-8編碼，使得將現有的ASCII資料庫轉換為Unicode資料庫非常容易。UTF-8使用一個碼點值來產生一個分佈到一到四個字元上的位模式。

給定字串的UTF-8編碼中的每個字元都被稱為一個編碼單元。標準ASCII字串集中字串的碼點使用0x00到0x7F範圍內的單一編碼單元進行編碼。大多數非亞洲文字用一個或兩個編碼單元（或字元）來表示每個字串。例如，烏克蘭語的字母ghe的UTF-8表示為：

碼點0x0490是：0xD2 0x90。亞洲文字一般要求每個字串包含三個編碼單元。在Unicode 3.1中，定義了大量新的增補字串，每個字串需要包含四個UTF-8編碼單元。

第二種重要的編碼格式是UTF-16，它使用了一個雙字元的編碼單元。最重要的是，UTF-16和ASCII一樣簡單，因為編碼單元的值與0x0000到0xFFFF範圍內的任意碼點的碼點值相同。對於該範圍內的字串，UTF-16是固定長度的雙字元編碼。再回過來看一下我們前面涉及ghe的例子，你可以使用直接與該字串的碼點對應的編碼單元0x0490在UTF-16中表示它。

2005-03-30, 09:18 AM	#3 (permalink)
psac 榮譽會員榮譽勳章勳章總數19 UID - 3662 在線等級: 註冊日期: 2002-12-07 住址: 木柵市立動物園文章: 17381 精華: 2 現金: 5253 金幣資產: 33853 金幣	開啟的文本文件的編碼檔案類型,在狀態列可以顯示，用EDITPLUS和EMEDIT都可以關於Unicode、UTF-8的來龍去脈，參考這篇文章。 http://www.linuxforum.net/books/UTF-8-Unicode.html Unicode定義了兩種編碼格式：UTF-8和UTF-16。UTF-8編碼與ASCII向後相容。任何合法的ASCII編碼都會自動成為合法的UTF-8編碼，使得將現有的ASCII資料庫轉換為Unicode資料庫非常容易。UTF-8使用一個碼點值來產生一個分佈到一到四個字元上的位模式。給定字串的UTF-8編碼中的每個字元都被稱為一個編碼單元。標準ASCII字串集中字串的碼點使用0x00到0x7F範圍內的單一編碼單元進行編碼。大多數非亞洲文字用一個或兩個編碼單元（或字元）來表示每個字串。例如，烏克蘭語的字母ghe的UTF-8表示為：碼點0x0490是：0xD2 0x90。亞洲文字一般要求每個字串包含三個編碼單元。在Unicode 3.1中，定義了大量新的增補字串，每個字串需要包含四個UTF-8編碼單元。第二種重要的編碼格式是UTF-16，它使用了一個雙字元的編碼單元。最重要的是，UTF-16和ASCII一樣簡單，因為編碼單元的值與0x0000到0xFFFF範圍內的任意碼點的碼點值相同。對於該範圍內的字串，UTF-16是固定長度的雙字元編碼。再回過來看一下我們前面涉及ghe的例子，你可以使用直接與該字串的碼點對應的編碼單元0x0490在UTF-16中表示它。

	送花文章: 3, 收花文章: 1631 篇, 收花: 3205 次