史萊姆論壇 - 查看單個文章

doku · 2011-11-22, 11:31 PM

◆軟體名稱：解字板(解讀亂碼) V4.0
◆軟體作者：指知數(阿翔) andante2007@yahoo.cn
◆界面語言：繁體中文
◆授權方式：免費軟體
◆軟體類型：應用軟體 / 轉換翻譯 / 普通軟體
◆軟體大小：590 KB
◆運行環境：Windows 98/ME/2000/XP/2003/Vista
◆軟體位置：tw-120-JZB.zip
◆安裝說明：綠色、免安裝
◆軟體圖片：

http://dc353.4shared.com/img/md_paN0H/0.5373347256477211/001.jpg

◆軟體簡介：
　　解字板(解讀亂碼) V4.0綠色版，用來解讀亂碼的小工具。

可解讀：HTM--U，QP，URL，Base64，UTF7，HZ
可轉換：GB--Big5，GB--UTF8，英文--GB，GB--日文，GB--韓文等
可解決：錯失「半個漢字」造成的亂碼

每種亂碼的特徵都列在操作菜單上，供用戶對號入座。
打鉤的是常見種類。

能夠「撤消」「重做」，支持右鍵菜單，限制鍵盤編輯，保護原始文本。
只要「粘貼作原始」，即可作為原始文本得到保護。

本軟體不用安裝，可直接運行「JZB.exe」使用。

運行環境要求：
◇ 作業系統：簡體中文版 MS Windows。
◇ 最好已經安裝 MS Office 軟體，或 WPS Windows 版。

----------------------

◇ 必需的文件：只有一個，「JZB.exe」。
◇ 文件「解字板說明.txt」
◇ 文件「FM20.DLL」和「FM20CHS.DLL」，對沒有安裝 MS Office 的用戶可能有用。
◇ 文件夾「JZB_TXT」，用來給用戶存放自己的文件。
在這文件夾裡，已存有幾個典型的亂碼例子和一些參考資料：
「表1：語文區號和名稱.txt」「表2：代碼頁和字符集.txt」「表3：簡體繁體.txt」
----------------------

使用提示：

◇ 經過複製、粘貼，文本可能會有損失。比較理想的是，直接打開原文件。

當用IE看網頁，或用OutLook看郵件，出現全篇的亂碼，首先要嘗試更改「查看/編碼」的選擇。
同樣，當用記事本打開文件後，看見全篇的亂碼，首先要嘗試更改「打開/編碼」的選擇。
解字板的操作菜單所列的亂碼特徵，可供參考。

◇ 如果同一文本中存在不同種類的亂碼，建議用"文件/新窗口"多開一個窗口，
把單一種亂碼複製出來解讀。

◇ 有時需要多次嘗試，解讀才能成功。
如果確定某次嘗試是不成功的，應該先撤消這次操作，甚至退到原始文本，再進行另一種嘗試。

◇ 要用盡量少的操作次數來解讀，以減少信息的損失。
例如，解「Base64--UTF8」，相當於解「Base64--GB」然後解「GB--UTF8」，從命名可以看出來。

具體的做法：打開文件「舉例：Base64--UTF8.txt」，
嘗試解「Base64--GB」後，出現「GB--UTF8」的特徵，然後嘗試解「GB--UTF8」，解讀出來了。
這時，應該退回到原始文本，執行解「Base64--UTF8」。
（撤消和重做的每一步，窗口左上角都有提示信息）

◇ 有時需要多種解讀操作配合使用。

例如，某些簡體中文版的網頁的亂碼，有可能已經被統一「轉簡體」。對此要做如下處理：
分別複製到兩個解字板窗口，其中一個全文轉正體字，然後解讀；另一個窗口不轉，直接解讀。
往往兩個窗口各自能解讀出一些，需要我們將兩者可以綜合在一起。

◇ 解字板上的文本，不能像「記事本」或「MS Word」那樣可以直接用鍵盤編輯。
鎖住了：字母鍵、數字鍵、回車鍵、空格鍵。
可以用：箭頭鍵，Home,End,PageUp,PageDown，以及各菜單上相應的快捷鍵。例如[F9]是回車。
鼠標右鍵菜單，等同於「編輯」菜單。

◇ 例如，輸入「Hello!」：先把光標移到文本插入點，點擊「編輯/插入」，
或者按鍵[Ins]（或寫[Insert]），然後在對話框中輸入「Hello!」，確定。

又例如，把文本中所有的「MS」都替換為「微軟」：先在文本中選取「MS」，點擊「編輯/字串替換」，
或者按[F3]鍵，然後在對話框中輸入「微軟」，確定。

◇ 解字板的能力，僅限於操作菜單上所列的亂碼種類。

◇ 若有重要的資料用解字板解讀，請用戶事先對原始文本進行備份保存，以防萬一。

◇ 字符內碼轉換，常用的起止方式有：
(1)從字符到字符 (2)從文件到文件

到目前為止，解字板只提供「從字符到字符」方式。
用「見字操作」來解讀亂碼比較好。

---------------------

亂碼的命名及理由：

◇ 凡是不能直接閱讀的字符串，都可以稱之為亂碼。
亂碼情況繁多，下面只討論常見的一些類型。

◇ 字符串「經驗及體會」，用Big5編碼，用GB解碼，變成了「奇噴砰檳」。
這個編解的過程，編碼和解碼不匹配，叫「錯解」。
（相對而言，編碼和解碼是匹配的，叫「對解」）

需要做一次反方向的錯解：用GB編碼，用Big5解碼，還原為「經驗及體會」。
「奇噴砰檳」這種亂碼，就命名為「GB--Big5」。

◇ 有意地用某種規則而做成的編碼文本，也當作亂碼來命名。
「經驗及體會」經過UTF8編碼，Base64編碼，變成「57aT6amX5Y+K6auU5pyD」。

需要用反方向操作來解讀：Base64解碼，UTF8解碼，還原為「經驗及體會」。
「57aT6amX5Y+K6auU5pyD」這種「亂碼」，就命名為「Base64--UTF8」。

◇ 有意的亂碼因為有嚴密的規則，一般能精確地還原。
無意的亂碼，信息會有不同程度的損失。
例如，「UTF8--GB」亂碼和「UTF8--Big5」亂碼，失真太多，解字板不能解讀。

◇ 有的亂碼，是由於局部的字節移位造成的。如「GB+半字」。
GB用2個字節表達一個漢字，1個字節就是所謂「半字」。
當丟失或增加了1個字節時，引起隨後的一串字節移位，結果若干個漢字變為亂碼。
如「經驗及體會」，變成「涷灱綁w會」。

需要在亂碼的開始處插入或刪除1個字節，以抵消移位。名稱「GB+半字」由此而來。
加上原來丟失的1個字節，總共損失1個漢字，解讀結果是「驗及體會」。

◇Unicode LE (簡稱U)，Unicode BE (UBE)，UTF-8 (UTF8)，這3種編碼格式，
能編碼所有字符。保存為文件時，一般在文件開頭加上一個BOM(字序標記)。
有BOM，使現今多數的字符處理軟體都能正確識別並解碼。

例如，文件夾「JZB_TXT」裡面的亂碼舉例的文件，都用UTF8編碼保存。
解字板打開文件時，會根據BOM自動採用UTF8解碼。
UTF8--UTF8是「對解」，編碼和解碼相互抵消，文件的存取就不影響亂碼舉例。

◇ 編碼格式的名稱，本來應當以字符集名稱為準。
但是，解字板為了簡便和直觀，有些編碼格式以語文名稱來稱呼。
例如，語文名稱「日文」就是指：日文的默認字符集「日文(Shift-JIS)」。
詳情請參看資料「表1：語文區號和名稱.txt」的附錄部分。

---------------------

版本記錄：
從3.4更新到4.0（2011年5-7月）
◇ 優化大部分字符串函數的參數和調用。
◇ 增加 LCID 和 CP 的種類。
◇ 調整幾個菜單項的位置和快捷鍵。
◇ 調整在存取文件時，編碼格式的名稱。

從3.3更新到3.4（2010年9月）
◇ 增加「編寫亂碼」的種類。
◇ 改善幾處糾錯語句。

從3.2更新到3.3（2010年3月）
◇ 增加「打開/保存」的編碼格式，優化自動識別功能。
◇ 改進「打開/保存」對話框。

從3.1更新到3.2（2010年3月）
◇ Base64解碼，不再探測邊界，改為允許局部選取，更可靠。
◇ 盡量用字串不用數組，使邏輯統一簡化。

從3.0更新到3.1（2010年3月）
◇ 優化「解讀亂碼(1)」各函數的字串運算。
◇ 增加「逆向查找」功能。
◇ 小調整：按紐、快捷鍵。

從2.5更新到3.0（2010年2-3月）
◇ 增加代碼頁和字符集的輸入選擇。
◇ 改進語文區號和名稱的輸入選擇。
◇ 增加HTML轉義字符的解讀。
◇ 增加「Esc+ISO2022」的解讀。
◇ 改進:繁簡轉換,查找,GB+半字,UTF8解碼,讀文件的格式判斷。
◇ 優化字符串運算；調整亂碼命名。
◇ 改正2.5版裡Base64解碼的一個錯誤:若兩空行開頭則死循環。

----------------------

2011-11-22, 11:31 PM	#1
doku 註冊會員榮譽勳章勳章總數0 UID - 350092 在線等級: 註冊日期: 2011-11-19 文章: 5 精華: 0 現金: 7 金幣資產: 7 金幣	解字板(解讀亂碼) V4.0 繁中解讀亂碼的小工具 ◆軟體名稱：解字板(解讀亂碼) V4.0 ◆軟體作者：指知數(阿翔) andante2007@yahoo.cn ◆界面語言：繁體中文 ◆授權方式：免費軟體 ◆軟體類型：應用軟體 / 轉換翻譯 / 普通軟體 ◆軟體大小：590 KB ◆運行環境：Windows 98/ME/2000/XP/2003/Vista ◆軟體位置：tw-120-JZB.zip ◆安裝說明：綠色、免安裝 ◆軟體圖片： ◆軟體簡介：　　解字板(解讀亂碼) V4.0綠色版，用來解讀亂碼的小工具。可解讀：HTM--U，QP，URL，Base64，UTF7，HZ 可轉換：GB--Big5，GB--UTF8，英文--GB，GB--日文，GB--韓文等可解決：錯失「半個漢字」造成的亂碼每種亂碼的特徵都列在操作菜單上，供用戶對號入座。打鉤的是常見種類。能夠「撤消」「重做」，支持右鍵菜單，限制鍵盤編輯，保護原始文本。只要「粘貼作原始」，即可作為原始文本得到保護。本軟體不用安裝，可直接運行「JZB.exe」使用。運行環境要求： ◇ 作業系統：簡體中文版 MS Windows。 ◇ 最好已經安裝 MS Office 軟體，或 WPS Windows 版。 ---------------------- ◇ 必需的文件：只有一個，「JZB.exe」。 ◇ 文件「解字板說明.txt」 ◇ 文件「FM20.DLL」和「FM20CHS.DLL」，對沒有安裝 MS Office 的用戶可能有用。 ◇ 文件夾「JZB_TXT」，用來給用戶存放自己的文件。在這文件夾裡，已存有幾個典型的亂碼例子和一些參考資料：「表1：語文區號和名稱.txt」「表2：代碼頁和字符集.txt」「表3：簡體繁體.txt」 ---------------------- 使用提示： ◇ 經過複製、粘貼，文本可能會有損失。比較理想的是，直接打開原文件。當用IE看網頁，或用OutLook看郵件，出現全篇的亂碼，首先要嘗試更改「查看/編碼」的選擇。同樣，當用記事本打開文件後，看見全篇的亂碼，首先要嘗試更改「打開/編碼」的選擇。解字板的操作菜單所列的亂碼特徵，可供參考。 ◇ 如果同一文本中存在不同種類的亂碼，建議用"文件/新窗口"多開一個窗口，把單一種亂碼複製出來解讀。 ◇ 有時需要多次嘗試，解讀才能成功。如果確定某次嘗試是不成功的，應該先撤消這次操作，甚至退到原始文本，再進行另一種嘗試。 ◇ 要用盡量少的操作次數來解讀，以減少信息的損失。例如，解「Base64--UTF8」，相當於解「Base64--GB」然後解「GB--UTF8」，從命名可以看出來。具體的做法：打開文件「舉例：Base64--UTF8.txt」，嘗試解「Base64--GB」後，出現「GB--UTF8」的特徵，然後嘗試解「GB--UTF8」，解讀出來了。這時，應該退回到原始文本，執行解「Base64--UTF8」。（撤消和重做的每一步，窗口左上角都有提示信息） ◇ 有時需要多種解讀操作配合使用。例如，某些簡體中文版的網頁的亂碼，有可能已經被統一「轉簡體」。對此要做如下處理：分別複製到兩個解字板窗口，其中一個全文轉正體字，然後解讀；另一個窗口不轉，直接解讀。往往兩個窗口各自能解讀出一些，需要我們將兩者可以綜合在一起。 ◇ 解字板上的文本，不能像「記事本」或「MS Word」那樣可以直接用鍵盤編輯。鎖住了：字母鍵、數字鍵、回車鍵、空格鍵。可以用：箭頭鍵，Home,End,PageUp,PageDown，以及各菜單上相應的快捷鍵。例如[F9]是回車。鼠標右鍵菜單，等同於「編輯」菜單。 ◇ 例如，輸入「Hello!」：先把光標移到文本插入點，點擊「編輯/插入」，或者按鍵[Ins]（或寫[Insert]），然後在對話框中輸入「Hello!」，確定。又例如，把文本中所有的「MS」都替換為「微軟」：先在文本中選取「MS」，點擊「編輯/字串替換」，或者按[F3]鍵，然後在對話框中輸入「微軟」，確定。 ◇ 解字板的能力，僅限於操作菜單上所列的亂碼種類。 ◇ 若有重要的資料用解字板解讀，請用戶事先對原始文本進行備份保存，以防萬一。 ◇ 字符內碼轉換，常用的起止方式有： (1)從字符到字符 (2)從文件到文件到目前為止，解字板只提供「從字符到字符」方式。用「見字操作」來解讀亂碼比較好。 --------------------- 亂碼的命名及理由： ◇ 凡是不能直接閱讀的字符串，都可以稱之為亂碼。亂碼情況繁多，下面只討論常見的一些類型。 ◇ 字符串「經驗及體會」，用Big5編碼，用GB解碼，變成了「奇噴砰檳」。這個編解的過程，編碼和解碼不匹配，叫「錯解」。（相對而言，編碼和解碼是匹配的，叫「對解」）需要做一次反方向的錯解：用GB編碼，用Big5解碼，還原為「經驗及體會」。「奇噴砰檳」這種亂碼，就命名為「GB--Big5」。 ◇ 有意地用某種規則而做成的編碼文本，也當作亂碼來命名。「經驗及體會」經過UTF8編碼，Base64編碼，變成「57aT6amX5Y+K6auU5pyD」。需要用反方向操作來解讀：Base64解碼，UTF8解碼，還原為「經驗及體會」。「57aT6amX5Y+K6auU5pyD」這種「亂碼」，就命名為「Base64--UTF8」。 ◇ 有意的亂碼因為有嚴密的規則，一般能精確地還原。無意的亂碼，信息會有不同程度的損失。例如，「UTF8--GB」亂碼和「UTF8--Big5」亂碼，失真太多，解字板不能解讀。 ◇ 有的亂碼，是由於局部的字節移位造成的。如「GB+半字」。 GB用2個字節表達一個漢字，1個字節就是所謂「半字」。當丟失或增加了1個字節時，引起隨後的一串字節移位，結果若干個漢字變為亂碼。如「經驗及體會」，變成「涷灱綁w會」。需要在亂碼的開始處插入或刪除1個字節，以抵消移位。名稱「GB+半字」由此而來。加上原來丟失的1個字節，總共損失1個漢字，解讀結果是「驗及體會」。 ◇Unicode LE (簡稱U)，Unicode BE (UBE)，UTF-8 (UTF8)，這3種編碼格式，能編碼所有字符。保存為文件時，一般在文件開頭加上一個BOM(字序標記)。有BOM，使現今多數的字符處理軟體都能正確識別並解碼。例如，文件夾「JZB_TXT」裡面的亂碼舉例的文件，都用UTF8編碼保存。解字板打開文件時，會根據BOM自動採用UTF8解碼。 UTF8--UTF8是「對解」，編碼和解碼相互抵消，文件的存取就不影響亂碼舉例。 ◇ 編碼格式的名稱，本來應當以字符集名稱為準。但是，解字板為了簡便和直觀，有些編碼格式以語文名稱來稱呼。例如，語文名稱「日文」就是指：日文的默認字符集「日文(Shift-JIS)」。詳情請參看資料「表1：語文區號和名稱.txt」的附錄部分。 --------------------- 版本記錄：從3.4更新到4.0（2011年5-7月） ◇ 優化大部分字符串函數的參數和調用。 ◇ 增加 LCID 和 CP 的種類。 ◇ 調整幾個菜單項的位置和快捷鍵。 ◇ 調整在存取文件時，編碼格式的名稱。從3.3更新到3.4（2010年9月） ◇ 增加「編寫亂碼」的種類。 ◇ 改善幾處糾錯語句。從3.2更新到3.3（2010年3月） ◇ 增加「打開/保存」的編碼格式，優化自動識別功能。 ◇ 改進「打開/保存」對話框。從3.1更新到3.2（2010年3月） ◇ Base64解碼，不再探測邊界，改為允許局部選取，更可靠。 ◇ 盡量用字串不用數組，使邏輯統一簡化。從3.0更新到3.1（2010年3月） ◇ 優化「解讀亂碼(1)」各函數的字串運算。 ◇ 增加「逆向查找」功能。 ◇ 小調整：按紐、快捷鍵。從2.5更新到3.0（2010年2-3月） ◇ 增加代碼頁和字符集的輸入選擇。 ◇ 改進語文區號和名稱的輸入選擇。 ◇ 增加HTML轉義字符的解讀。 ◇ 增加「Esc+ISO2022」的解讀。 ◇ 改進:繁簡轉換,查找,GB+半字,UTF8解碼,讀文件的格式判斷。 ◇ 優化字符串運算；調整亂碼命名。 ◇ 改正2.5版裡Base64解碼的一個錯誤:若兩空行開頭則死循環。 ----------------------

	送花文章: 4, 收花文章: 2 篇, 收花: 3 次