|
論壇說明 |
歡迎您來到『史萊姆論壇』 ^___^ 您目前正以訪客的身份瀏覽本論壇,訪客所擁有的權限將受到限制,您可以瀏覽本論壇大部份的版區與文章,但您將無法參與任何討論或是使用私人訊息與其他會員交流。若您希望擁有完整的使用權限,請註冊成為我們的一份子,註冊的程序十分簡單、快速,而且最重要的是--註冊是完全免費的! 請點擊這裡:『註冊成為我們的一份子!』 |
|
主題工具 | 顯示模式 |
2011-11-22, 11:31 PM | #1 |
註冊會員
|
分享 - 解字板(解讀亂碼) V4.0 繁中 解讀亂碼的小工具
◆軟體名稱:解字板(解讀亂碼) V4.0
◆軟體作者:指知數(阿翔) andante2007@yahoo.cn ◆界面語言:繁體中文 ◆授權方式:免費軟體 ◆軟體類型:應用軟體 / 轉換翻譯 / 普通軟體 ◆軟體大小:590 KB ◆運行環境:Windows 98/ME/2000/XP/2003/Vista ◆軟體位置:tw-120-JZB.zip ◆安裝說明:綠色、免安裝 ◆軟體圖片: ◆軟體簡介: 解字板(解讀亂碼) V4.0綠色版,用來解讀亂碼的小工具。 可解讀:HTM--U,QP,URL,Base64,UTF7,HZ 可轉換:GB--Big5,GB--UTF8,英文--GB,GB--日文,GB--韓文 等 可解決:錯失「半個漢字」造成的亂碼 每種亂碼的特徵都列在操作菜單上,供用戶對號入座。 打鉤的是常見種類。 能夠「撤消」「重做」,支持右鍵菜單,限制鍵盤編輯,保護原始文本。 只要「粘貼作原始」,即可作為原始文本得到保護。 本軟體不用安裝,可直接運行「JZB.exe」使用。 運行環境要求: ◇ 作業系統:簡體中文版 MS Windows。 ◇ 最好已經安裝 MS Office 軟體,或 WPS Windows 版。 ---------------------- ◇ 必需的文件:只有一個,「JZB.exe」。 ◇ 文件「解字板說明.txt」 ◇ 文件「FM20.DLL」和「FM20CHS.DLL」,對沒有安裝 MS Office 的用戶可能有用。 ◇ 文件夾「JZB_TXT」,用來給用戶存放自己的文件。 在這文件夾裡,已存有幾個典型的亂碼例子和一些參考資料: 「表1:語文區號和名稱.txt」「表2:代碼頁和字符集.txt」「表3:簡體繁體.txt」 ---------------------- 使用提示: ◇ 經過複製、粘貼,文本可能會有損失。比較理想的是,直接打開原文件。 當用IE看網頁,或用OutLook看郵件,出現全篇的亂碼,首先要嘗試更改「查看/編碼」的選擇。 同樣,當用記事本打開文件後,看見全篇的亂碼,首先要嘗試更改「打開/編碼」的選擇。 解字板的操作菜單所列的亂碼特徵,可供參考。 ◇ 如果同一文本中存在不同種類的亂碼,建議用"文件/新窗口"多開一個窗口, 把單一種亂碼複製出來解讀。 ◇ 有時需要多次嘗試,解讀才能成功。 如果確定某次嘗試是不成功的,應該先撤消這次操作,甚至退到原始文本,再進行另一種嘗試。 ◇ 要用盡量少的操作次數來解讀,以減少信息的損失。 例如,解「Base64--UTF8」,相當於解「Base64--GB」然後解「GB--UTF8」,從命名可以看出來。 具體的做法:打開文件「舉例:Base64--UTF8.txt」, 嘗試解「Base64--GB」後,出現「GB--UTF8」的特徵,然後嘗試解「GB--UTF8」,解讀出來了。 這時,應該退回到原始文本,執行解「Base64--UTF8」。 (撤消和重做的每一步,窗口左上角都有提示信息) ◇ 有時需要多種解讀操作配合使用。 例如,某些簡體中文版的網頁的亂碼,有可能已經被統一「轉簡體」。對此要做如下處理: 分別複製到兩個解字板窗口,其中一個全文轉正體字,然後解讀;另一個窗口不轉,直接解讀。 往往兩個窗口各自能解讀出一些,需要我們將兩者可以綜合在一起。 ◇ 解字板上的文本,不能像「記事本」或「MS Word」那樣可以直接用鍵盤編輯。 鎖住了:字母鍵、數字鍵、回車鍵、空格鍵。 可以用:箭頭鍵,Home,End,PageUp,PageDown,以及各菜單上相應的快捷鍵。例如[F9]是回車。 鼠標右鍵菜單,等同於「編輯」菜單。 ◇ 例如,輸入「Hello!」:先把光標移到文本插入點,點擊「編輯/插入」, 或者按鍵[Ins](或寫[Insert]),然後在對話框中輸入「Hello!」,確定。 又例如,把文本中所有的「MS」都替換為「微軟」:先在文本中選取「MS」,點擊「編輯/字串替換」, 或者按[F3]鍵,然後在對話框中輸入「微軟」,確定。 ◇ 解字板的能力,僅限於操作菜單上所列的亂碼種類。 ◇ 若有重要的資料用解字板解讀,請用戶事先對原始文本進行備份保存,以防萬一。 ◇ 字符內碼轉換,常用的起止方式有: (1)從字符到字符 (2)從文件到文件 到目前為止,解字板只提供「從字符到字符」方式。 用「見字操作」來解讀亂碼比較好。 --------------------- 亂碼的命名及理由: ◇ 凡是不能直接閱讀的字符串,都可以稱之為亂碼。 亂碼情況繁多,下面只討論常見的一些類型。 ◇ 字符串「經驗及體會」,用Big5編碼,用GB解碼,變成了「奇噴砰檳」。 這個編解的過程,編碼和解碼不匹配,叫「錯解」。 (相對而言,編碼和解碼是匹配的,叫「對解」) 需要做一次反方向的錯解:用GB編碼,用Big5解碼,還原為「經驗及體會」。 「奇噴砰檳」這種亂碼,就命名為「GB--Big5」。 ◇ 有意地用某種規則而做成的編碼文本,也當作亂碼來命名。 「經驗及體會」經過UTF8編碼,Base64編碼,變成「57aT6amX5Y+K6auU5pyD」。 需要用反方向操作來解讀:Base64解碼,UTF8解碼,還原為「經驗及體會」。 「57aT6amX5Y+K6auU5pyD」這種「亂碼」,就命名為「Base64--UTF8」。 ◇ 有意的亂碼因為有嚴密的規則,一般能精確地還原。 無意的亂碼,信息會有不同程度的損失。 例如,「UTF8--GB」亂碼和「UTF8--Big5」亂碼,失真太多,解字板不能解讀。 ◇ 有的亂碼,是由於局部的字節移位造成的。如「GB+半字」。 GB用2個字節表達一個漢字,1個字節就是所謂「半字」。 當丟失或增加了1個字節時,引起隨後的一串字節移位,結果若干個漢字變為亂碼。 如「經驗及體會」,變成「涷灱綁w會」。 需要在亂碼的開始處插入或刪除1個字節,以抵消移位。名稱「GB+半字」由此而來。 加上原來丟失的1個字節,總共損失1個漢字,解讀結果是「 驗及體會」。 ◇Unicode LE (簡稱U),Unicode BE (UBE),UTF-8 (UTF8),這3種編碼格式, 能編碼所有字符。保存為文件時,一般在文件開頭加上一個BOM(字序標記)。 有BOM,使現今多數的字符處理軟體都能正確識別並解碼。 例如,文件夾「JZB_TXT」裡面的亂碼舉例的文件,都用UTF8編碼保存。 解字板打開文件時,會根據BOM自動採用UTF8解碼。 UTF8--UTF8是「對解」,編碼和解碼相互抵消,文件的存取就不影響亂碼舉例。 ◇ 編碼格式的名稱,本來應當以字符集名稱為準。 但是,解字板為了簡便和直觀,有些編碼格式以語文名稱來稱呼。 例如,語文名稱「日文」就是指:日文的默認字符集「日文(Shift-JIS)」。 詳情請參看資料「表1:語文區號和名稱.txt」的附錄部分。 --------------------- 版本記錄: 從3.4更新到4.0(2011年5-7月) ◇ 優化大部分字符串函數的參數和調用。 ◇ 增加 LCID 和 CP 的種類。 ◇ 調整幾個菜單項的位置和快捷鍵。 ◇ 調整在存取文件時,編碼格式的名稱。 從3.3更新到3.4(2010年9月) ◇ 增加「編寫亂碼」的種類。 ◇ 改善幾處糾錯語句。 從3.2更新到3.3(2010年3月) ◇ 增加「打開/保存」的編碼格式,優化自動識別功能。 ◇ 改進「打開/保存」對話框。 從3.1更新到3.2(2010年3月) ◇ Base64解碼,不再探測邊界,改為允許局部選取,更可靠。 ◇ 盡量用字串不用數組,使邏輯統一簡化。 從3.0更新到3.1(2010年3月) ◇ 優化「解讀亂碼(1)」各函數的字串運算。 ◇ 增加「逆向查找」功能。 ◇ 小調整:按紐、快捷鍵。 從2.5更新到3.0(2010年2-3月) ◇ 增加代碼頁和字符集的輸入選擇。 ◇ 改進語文區號和名稱的輸入選擇。 ◇ 增加HTML轉義字符的解讀。 ◇ 增加「Esc+ISO2022」的解讀。 ◇ 改進:繁簡轉換,查找,GB+半字,UTF8解碼,讀文件的格式判斷。 ◇ 優化字符串運算;調整亂碼命名。 ◇ 改正2.5版裡Base64解碼的一個錯誤:若兩空行開頭則死循環。 ---------------------- |
送花文章: 4,
|