史萊姆論壇

返回   史萊姆論壇 > 教學文件資料庫 > 繪圖軟體應用技術文件
忘記密碼?
論壇說明

歡迎您來到『史萊姆論壇』 ^___^

您目前正以訪客的身份瀏覽本論壇,訪客所擁有的權限將受到限制,您可以瀏覽本論壇大部份的版區與文章,但您將無法參與任何討論或是使用私人訊息與其他會員交流。若您希望擁有完整的使用權限,請註冊成為我們的一份子,註冊的程序十分簡單、快速,而且最重要的是--註冊是完全免費的!

請點擊這裡:『註冊成為我們的一份子!』

Google 提供的廣告


 
 
主題工具 顯示模式
舊 2004-11-03, 06:37 AM   #1
psac
榮譽會員
 
psac 的頭像
榮譽勳章
UID - 3662
在線等級: 級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時級別:30 | 在線時長:1048小時 | 升級還需:37小時
註冊日期: 2002-12-07
住址: 木柵市立動物園
文章: 17381
現金: 5253 金幣
資產: 33853 金幣
預設 各種格式文件ocr成word文件的方法

各種格式文件ocr成word文件的方法

你還在為不同格式的文件怎麼變成word文件發愁嗎?各種識別軟體各有缺陷,識別效率低,讓你痛苦不堪,有的只能識別字,對表格和圖形無能為力,識別完了,版面亂七八糟,無法使用。

現在好了,本文針對各種情況下文字識別進行總結,說明 大家掌握正確方法,節省時間,本文指出了所有情況下全文件表格、圖形、文字識別的完美解決方案:

1、PDF文件的識別:

1)文件可以直接識別的(以文本形式儲存的PDF文件):安裝acrobat 5 專業版,注意不是acrobat reader,直接另存為rtf文件(識別整個文件),或者選項工作列上的文字選項按鈕,然後選項文字區域,然後複製到word等中。

2)文件不能直接識別的(以圖片形式儲存的PDF文件):安裝office2003,並裝上office工具Microsoft Office Document Imaging(完全安裝此工具),然後在列印機裡面會增加Microsoft Office Document Image Writer列印機,然後將PDF文件列印到此列印機,選項列印形成的文件的儲存位置,然後會自動形成一個MDI文件,並且自動用Microsoft Office Document Image開啟此文件,然後選項「工具」表單下的「使用ocr識別文本」,識別完成後,在選項「工具」下的,「將文本傳送到word」,最後將把整個PDF文件識別輸出到word文件中。

注意:Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格,但是無法將圖形輸出到word,而是把文件中的所有圖形單獨形成一個個獨立的圖片文件,放在相同位置的一個相同名稱的資料夾中,因此可用snagit軟體將圖形開啟,然後複製到word中。

(所有的識別軟體都不能很好的處理圖形的識別問題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)

3)加密的Pdf文件:先下載解密軟體,解密後在參看1),2)
4)繁體pdf文件:用2)的方法識別到word後,用word中的「工具」--「語言」---「中文繁簡轉換」

2、caj文件的識別:

1)局部文字識別:直接使用caj瀏覽器的ocr

2)全文件識別:列印到Microsoft Office Document Image Writer列印機,後面和上面的2)操作一樣

3)博碩論文全文下載:在線閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的文件,拷貝到其他位置即可。然後使用2)全部轉化為word。

3、超星文件的識別:

1)局部文字識別:直接使用超星瀏覽器的ocr

2)全文件識別:列印到Microsoft Office Document Image Writer列印機,後面和上面的2)操作一樣,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到word中,在合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選項列印全部。此外在列印選項中,還要將頁面比例設成真實大小,而不是整寬。


注意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的產生全本書的word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的書,識別需要幾分鍾的時間。

3)超星相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf文件,然後在用1、的方法轉成word

4、其他情況下的識別:

使用snagit軟體將任何形式的文字可以變成圖片,例如使用snagit將螢幕拷貝成圖片,然後右鍵點擊圖片文件,用microsoft Office Document Image開啟圖形,其他和2)一樣。

注意:其他的各種識別軟體請不要在用,因為要麼只能識別中文,要麼只能識別英文,要麼不能識別整個文件,要麼不能識別螢幕拷貝圖像,要麼識別誤差很大,要麼不能識別表格,要麼需要註冊,要麼識別速度很慢,要麼使用不便(和word結合不緊),這些軟體包括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2word,以及各種被推薦的軟體等等,我都裝過,現在都像垃圾一樣移除了。只要安裝了acrobat 專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟體很好得到。

針對一些問題的補充:

經過一些試驗,發現microsoft Office Document Image 存在一些不穩定的問題,例如在用caj列印到Microsoft Office Document Image Writer列印機時,發現用caj5.5版本比較快,(caj5.5不能加昇級修正檔),而caj5.0有時出現假當機。

另外頁面顯示大時,轉化的識別率較高。


如果頁數多的文件,包括超星,如果有問題,可以分多次轉化。

再次補充:

1、由於虛擬列印到Microsoft Office Document Image Writer 比較慢,並且形成的虛擬文件很大,1本200多頁的書大約是60Mb,因此會嚴疊影響機器的執行速度和C碟空間以及記憶體空間,建議組態好的機器一次轉化不要超過200頁,組態差的不要超過100頁,同時列印時在右下角系統欄中會出現列印機圖,你可以雙按,看到列印工作的進度,以免以為當機了。

另外轉化完成後請移除c:\windows\temp目錄下的虛擬列印文件,否則你的c碟很快會被用光。

2、建議如果發生列印到Microsoft Office Document Image Writer很慢或者假當的情況,可以先列印到snagit虛擬列印機,會自動產生tiff文件,速度比Microsoft Office Document Image Writer快,然後在snagit中,選項列印機為Microsoft Office Document Image Writer列印機,(相當於再列印到Microsoft Office Document Image Writer列印機),然後選項snagit---outputs下的printer,然後選項snagit----file----finish output,即可產生msi文件,其他一樣。

3、caj5.5不能下載博碩論文,無法開啟下載的論文,要用caj5.0下載。
psac 目前離線  
送花文章: 3, 收花文章: 1631 篇, 收花: 3205 次
向 psac 送花的會員:
bigmonkey888 (2011-01-05)
感謝您發表一篇好文章
 



發表規則
不可以發文
不可以回覆主題
不可以上傳附加檔案
不可以編輯您的文章

論壇啟用 BB 語法
論壇啟用 表情符號
論壇啟用 [IMG] 語法
論壇禁用 HTML 語法
Trackbacks are 禁用
Pingbacks are 禁用
Refbacks are 禁用


所有時間均為台北時間。現在的時間是 01:47 AM


Powered by vBulletin® 版本 3.6.8
版權所有 ©2000 - 2024, Jelsoft Enterprises Ltd.


SEO by vBSEO 3.6.1