唐小姐您好,從親子天下的訪談中,得知我們有一個共同點,就是對紙張沒有眷戀,同時我也是個「自炊」者,我很好奇您是使用什麼OCR及全文檢索工具,可以讓全文檢索這麼的方便?我目前遇到的問題有二:1.文字辨識準確性還是有一段距離,特別是「直書」及「多欄」的書籍。2.全文檢索無法以PDF的單頁為scope,特別是用複合關鍵字搜尋的時候,因為搜尋的scope是整個PDF(整本書),以致搜尋結果不精確。
我使用的工具為:Fujitsu Scansnap iX500內附的Adobe Acrobat Standard使用自動模式精細掃描+Adobe Clearscan & OCR全文檢索工具:目前正嘗試Synology NAS及QNAP NAS內建的檢索工具。
期待您的指點迷津!
朱政愷上
我個人使用的的配備和光學辨識軟體和您的基本相同,但平時沒有使用複合關鍵字進行全文檢索的習慣。
多欄確實是個問題,我目前也沒有通用的解決方案。通常會針對特定的 PDF 檔撰寫程式,例如之前和 kiang 協作的台南投開票所列表: https://github.com/audreyt/pdf2md 。
感謝您的回覆!