多看對掃瞄版 PDF 格式的檔案是如何實現智慧型排版的?

時間 2021-05-05 16:44:05

1樓:

koreader早就實現了,多看算是抄襲而已原來叫kindlepdfviewer,開源的,原理應該差不多。

koreader/koreader · GitHub其中重排用的是另乙個開源專案K2pdfopt的技術參考Kindle

Koreader的重排功能離不開另乙個開源軟體專案K2pdfopt(GPLV3協議發布)。K2pdfopt也是為了解決PDF文件在小螢幕Kindle上閱讀的排版問題而開發的。與其它PDF預處理軟體相比,它有很多獨一無二的特性,比如自動化程度很高,能夠自動識別多欄排版的文件進行分欄,自動去除頁面白邊,自動對掃瞄文件進行水平校正,以及最重要的基於影象分割的重排版演算法。

K2pdfopt使用完全基於影象處理的方法對文字重新排版,軟體處理時會把原始PDF/DJVU頁面放大再分割成以詞為單位的畫素區域,把這些畫素區域重新排列到目標寬度的頁面中(原理如下圖),所以理論上只要能夠讀取文件的頁面畫素就可以對其中的文字進行重新排版。這個演算法的前提是頁面中的文字之間需要有一定的空隙,以提供分割畫素區域的位點。更多K2pdfopt的處理效果請參考這篇文章用K2PDFopt重排版面,隨手解救掃瞄PDF 。

建議大家換裝koreader,是kindle原生系統下的乙個軟體,個人感覺多看太坑了。

2樓:張三李四

應該是把字塊(中文)或單詞塊(英文)逐個解析出來,放大重排。這比OCR容易也可靠多了,因為只需要識別出影象塊來,不必考慮具體是什麼字。

mac用preview看pdf(非掃瞄版) 翻頁後瞬間文字變得銳利清晰,然後馬上又變的模糊,什麼原因?

chris 問題是設定了字型平滑導致的,macOS 10.12.4中,可以在系統偏好設定 通用 取消勾選 LCD字型平滑 可用時 就好了。舊版本系統可以直接預覽的偏好設定 PDF中取消字型平滑 樓上的方法 設定裡修改smooth text以及one point 1 screen pixel 都試過了...

iPad mini Retina 閱讀掃瞄版 PDF 檔案的體驗如何?

對於那些覺得小的同學。我以前也這麼認為,一直認為至少9寸以上看pdf才勉強足夠 我的平板是聯想2109,剛好9寸,看純電子版的pdf和mobi還是感覺比較清晰 而且以前也看過ipad mini1,覺得那個只夠看電影,看pdf什麼的,只能橫著看了。結果拿到一哥們兒剛入的ipadmini2看pdf以後震...

一本1000頁的彩色圖書,掃瞄成pdf檔案成本怎麼樣

成者CZUR 可以選擇成者 CZUR 旗下任意一款書籍掃瞄器。1.無需拆書,也無需大力按壓。在不對書籍造成任何傷害的情況下,直接通過翻頁 高畫質攝像頭拍照即可完成影象獲取。軟體端的核心演算法會自動將書頁展平 分成左右兩頁。2.掃瞄速度夠快,操作便捷。掃瞄速度 翻書的速度,3秒鐘掃瞄一本書的左右兩頁完...