Het is belangena nog niet de kwaliteit van ABBYY maar het is te doen.
Voor dit scriptje heb je nodig:
gs (zit in ghostscript)
tesseract (zit in tesseract-ocr)
hocr2pdf (zit in exactimage)
pdftoppm (zit in poppler-utils)
Hoe nieuwer de versie hoe beter het werkt.
En nu het script:
http://users.telenet.be/x86_64/Scripts/OCRedSla deze op in je home-bin map, vb OCRed
En maak die uitvoerbaar.
In de map waar de PDF's staan via een terminal het script oproepen.
OCRed
En heeft zijn tijd nodig hoeveel en hoe groot de PDF's zijnin deze map.
Eens klaar staat de PDF's met OCR herkenning in een sub-map ./OCRed/...
Ga naar deze map met pdftotext (zit ook poppler-utils) maak je er een text-bestandje ervan.
Ook via de terminal:
pdftotext -layout <pdf-bestand>
Veel plezier ermee.