Zie
http://forum.ubuntu-nl.org/algemeen-42/goede-ocr-voor-linux-eventueel-nieuwe-scanner-met-oem-software-onder-wine/Ingeval deze programma's niet naar verwachting werken, hierbij nog een 'eigen' ambachtelijke oplossing voor pure tekstherkenning (geen handschriftherkenning, foto's of bladindeling).
Installatie1. Zoekterm in Ubuntu softwarecentrum : ocr
2. Kies: Command line OCR tool tesseract-ocr en installeer dat bestand
3. Kies daarna: tesseract-ocr language files for Dutch text en installeer ook dit
(OCR wordt geïnstalleerd in /user/share met daarin tessdata)
Gebruik0. Scanner/printer aanzetten en te scannen document invoeren in apparaat.
1. Ga naar Toepassingen--> Grafisch--> Scannen (Simple Scan): kies in het menu Document--> Scannen--> Foto (dit geeft meteen het gewenste dpi.)
2. Druk op symbool Scannen, gebruik daarna desnoods Bijsnijden
3. (Bijgesneden) Document vanuit Scannen opslaan in /home/gebruikersnaam als document.tif (met één f en niet comprimeren)
4. Het volgende commando ingeven in terminal of gebruik een adequate
snelstarter:
~$ tesseract /home/gebruikersnaam document.tif output -l documenttaal
in mijn geval dus bv.:
bertel@bertels-desktop:~$ tesseract document.tif output -l nld
(-l nld is daarbij ter verhoging van de correctheid toegevoegd !!!)
5. Het nieuwe document is te vinden als /home/gebruikersnaam/output.txt
6. Voor maximale correctheid even de spellingchecker gebruiken.
7. Open output.txt met LibreOffice Writer en kies in Bestand voor Exporteren als PDF.
SnelstarterMaak een snelstarter met:
• Naam: Tesseract ocr nl
• Opdracht: tesseract document.tif output -l nld
• Commentaar: Het gescande bestand als document.tif opgeslagen in de home-map wordt daar ook uitgevoerd als output.txt.
Zet die snelstarter neer in het toepassingen menu of op het bureaublad of op een dock.