Gijsbertha,
Er is nog hoop.
Nu mijn agfascanner werkt heb ik bijna de hele zondag besteed aan het "aan de praat krijgen" van Kooka, en dan vooral de tekstherkenning. In een aantal stappen zal ik proberen je te helpen.
1. Eerst en vooral moet je controleren of de taalondersteuning compleet is (systeem-beheer-taalondersteuning, misschien gaat dit niet automatisch).
Kooka was bij mij nog grotendeels in het engels, vandaar waarschijnlijk die "IJslandse" teksten.
2. Verder moet je inderdaad meestal inscannen op 300 dpi, al kan dit afhangen van de grootte van de oorspronkelijke tekst.
3. De tekst moet inderdaad zo zuiver mogelijk recht onder de scanner liggen, anders neemt het aantal fouten hard toe.
4. Vooral bij kranten of tijdschriften met een lichtgrijze of gekleurde achtergrond moet je lineart (ljintekening) gebruiken en zeker geen kleur of grijs.
Desnoods kun je het contrast iets vergroten.
Xsane kan nog overtollige punten weghalen maar dat heb ik bij kooka nog niet gezien.
5. Gocr werkt bij mij ook niet bij Kooka.
Kort samengevat: gebruik gocr bij xsane en ocrad bij Kooka. Let op of dit bij Kooka goed is ingesteld, waarna je moet herstarten.
Resultaten
Als in xsane bekijken aanstaat (standaard) kun je na het inscannen direct klikken op Bestand-OCR opslaan als tekst, maar uiteraard ook eerst op tekstherkenning en dan opslaan.
In Kooka heb je meer mogelijkheden, waarbij de extensie niet uitmaakt, ik gebruik jpeg.
Je kunt gewoon kiezen voor ocr, al of niet voor een selectie. Daarna krijg je het venster van ocrad. Hierin kun je kiezen voor geen opmaak, volledige opmaak of kolomdetectie. De eerste en de laatste werken in ieder geval.
De spellingcontrole is nu al in het Nederlands ingesteld.
Opmerkingen
De spellingcorrectie pas ik het liefste toe in gedit, vind ik iets makkelijker werken, maar ieder zijn smaak.
Als een woord als "van" steeds als "von" wordt weergegeven kun je beter later zoeken en vervangen toepassen, ipv de spellingcontrole dit laten doen.
Ik heb wel de indruk dat ocr deels afhankelijk is van het lettertype. Schreefloze letters zoals arial (ik hoop dat ik me niet vergis), lijken meer fouten te bevatten dan letters met schreef (times new roman).
Heeft iemand hier ervaring mee, ik hoor het graag.
De kolomdetectie werkt zeer goed. De kolommen worden alleen niet naast elkaar maar gewoon onder elkaar gezet. Je moet dus later alsnog kolommen instellen.
Het nadeel is dat ocrad-kooka een kolom maakt die links is uitgelijnd, en achter elke regel een return heeft.
Ik vraag me af of die met één handeling is uit te zetten, anders wordt het een heel karwei om later een kolom uit te lijnen.
Ik hoop dat je hier iets mee kunt.
vr.gr.
Hans