ocr kooka

Ik probeer te OCR met Kooka. Het scannen lukt wel, maar na het ocr 'en krijg ik met gocr helemaal geen output en met ocrad wel, maar geen nederlands woord erbij. Totaal onbegrijpelijke tekst. Ik heb als spellchecker: onbekend (nederlands) geprobeerd, maar dat werkt ook niet.
Heeft iemand hier ervaring mee?
Ik heb wel gezocht en van alles gevonden, maar geen oplossing.

Meld dit bericht aan de moderator

Gelogd

jabuca

ocr kooka

« Reactie #1 Gepost op: 2008/08/18, 14:54:44 »

Hallo gijsbertha,

Ik had ook een soortgelijk probleem, en de resolutie van het scannen een paar stapje hoger gezet op m'n pc, tone was het bij mij opgelost.

Vr.gr. jabuca

Meld dit bericht aan de moderator

Gelogd

Windows heeft de wereld veranderd, Linux heeft de wereld verbeterd!!

gijsbertha

ocr kooka

« Reactie #2 Gepost op: 2008/08/18, 20:37:56 »

Citaat van: jabuca

Hallo gijsbertha,

Ik had ook een soortgelijk probleem, en de resolutie van het scannen een paar stapje hoger gezet op m'n pc, tone was het bij mij opgelost.

Vr.gr. jabuca

Bedankt voor je reactie, ik zal dit ook eens uitproberen, hoewel ik al op 300dpi scan en dat lijkt toch aardig hoog.

Meld dit bericht aan de moderator

Gelogd

Basic

Gast

ocr kooka

« Reactie #3 Gepost op: 2008/08/18, 22:58:50 »

Scan zelf met xsane en gocr en heb gemerkt dat het belangrijk is om het blad zo recht mogelijk neer te leggen op de scanplaat. Voorkomt scanfouten!

Meld dit bericht aan de moderator

Gelogd

gijsbertha

ocr kooka

« Reactie #4 Gepost op: 2008/08/19, 20:00:30 »

Citaat van: Basic

Scan zelf met xsane en gocr en heb gemerkt dat het belangrijk is om het blad zo recht mogelijk neer te leggen op de scanplaat. Voorkomt scanfouten!

Normaal scan ik ook met Xsane en dat gaat prima. Die kan ook OCR naar txt aan, alleen wordt dan geen enkele opmaak meegenomen. Vandaar dat ik Kooka probeer.

Ik wil nog een paar dingen vragen over Kooka:

Wat moet je kiezen bij spellingscontrole? standaard is StandaardIspell
Wat moet je kiezen bij Codering? standaard is US-Ascii
Wat moet je kiezen bij Client? standaard is Internationale ISpell

Ik heb al wel wat uitgeprobeerd met andere instellingen, maar dat helpt niet.

Verder heb ik het grijsniveau, stofafmeting en witruimte maar standaard gelaten.

Ik heb geprobeerd te OCR'en met Gocr en Ocrad:
met Gorc krijg ik helemaal geen tekst, in welke resolutie dan ook, met Ocrad krijg ik nonsens tekst.

Ik hoop dat iemand er nog iets meer over kan zeggen.

Meld dit bericht aan de moderator

Gelogd

hvb

ocr kooka

« Reactie #5 Gepost op: 2008/09/07, 21:36:29 »

Gijsbertha,

Er is nog hoop.
Nu mijn agfascanner werkt heb ik bijna de hele zondag besteed aan het "aan de praat krijgen" van Kooka, en dan vooral de tekstherkenning. In een aantal stappen zal ik proberen je te helpen.

1. Eerst en vooral moet je controleren of de taalondersteuning compleet is (systeem-beheer-taalondersteuning, misschien gaat dit niet automatisch).
Kooka was bij mij nog grotendeels in het engels, vandaar waarschijnlijk die "IJslandse" teksten.

2. Verder moet je inderdaad meestal inscannen op 300 dpi, al kan dit afhangen van de grootte van de oorspronkelijke tekst.

3. De tekst moet inderdaad zo zuiver mogelijk recht onder de scanner liggen, anders neemt het aantal fouten hard toe.

4. Vooral bij kranten of tijdschriften met een lichtgrijze of gekleurde achtergrond moet je lineart (ljintekening) gebruiken en zeker geen kleur of grijs.
Desnoods kun je het contrast iets vergroten.
Xsane kan nog overtollige punten weghalen maar dat heb ik bij kooka nog niet gezien.

5. Gocr werkt bij mij ook niet bij Kooka.
Kort samengevat: gebruik gocr bij xsane en ocrad bij Kooka. Let op of dit bij Kooka goed is ingesteld, waarna je moet herstarten.

Resultaten

Als in xsane bekijken aanstaat (standaard) kun je na het inscannen direct klikken op Bestand-OCR opslaan als tekst, maar uiteraard ook eerst op tekstherkenning en dan opslaan.
In Kooka heb je meer mogelijkheden, waarbij de extensie niet uitmaakt, ik gebruik jpeg.
Je kunt gewoon kiezen voor ocr, al of niet voor een selectie. Daarna krijg je het venster van ocrad. Hierin kun je kiezen voor geen opmaak, volledige opmaak of kolomdetectie. De eerste en de laatste werken in ieder geval.
De spellingcontrole is nu al in het Nederlands ingesteld.

Opmerkingen

De spellingcorrectie pas ik het liefste toe in gedit, vind ik iets makkelijker werken, maar ieder zijn smaak.
Als een woord als "van" steeds als "von" wordt weergegeven kun je beter later zoeken en vervangen toepassen, ipv de spellingcontrole dit laten doen.

Ik heb wel de indruk dat ocr deels afhankelijk is van het lettertype. Schreefloze letters zoals arial (ik hoop dat ik me niet vergis), lijken meer fouten te bevatten dan letters met schreef (times new roman).
Heeft iemand hier ervaring mee, ik hoor het graag.

De kolomdetectie werkt zeer goed. De kolommen worden alleen niet naast elkaar maar gewoon onder elkaar gezet. Je moet dus later alsnog kolommen instellen.
Het nadeel is dat ocrad-kooka een kolom maakt die links is uitgelijnd, en achter elke regel een return heeft.
Ik vraag me af of die met één handeling is uit te zetten, anders wordt het een heel karwei om later een kolom uit te lijnen.

Ik hoop dat je hier iets mee kunt.

vr.gr.

Hans

Meld dit bericht aan de moderator

Gelogd

gijsbertha

ocr kooka

« Reactie #6 Gepost op: 2008/09/07, 22:33:03 »

Hans,

Ik heb je verhaal maar even geprint. Ik ga er deze week eens mee aan de slag.

Bertha

Meld dit bericht aan de moderator

Gelogd

Ubuntu Nederlands

Nieuws:

Auteur Topic: ocr kooka (gelezen 1743 keer)

gijsbertha

ocr kooka

jabuca

ocr kooka

gijsbertha

ocr kooka

Basic

ocr kooka

gijsbertha

ocr kooka

hvb

ocr kooka

gijsbertha

ocr kooka