Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: ocr kooka  (gelezen 1600 keer)

ocr kooka
« Gepost op: 2008/08/18, 14:09:06 »
Ik probeer te OCR met Kooka. Het scannen lukt wel, maar na het ocr 'en krijg ik met gocr helemaal geen output en met ocrad wel, maar geen nederlands woord erbij. Totaal onbegrijpelijke tekst. Ik heb als spellchecker: onbekend (nederlands) geprobeerd, maar dat werkt ook niet.
Heeft iemand hier ervaring mee?
Ik heb wel gezocht en van alles gevonden, maar geen oplossing.

Offline jabuca

  • Lid
ocr kooka
« Reactie #1 Gepost op: 2008/08/18, 14:54:44 »
Hallo gijsbertha,

Ik had ook een soortgelijk probleem, en de resolutie van het scannen een paar stapje hoger gezet op m'n pc, tone was het bij mij opgelost.

Vr.gr. jabuca
Windows heeft de wereld veranderd, Linux heeft de wereld verbeterd!!

ocr kooka
« Reactie #2 Gepost op: 2008/08/18, 20:37:56 »
Citaat van: jabuca
Hallo gijsbertha,

Ik had ook een soortgelijk probleem, en de resolutie van het scannen een paar stapje hoger gezet op m'n pc, tone was het bij mij opgelost.

Vr.gr. jabuca
Bedankt voor je reactie, ik zal dit ook eens uitproberen, hoewel ik al op 300dpi scan en dat lijkt toch aardig hoog.

Basic

  • Gast
ocr kooka
« Reactie #3 Gepost op: 2008/08/18, 22:58:50 »
Scan zelf met xsane en gocr en heb gemerkt dat het belangrijk is om het blad zo recht mogelijk neer te leggen op de scanplaat. Voorkomt scanfouten!

ocr kooka
« Reactie #4 Gepost op: 2008/08/19, 20:00:30 »
Citaat van: Basic
Scan zelf met xsane en gocr en heb gemerkt dat het belangrijk is om het blad zo recht mogelijk neer te leggen op de scanplaat. Voorkomt scanfouten!
Normaal scan ik ook met Xsane en dat gaat prima. Die kan ook OCR naar txt aan, alleen wordt dan geen enkele opmaak meegenomen. Vandaar dat ik Kooka probeer.

Ik wil nog een paar dingen vragen over Kooka:

Wat moet je kiezen bij spellingscontrole? standaard is StandaardIspell
Wat moet je kiezen bij Codering? standaard is US-Ascii
Wat moet je kiezen bij Client? standaard is Internationale ISpell

Ik heb al wel wat uitgeprobeerd met andere instellingen, maar dat helpt niet.

Verder heb ik het grijsniveau, stofafmeting en witruimte maar standaard gelaten.

Ik heb geprobeerd te OCR'en met Gocr en Ocrad:
met Gorc krijg ik helemaal geen tekst, in welke resolutie dan ook, met Ocrad krijg ik nonsens tekst.

Ik hoop dat iemand er nog iets meer over kan zeggen.

Offline hvb

  • Lid
ocr kooka
« Reactie #5 Gepost op: 2008/09/07, 21:36:29 »
Gijsbertha,

Er is nog hoop.
Nu mijn agfascanner werkt heb ik bijna de hele zondag besteed aan het "aan de praat krijgen" van Kooka, en dan vooral de tekstherkenning. In een aantal stappen zal ik proberen je te helpen.

1. Eerst en vooral moet je controleren of de taalondersteuning  compleet is (systeem-beheer-taalondersteuning, misschien gaat dit niet automatisch).
Kooka was bij mij nog grotendeels in het engels, vandaar waarschijnlijk die "IJslandse" teksten.

2. Verder moet je inderdaad meestal inscannen op 300 dpi, al kan dit afhangen van de grootte van de oorspronkelijke tekst.

3. De tekst moet inderdaad zo zuiver mogelijk recht onder de scanner liggen, anders neemt het aantal fouten hard toe.

4. Vooral bij kranten of tijdschriften met een lichtgrijze of gekleurde achtergrond moet je lineart (ljintekening) gebruiken en zeker geen kleur of grijs.
Desnoods kun je het contrast iets vergroten.
 Xsane kan nog overtollige punten weghalen maar dat heb ik bij kooka nog niet gezien.

5. Gocr werkt bij mij ook niet bij Kooka.  
Kort samengevat: gebruik gocr bij xsane en ocrad bij Kooka. Let op of dit bij Kooka goed is ingesteld, waarna je moet herstarten.


Resultaten

Als  in xsane bekijken aanstaat (standaard) kun je na het inscannen direct klikken op Bestand-OCR opslaan als tekst, maar uiteraard ook eerst op tekstherkenning en dan opslaan.
In Kooka heb je meer mogelijkheden, waarbij de extensie niet uitmaakt, ik gebruik jpeg.
 Je kunt gewoon kiezen voor ocr, al of niet voor een selectie. Daarna krijg je het venster van ocrad. Hierin kun je kiezen voor geen opmaak, volledige opmaak of kolomdetectie. De eerste en de laatste werken in ieder geval.
De spellingcontrole is nu al in het Nederlands ingesteld.

Opmerkingen

De spellingcorrectie pas ik het liefste toe in gedit, vind ik iets makkelijker werken, maar ieder zijn smaak.
Als een woord als "van" steeds als "von" wordt weergegeven kun je beter later zoeken en vervangen toepassen, ipv de spellingcontrole dit laten doen.

Ik heb wel de indruk dat ocr deels afhankelijk is van het lettertype. Schreefloze letters zoals arial (ik hoop dat ik me niet vergis), lijken meer fouten te bevatten dan letters met schreef (times new roman).
Heeft iemand hier ervaring mee, ik hoor het graag.

De kolomdetectie werkt zeer goed. De kolommen worden alleen niet naast elkaar maar gewoon onder elkaar gezet. Je moet dus later alsnog kolommen instellen.
Het nadeel is dat ocrad-kooka een kolom maakt die links is uitgelijnd, en achter elke regel een return heeft.
Ik vraag me af of die met één handeling is uit te zetten, anders wordt het een heel karwei om later een kolom uit te lijnen.

Ik hoop dat je hier iets mee kunt.

vr.gr.

Hans

ocr kooka
« Reactie #6 Gepost op: 2008/09/07, 22:33:03 »
Hans,

Ik heb je verhaal maar even geprint. Ik ga er deze week eens mee aan de slag.


Bertha