Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: Hoe werk je met Tesserac-ocr?  (gelezen 2232 keer)

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Gepost op: 2008/10/02, 09:54:33 »
Van deze software heb ik de nederlandstalige versie geïnstalleerd. Ik scan een document in met Xsane. Ik sla dit op in de map Afbeeldingen onder de naam out.pnm. Vervolgens gebruik ik Gimp om het op te slaan als out.tif. Als ik me niet vergis moet het *.tif formaat zijn voor Tesserac-ocr. Maar hoe moet het nu verder? Het is via de Terminal ... Moet ik via cd naar de map "Afbeeldingen" gaan?? En dan? Wie kan mij helpen? Thanks!!

Offline Kelderkeuken

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #1 Gepost op: 2008/10/02, 10:30:46 »
Volgens mij is het gewoon:  tesseract afbeelding.tif output.txt [options]

Vond net dat iemand een package heeft gemaakt voor Orcopus in Hardy: link. Die is gebouwd met tesseract maar kan ook meerdere kolommen aan etc. En dan heb je een GUI. Maar ik weet niet of dat het makkelijker maakt of moeilijker ;)

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #2 Gepost op: 2008/10/02, 16:00:45 »
Hoe moet ik die GUI oproepen? Ik vind niet direct een snelkoppeling om het met Windowstermen te zeggen. Het resultaat van tesseract afbeelding.tif output.txt  is
Citaat
EFL.: Ssa!I 1-5 .;.¤;_.•.g|.;stL.LS 22**35.
1 C)-Cb·[)·(){)O278C¤·G2
E3€(;}‘I‘t£ I—I2·2I’. I.*I2\rrt)¤|.¤\'U'·.
1. IVHEIQIQ Llvv \I2I'lZP$}FTZGES 1 — §·3€FP¤·3I~CI-3 {"
cle Iega l:•·n.us»sér¤ {Ii r¤.en·r·•csnr·
l·£rr1}, Z3 |I·:*•··•·"a!|i‘[Eit 1-VEITI da
Nrafl SI5!'} is g€:ga.ZI"\.
Fra-aztie 2 -—— gavaarlijkc
.[":r(:•.a!S ‘L•·'£•.|'.I Z`5*E$°·2V?.f$Y‘l'I·$f
lL.zr·n:t zijri 1*1121. ;:»·<:•·$·c:|9rf¤rrrw*
\f2rv|;i'IcI2 grcn-9,r:•$»»@.r_p).a.¤c1|
F’r·a::ti$ 3 -— (What vasnplicr
(dual? alfligé \:EfgIi;II'\[EI1-gz »:r
I·¢I>¤iI'·tI QED)-Srfnjarl -2; d·E:Z
2. Il.l’w*•' |.ri‘L;]§EgEr1rg| 3ft LJ|·•H•' FTE
3. \r"¤f2l'll‘¤E-$1f vI’I‘•€•3[ Ll CIEETTIE
`DEI'1 Eiréfll éfl LI -C’r\r3.I* GQ QE
`N/.EQ<3EE"\‘ Ir·~|lE‘\

Offline Ronnie

  • Artworkteam
    • ronnie.vd.c
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #3 Gepost op: 2008/10/02, 20:49:36 »
Hmm er is alleen het woord 'gevaarlijk' te herkennen :(

Ik heb als test ook maar even tesserac geprobeerd, maar bij mij bakt hij er evenmin iets van.

Ik heb via een computerblad (CT 7-8-2008) een gratis licentie voor abbyy gekregen. Deze werkt bij mij uitstekend. Alleen werkt het natuurlijk wel op windows :(.

Misschien kun je het blad nog wel ergens in de winkel vinden (let wel op de datum). En als je geen windows hebt, eventueel virtueel draaien.

Je mag ook wel mij de bestanden opsturen, dat ik ze even erdoor haal en dan weer terugstuur maar dat is maar een tijdelijke oplossing.

Veel succes, en laat even weten of het gelukt is

Groeten Ronnie
Ben je ook blij dat Ubuntu zo toegankelijk en gratis is, en wil je graag net als ik iets terugdoen, kijk dan eens rond bij mwanzo, dé poort naar het bijdragen aan Ubuntu en haar gemeenschap!

Documentatie Terminal

Offline hvb

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #4 Gepost op: 2008/10/02, 22:18:05 »
Patattezak

Ik heb dit draadje even doorgenomen, maar het is mij niet duidelijk wat je precies wilt.

1. Is het je  uitdrukkelijke bedoeling om het programma(software) Tesserac-ocr te gebruiken, zo ja dan kan ik je niet helpen.

2. Gaat het er jou om om teksten niet als foto maar als tekst in te scannen, met welk ocr programma ook , dan kan ik je een paar goede tips geven over welke ocr programma's met welke scanner goed werken.

Laat me het even weten.

vr. gr.

Hans

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #5 Gepost op: 2008/10/02, 23:01:49 »
Yep, ik wil een goed werkend ocr. In windows is zoiets geen enkel probleem, graag had ik zoiets in Linux. Mijn apparaat is een Brother MFC-5860CN die rechtstreeks in mijn locaal netwerk zit. (Dus niet verbonden via usb.) Wat raad u mij aan?

JimZ

  • Gast
Hoe werk je met Tesserac-ocr?
« Reactie #6 Gepost op: 2008/10/02, 23:17:37 »
Ik heb zelf geen ervaring met OCR onder linux maar je zou zeggen dat er keus genoeg is.

Zomaar een Google hitje:

http://www.linux-ocr.ekitap.gen.tr/

Gr,
Jim

Offline hvb

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #7 Gepost op: 2008/10/02, 23:25:03 »
Wat de scanprogramma's betreft kun je Xsane en kooka gebruiken, beiden werken uitstekend. Xsane zit al bij je programma's, kooka kun je downloaden.

Voor ocr programma's moet je er twee downloaden, ocrad en gocr (systeem, beheer, synaptic pakketbeheer,: even zoeken)

Nu komt het verschil:
in Kooka moet je ocrad gebruiken, dit moet je daar wel in aangeven (Instellingen, kooka instellen,dan herstarten van kooka)
In Xsane moet je gocr gebruiken

Kooka (ocrad)  heeft voor mij het voordeel dat het vooral bij onduidelijke teksten (oud typewerk) veel sneller ocr scant,en  het kan  kolommen kan inscannen met ocr.
Bovendien werkt de tekstherkenning met al ingescande teksten die je hebt opgeslagen.

Scan bij minimaal 300 dpi, en zorg ervoor dat je kooka volledig in het nederlands hebt, anders krijg je onleesbare teksten (systeem-beheer-taalondersteuning).

zie verder dit draadje http://forum.ubuntu-nl.org/topic/30806

Als je problemen tegenkomt met de programma's dan ben ik morgen weer bereikbaar

Hans

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #8 Gepost op: 2008/10/03, 23:16:18 »
Hans,
Hartelijk dank voor uw advies. Xsane of Kooka opstarten duurt redelijk lang, net zoals het scannen. Ik vergelijk natuurlijk met windows. Wat het ocr zelf betreft: Bij Kooka kreeg ik een leeg tekst bestand. Xsane deed het een heel stuk beter. Het overgrote deel van de ingescande brief is leesbaar. Helaas wordt er afwisselend gebruik gemaakt van hoofd en kleine letters. Er zitten ook niet leesbare stukken in. Regelmatig is de a een n of is l een /. Dit zijn veel voorkomende fouten. Zou er daar nog iets aan te doen zijn? De scan was 300 dpi, een heel stuk hoger dan voor ocr in windows. (Waarschijnlijk vandaar dat het langer duurt.)

Gezien dat ik uit uw bovenstaande link kan afleiden dat Kooka meer mogelijkheden biedt, lijkt het mij interssant om deze als ocr werkende te krijgen. Ik zal zelf nog even moeten zoeken wat ik precies verkeerd doe, waardoor ik een leeg tekstbestand heb.

Offline hvb

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #9 Gepost op: 2008/10/04, 21:33:51 »
Pattattezak

Dat xsane en kooka langzaam opstarten klopt, maar ik heb niet het idee dat het langzamer gaat dan bij windows.  Het heeft  naar mijn mening meer te maken met het opwarmen van de scanner. Ikzelf heb een losse scanner, maar ik weet niet op dit ook geldt voor een printer-scanner gecombineerd.

Dat je met tekstherkenning  (ocr)  in de praktijk nooit een 100 % resultaat krijgt moge duidelijk zijn, tenzij misschien bij een goede letter (grootte en type) van de oorspronkelijke tekst en een mooie ondergrond (goede papierkwaliteit). Hoe verder de letters van elkaar afstaan  hoe beter ook het resultaat wordt.
Je zult in de praktijk steeds moeten verbeteren. Het gaat er vooral om dat bijvoorbeeld 95 % wel goed overkomt, liefs meer uiteraard.  
Ik heb gemerkt dat je in de praktijk gewoon 300 dpi moet scannen en LINEART (lijntekening) moet gebruiken. Soms geeft 450 of 600 dpi een verbetering bij sommige woorden, maar tegelijkertijd een verslechtering bij andere. Hoger inscannen helpt m.i. weinig of niets.

Mooi dat het bij xsane in ieder geval lukt.
 
Wat kooka betreft het volgende:
1. ik neem aan dat je wel een blad met tekst kunt inscannen. Hierbij maakt het niet uit welke extensie je gebruikt, ik gebruik jpeg.  
2. is kooka bij jou helemaal in het Nederlands, zoniet dan even taalondersteunig toepassen.            
3. nogmaals,  ocrad moet als voorkeur ingesteld zijn: Instellingen - Kooka instellen - Tekstherkenning ocr - aanstippen ocrad engine - toepassen en mogelijk herstarten van kooka
4. als je nu op de knop "tekstherkenning op afbeelding" (of selectie) drukt verschijnt er een venster dat ook in het nederlands moet zijn. Dan druk je op "tekstherkenning starten" en het resultaat moet binnen enkele seconden zichtbaar zijn in een apart venster. Je kunt ook bij tekstherkenning spellingcontrole toepassen.
5. als laatste moet je het resultaat opslaan bij Bestand-enz.

veel plezier, ik ben benieuwd

Hans

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #10 Gepost op: 2008/10/04, 23:22:17 »
De tekstherkenning bij Kooka is stukken beter! Maar er wordt standaard een Engels woordenboek gebruikt. Als ik dit aanpas naar het Nederlandse, is dit enkel voor deze éne tekstherkenning. Bij de volgende scan staat ie weer ingesteld op het Amerikaanse. Alles staat verder in het Nederlands, het menu van Kooka, de wizard, ... Noem maar op. De gebruikte extensie verandert wel aan de kwaliteit van de tekstherkenning. Een jpg formaat geeft bij mij een veel beter resultaat dan *.bmp.

Wat misschien leuk is om weten: die scanner is nagelnieuw. De lamp warmt gedurende twee seconden op voor een scan. De lange laadtijd van xsane of kooka ligt dus zeker daar niet aan. Het machientje waarmee ik werk, is volledig nagelnieuw en is gebouwd voor snelheid. Hier kan u de specificaties zien.
Het slaag percentage van ocr onder Windows ... Verleden jaar heb ik een contractje van 5 pagina's ingescand, binnnen de twee minuten (zonder de tien minuten aandachtig leeswerk, ik heb geen 20 woorden aangepast.) waren alle spellingsfouten uit alle vijf de pagina's. Ik heb wel nog een halfuur werk gehad om de opmaak weer perfect te krijgen. Het contract aangepast en dit tezamen met een begeleid schrijven terug gefaxt naar de afzender. Ocr toepâssen op een fax (zeer laag dpi), geeft natuurlijk meer fouten. De vijf paginas waren driedubbel (twee vouwlijnen) geplooid geweest om in de enveloppe te passen. Het resultaat van Kooka ligt lager, maar daar Kooka bijleert, kan het alleen maar beter. Het resultaat dat ik nu heb behaald, bij een eerste tekstherkenning, geeft voldoening. Ik zal Kooka nog gebruiken, tenzij ik in tijdsnood zit. Hartelijk dank voor uw medewerking. Zonder hulp was ik hier niet in geslaagd.

Offline hvb

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #11 Gepost op: 2008/10/05, 22:33:32 »
Mooi dat je nu met kooka goed kunt werken met tekstherkenning,  graag gedaan.

Ik heb vandaag nog even proef gedraaid met een stukje heel mooi gedrukte tekst hoewel het papier niet van top kwaliteit was. Met kooka krijg ik dan een zeer goed resultaat, ik schat zo'n 96 % en na spellingcontrole liep dat op tot bijna 99% (2 woorden op 196).  Xsane deed het beduidend slechter, daarvoor was een blik op het resultaat voldoende.
Tot nog toe ben ik vooral met oud typewerk  aan de slag geweest en dan ben ik al heel blij  met af en toe 80 %, vooral bij slechte doordruk, als de letters beginnen te vervagen is het huilen met de pet op.

Wat die lange opstartduur betreft doelde ik op de eerste keer opstarten van de scanner. Een 2de scan gaat ook bij mij heel vlug.

Als scanprogramma ben ik tevreden over kooka, al ben ik geen voorstander van losse vensters, die later niet meer terug te zetten zijn op hun oude plaats (scanparameters verschijnt nu als tab en niet meer links in een zijbalk).

vr. gr.

hans

Als je tevreden bent met de antwoorden kun je bij je eerste bericht je vraag  als opgelost markeren.

Offline Pattattezak

  • Lid
  • Steunpunt: Nee
Hoe werk je met Tesserac-ocr?
« Reactie #12 Gepost op: 2008/10/05, 23:38:25 »
Ik zal het markeren als opgelost. Thanks!! Onder Windows heb ik meerdere malen het contrast tezamen met de lichtbalans aangepast van het ingescande blad. Dit hielp wel degelijk om een beter resultaat te bekomen. U kan dit ook eens proberen via Gimp?