Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: Optical Character Recognition  (gelezen 3578 keer)

Offline Silvester

  • Lid
Optical Character Recognition
« Gepost op: 2007/05/14, 22:58:32 »
Onze HP-printer kan ook scannen en gescande tekst met OCR omzetten in tekst. Dat is fijn, alleen dat werkt onder windows. Het moet vast ook onder Linux kunnen. Heeft iemand daar ervaring mee? Inzet is prive en sporadisch, dus ik zoek een open source versie. Heeft iemand suggesties voor Ubuntu Dapper drake?
S

Optical Character Recognition
« Reactie #1 Gepost op: 2007/05/14, 23:12:01 »
Ik geloof dat Kooka dit kan, het is via Synaptic te installeren.
Allemaal Linux gerelateerde links op mijn website http://home.scarlet.be/jefdamen/Ubuntu.html
Mijn YouTube kanaal:http://www.youtube.com/user/asilnevs
https://jefdamen.wordpress.com/
We are spiritual beings having a human experience

Offline Silvester

  • Lid
Optical Character Recognition
« Reactie #2 Gepost op: 2007/05/17, 09:40:56 »
Volgens de synaptic manager geschikt voor KDE, Nou gebruik ik momenteel Gnome en dat bevalt voorlopig goed. Is er ook iets wat onder Gnome functioneert? Of kan ik het gewoon installeren?
Ik verwacht dat ik dan over moet naar KDE.

Offline wutnubu

  • Lid
Optical Character Recognition
« Reactie #3 Gepost op: 2007/05/17, 12:09:30 »
Alle KDE programma's werken ook onder Gnome, soms wat minder mooi qua uiterlijk weliswaar.
Er wordt wel van alles voor KDE meegeinstalleerd via synaptic natuurlijk.
Je kunt gewoon Gnome blijven gebruiken dus.

Hier gebruik ik bijvoorbeeld K3B onder gnome.

Succes

Offline Silvester

  • Lid
Optical Character Recognition
« Reactie #4 Gepost op: 2007/05/18, 21:07:41 »
Het is met kooka gelukt om OCR uit te voeren met gebruik van gocr. Of het zonder dat ook kon weet ik niet, maar ik had inmiddels gocr ook geinstalleerd en die gebruikt kooka nu als engine. Was er nog wat anders?
Dank voor de respons. S

Offline wutnubu

  • Lid
Optical Character Recognition
« Reactie #5 Gepost op: 2007/05/19, 08:50:49 »
Mooi dat het werkt, of er iets anders is weet ik niet, ik doe het ook zo.

Groet

Azalin

  • Gast
Optical Character Recognition
« Reactie #6 Gepost op: 2007/05/19, 10:05:32 »
Xsane heeft ook OCR ondersteuning... hoe dat precies zit weet ik niet, het is mij ooit wel eens gelukt maar ik vond de kwaliteit van de OCR niet echt geweldig. NU kan dit aan de scanner, de tekst, de software, aan van alles liggen dus... maar ik heb het toen maar opgegeven. Dat het kan is in elk geval zeker, met Xsane, die is gewoon geinstalleerd overigens. Alleen zal je denk ik wat OCR software moeten installeren, gocr werkt XSane ook mee samen meen ik. Weet ik niet zeker. Dat kun je volgens mij in de settings wel terugvinden van XSane.

Offline Silvester

  • Lid
Optical Character Recognition
« Reactie #7 Gepost op: 2007/05/19, 10:18:41 »
Doel was om een paar pagina's spaanse tekst te scannen en in een documentje op te nemen zonder alles over te moeten tikken. Spaans heeft nogal wat accenten hier en daar en gebuikt omgekeerde vraagtekens en uitroeptekens. De bij de HP meegeleverde OCR heeft daar op windows moeite mee. Kooka met gocr onder linux herkende dat weer beter, maar had ook weer met wat andere zaken moeite. Voor mijn gevoel moet ik onder windows wat meer corrigeren dan onder linux, dus al met al ben ik wel tevreden.
Dank voor de support
S

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #8 Gepost op: 2007/06/10, 08:53:31 »
Heeft iemand ervaring met het volgende:

--Ik heb een PDF-bestand, maar omdat dat een scan is - dus in feite niet meer dan een reeks afbeeldingen -  kan ik niet zo maar een alinea tekst selecteren en naar een ander programma kopiëren (het hulpbestand van Acrobat legt dat ook uit).

--Dus moet de PDF ge-OCR-ed worden. Ik heb gocr en Kooka geïnstalleerd, maar zo ver als ik nu zie kan ik dat dit soort PDF's niet openen (wel allerlei echte plaatjesformaten). Jammer, want ik wil niet eindeloos citaten overtypen en liefst ook niet naar de HP Scanjet 2400 en XP van mijn kinderen :).

Offline Silvester

  • Lid
Optical Character Recognition
« Reactie #9 Gepost op: 2007/06/10, 13:30:02 »
Geen ervaring, behalve vanuit tiff bestandjes. Wel even gezocht op internet met:
'PDF naar TIFF linux
De weg schijnt te zijn om de PDF om te zetten naar een image. GIMP kan dat las ik, maar een testje op mijn PC met hoge resolutie, want anders is je tekst niet te lezen duurde erg lang, dus dat gaf ik op.
Er schijnen wel PDF --> tiff converters te bestaan in de shareware wereld, ook voor linux zo te zien:
http://www.vicman.net/lib/linux/pdftotiff
Wellicht heb je er wat aan. Laat maar eens weten wat een handige weg is, want ik zal het vast ook nog eens nodig hebben.
:) S

Offline eendje

  • Lid
Optical Character Recognition
« Reactie #10 Gepost op: 2007/06/10, 13:36:49 »
probeer eens imagemagick met volgende commando:

convert bestand.pdf pagina-%03d.png

dan krijg je een lijstje png-files, tenminste als ze op onderstaande pagina niet liegen :D
http://www.ibm.com/developerworks/library/l-graf2/#N10285
Een dag niets geleerd is een dag niet geleefd!
Ik blog dus ik besta!
__________________________________________________________
Een vraag? Heb je al eens gekeken op: http://wiki.ubuntu-nl.org/FAQ?

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #11 Gepost op: 2007/06/10, 17:21:23 »
Dank. Zat zelf ook langs die weg te denken.

Zoeken op 'pdf' in Syynaptic leverde ook xpdf op, dat zou kunnen converteren naar ppm (waarmee Kooka weer overweg kan). Er zouden xpdf-utilities kunnen coverteren naar images. Wel, ubunturos, begin er maar niet aan!

Ik ben twee uur bezig geweest en niets lukte, niet grafisch, niet via de terminal. Ik kreeg op een gegeven moment het bekende cirkeltjes-gevoel dat ik bij Windows altijd heb: wat zou moeten werken werkt niet; hulpteksten zeggen X, maar het werkt Y; man-pages die er zouden moeten zijn blijken er niet te zijn of zeggen voor de hand liggende dingen; en tot overmaat van ramp konden die utils niet eens zo maar gedeïnstalleerd worden - heel CUPS en HPLIP moesten mee.

Wat ook iets zegt over Synaptic: je kunt er je zoekopdrachten niet opslaan (dat was onhandig) en je kunt in Synaptic met name niet zeggen dat hij bepaalde onderdelen die een programma wil deïnstalleren NIET moet deïnstalleren omdat ze nodig zijn voor andere programma's. Toch dacht ik dat dat in Dapper Drake wel kon ??

Op zo'n moment merk ik weer eens hoeveel tijdverlies dat allemaal met zich mee brengt. In die tijd had ik alles al over kunnen typen :( Ik begrijp niet dat zo'n programma dan toch de repositories haalt.  

Even diep ademhalen ....

Offline eendje

  • Lid
Optical Character Recognition
« Reactie #12 Gepost op: 2007/06/10, 18:34:52 »
Is het gelukt ondertussen?
Een dag niets geleerd is een dag niet geleefd!
Ik blog dus ik besta!
__________________________________________________________
Een vraag? Heb je al eens gekeken op: http://wiki.ubuntu-nl.org/FAQ?

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #13 Gepost op: 2007/06/10, 18:59:50 »
Nee, maar jouw voorstel moet ik nog uitproberen, zo gauw ik weer wat moed verzameld heb :)

Offline fizzix

  • Lid
Optical Character Recognition
« Reactie #14 Gepost op: 2007/06/13, 21:23:51 »
CrazyCentaur,
mischien mis ik iets?
imho kunt je wel degelijk tekst in een pdf selecteren, als volgt:
open pdf met Konqueror (KDE). er verschijnt een extra knoppenbalk, met rechts de knop  'Select Tool'
hierop klikken, tekst selecteren en copy to clipboard als  TEKST; en voila, je kunt nu in in de editor naar keuze je tekst
plakken.
Zojuist even geprobeerd, met Nautulus (Gnome) gaat het ook.

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #15 Gepost op: 2007/06/13, 22:14:37 »
PDF's zijn niet allemaal hetzelfde. Daar kom ik eigenlijk steeds meer achter. Allerlei moderne PDF's die weggeschreven zijn vanuit bv. OpenOffice of zo, bevatten tekst die je gemakkelijk kunt selecteren en kopiëren. Geen centje pijn bij DIE PDF's, daar heb jij gelijk in.

Maar ik heb nu PDF's met scans van oude artikelen van het MIT AI Lab. In feite is zo'n PDF blijkbaar gewoon een reeks afbeeldingen (zoals een fax). Die zou je dus met OCR-software te lijf moeten gaan - tenminste als je bewerkbare of kopieerbare tekst wilt. Maar daartoe moet ik onder Linux dus de PDF naar een bepaald formaat omzetten etc. Het is nogal gedoe.

Ik denk dat het in mijn geval het simpelst is om opnieuw te scannen en meteen te OCR-en onder XP. Maar dat haat ik tegelijkertijd, ik ben net van heel Winodws af :) En ik heb eigenlijk ook geen tijd voor dit gedoe.

Offline Silvester

  • Lid
Optical Character Recognition
« Reactie #16 Gepost op: 2007/06/13, 23:57:03 »
OCR, het blijft nog even intrigreren. Met GIMP kan je de PDF inlezen. Het is een beetje zoeken naar de goede instellingen. Kies een hoge resolutie en een geen antialiasing (wat het ook doet).
Daarna kan je het bestand weer wegschrijven als tiff en inlezen in Kooka.
Mijn text kwam er heel aardig uit. Alleen omdat het spaanse tekst is en er veel accenten in voorkomen pikt het programma niet alles goed op. Je zult achteraf nog veel correctiewerk moeten doen, maar alles intypen hoeft niet.
Succes
;) S

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #17 Gepost op: 2007/06/14, 11:37:03 »
Dank je, Silvester, ik ben er nu mee bezig.

--Openen van een PDF in de GIMP kan inderdaad. Per pagina zo ver als ik zie. En dan kan ik het wegschrijven als .ppm of .tiff. Ik gebruik in eerste instantie die 1200-instelling die je aangaf. Het duurt allemaal erg lang, ik denk omdat dit een oude computer is (ondanks de 2.4 amd en 1 gb ram; maar de grafische mogelijkheden van de grafische kaart zijn beperkt). Het bestand wordt dan ook wel 350 MB!

--In Kooka kan ik de images dan importeren. Prima, maar als ik OCR image ... dan bevriest min of meer het hele systeem en ik weet echt niet of er nu wel of niet iets gebeurt. Edit: Met wat kleinere bestanden in lagere resolutie duurt het minder lang en werkt het in ieder geval. Resultaat voor ppm en tif is echter net zo slecht als via de command line.

--Ik doe nu een gocr in de terminal (tenslotte gebruikt Kooka dat intern ook). gocr in de terminal doet geen TIF, wel PPM. Uitgaande van de naam van het bestand 1986.ppm (raw en 1200):

gocr -i 1986.ppm -o 1986.txt -f UTF8 levert alleen maar rotzooi op.
gocr -i 1986.ppm -o 1986.txt -f ASCII ook

Ik ga nu de resolutie omlaag gooien, en/of ipv 'raw' kiezen voor een ascii-ppm. Misschien helpt dat.

gocr -i 1986-1200-ascii.ppm -o 1986.txt -f ASCII  rubbish
gocr -i 1986-200-ascii.ppm -o 1986.txt -f ASCII  goh, ik herken zinnen ...

Nog lagere resolutie maakt het niet beter.

Nee, uiteindelijke conclusie: geen resultaat. Waarschijnlijk is de scan gewoon te slecht, dat kan tenslotte ook nog.

Offline eendje

  • Lid
Optical Character Recognition
« Reactie #18 Gepost op: 2007/06/14, 22:09:51 »
Volgens mij is er een ideale resolutie voor het OCR-en. Ik heb ooit eens begrepen dat die op 300 dpi lag... De patroonherkenning van het OCR programma wordt namelijk onnauwkeurig van te veel of te weinig  resolutie om dat deze een bepaalde grootte (een aantla hoogte van pixels) van tekens verwacht.... VOlgens mij legt het OCR-programma   een soort sjabloon op de tekens ter vergelijking en als een teken dan veel te groot of veel te klein is worden tekens niet herkend.
Een dag niets geleerd is een dag niet geleefd!
Ik blog dus ik besta!
__________________________________________________________
Een vraag? Heb je al eens gekeken op: http://wiki.ubuntu-nl.org/FAQ?

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #19 Gepost op: 2007/06/15, 05:42:57 »
Ja, dat klopt, eendje, maar het hangt ook een beetje af van hoe goed of slecht de scan is, wat je daarmee het beste kunt doen. Maar ik heb 100, 200, 300, 600 en 1200 dpi geprobeerd en niets werkte. Ik heb trouwens ook nog jouw ding gedaan: dat wegschrijven naar .png werkt wel. Maar naar tif en ppm dus ook. Het heeft me niet "gered".

Maakt niet uit, zo vaak komt het ook weer niet voor dat ik langer teksten uit dit soort pdf's / scans zou willen hebben. Korte citaten typ ik dan wel over. Het is niet ideaal, maar och.

Offline eendje

  • Lid
Optical Character Recognition
« Reactie #20 Gepost op: 2007/06/15, 22:01:39 »
Tja, met een slechte scan begin je natuurlijk weinig... :D Toch jammer dat je toch weer moet typen...
Een dag niets geleerd is een dag niet geleefd!
Ik blog dus ik besta!
__________________________________________________________
Een vraag? Heb je al eens gekeken op: http://wiki.ubuntu-nl.org/FAQ?

Offline Ben37

  • Lid
Optical Character Recognition
« Reactie #21 Gepost op: 2007/06/22, 18:06:15 »
Feisty Gnome

Dag

Na een dag puzzelen  haak ik maar in bij de discussie van Hellinga en Silvester.
Via gnome sane kreeg wel tekst via de ocr functie maar van een slecht resultaat.

Na lezenvan dit topic heb ik kooka geinstaleerd
Bij settings voor kooka heb ik gocr geselcteerd

Ik doe nut als volgt:
Scanen; dit gaat en het resutaat komt in de kooka galerie.
Ik selecteer de scan en via de werkbalk image OCR krijg ik het OCR menu.
Het eerste tablad laat ik zo, bij spelchecking kan ik via Client  Aspell kiezen en dan bij Dictionary Dutch.
Dit moet ik elke keer doen.
Dan start OCR ,hij loopt kennelijk want het tandwieltje draait.

Mijn Probleem is nu;  ik zie geen resulaat.
Onder File zit wel een funtie ,OCR opslaan, maar dat levert een blanco venster op

Graag weer hulp

Ben37

CrazyCentaur

  • Gast
Optical Character Recognition
« Reactie #22 Gepost op: 2007/06/22, 19:10:26 »
Citaat van: Ben37
Mijn Probleem is nu;  ik zie geen resulaat.
Onder File zit wel een funtie ,OCR opslaan, maar dat levert een blanco venster op
Heel misschien is het resultaat er wel. Ik merkte bijvoorbeeld zelf dat ik niets in dat venster zag, maar dat dat kwam door de hoge resolutie en de grootte van de scan in pixels. Ik moest dus scrollen om het resultaat te zien in Kooka. Ik heb hierdoor dus ook een tijdje gedacht dat er geen resultaat was. Hopelijk ligt het bij jou ook zo.

Offline Ben37

  • Lid
Optical Character Recognition
« Reactie #23 Gepost op: 2007/06/25, 16:23:34 »
Citaat van: CrazyCentaur
Citaat van: Ben37
Mijn Probleem is nu;  ik zie geen resulaat.
Onder File zit wel een funtie ,OCR opslaan, maar dat levert een blanco venster op
Heel misschien is het resultaat er wel. Ik merkte bijvoorbeeld zelf dat ik niets in dat venster zag, maar dat dat kwam door de hoge resolutie en de grootte van de scan in pixels. Ik moest dus scrollen om het resultaat te zien in Kooka. Ik heb hierdoor dus ook een tijdje gedacht dat er geen resultaat was. Hopelijk ligt het bij jou ook zo.
Sorry dat ik laat reageer maar heb tussendoor wat anders gedaan.
Nee er staat echt niets in het tekst veld. Er is geen output.

Verdere pogingen en vragen.
1.Bij gocr staat in de pakketbeheerder ook nog;
gocr-dok; gocr-gk;gocr-tk. Afgezien van de documentatie moeten die laatste twee met gocr mee geinstaleerd worden ?

2. Ik heb ocrad geinstaleerd en bij de settings van Kooka ingesteld.
Nu heb ik wel output maar het is "spaans", geen enkele herkenning van een ned.woord. Maar het ziet er  uit of hij wel elk teken interpreteert maar dan met met een vreemd sjabloon vergelijkt.
(Er zitten b.v geen streepjes en underscores in).
In de pakage manager staan verder ligborc 0; libgor-dev; en libgorg-doc.
Heb ik die nodig ?

3.Volgens mij moet ik ook iets doen met de spelling instelling. Zie eerste bericht. Maar wat en hoe.

4.In de pakketmanager staat ook een pakket "clara" als ocr applicatie. Is dat een mogelijkheid?
En tesseract-ocr ?

5.Wat is een commndline ocr tool ?

Graag respons. Ga intussen verder experimenteren
Ben37