Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: OCR programma gezocht  (gelezen 2133 keer)

Offline molly w

  • Lid
OCR programma gezocht
« Gepost op: 2014/08/06, 16:46:11 »
Ik zoek een goed OCR-programma dat samenwerkt met Xsane / Gimp 2.8
Xsane heeft de mogelijkheid een gescande afbeelding op te slaan als tekst. Op dit moment lukt dat niet: foutmelding "Failed to execute OCR. Command GOCR: Bestand of map bestaat niet". Op internet las ik dat dat komt omdat GOCR niet geïnstalleerd is.

GCOR schijnt nogal kritisch te zijn en vraagt goede scans, geen kolommen of tabellen, geen schreefloze lettertypes enz.
De beoordeling in mijn softwarebeheer is nogal negatief:  -2 (twee reacties)

Liever geen programma dat alleen met commando-regels werkt. Ik vind het nogal een gedoe om naar de juiste vindplaats van de afbeeldingen te gaan die ik wil omzetten naar tekst. Het liefst heb ik dat ik in Xsane (afbeelding bekijken) klik op OCR of opslaan als tekst, en dat het dan vanzelf verder gaat.

Het zou mooi zijn als er het OCR-programma rtf-tekst maakt of doorzoekbare pdf. (zoiets als wat HP heeft voor Windows)

Ik werk met Linux 13 Mint Maya.

Offline wowo

  • Lid
Re: OCR programma gezocht
« Reactie #1 Gepost op: 2014/08/06, 17:57:56 »
Je zou het scanprogramma "gscan2pdf" (uit ubuntu software centrum) kunnen proberen.
Daar zit een ocr programma ingebouwd waarmee je volgens mij direct de tekst kan opslaan.
Overigens heb ik er geen ervaring mee.
Desktop Ubuntu 20.04 LTS en 22.04 LTS

Offline aartje

  • Lid
Re: OCR programma gezocht
« Reactie #2 Gepost op: 2014/08/06, 19:46:33 »
Onder Linux zijn er geen echt goede grastis OCR programma's. IK heb zelf een ouder versie Omnipage (14)
gekocht en gebruik die onder Windows7 in Virtualbox.

De enige redelijk werkende software onder Linux is "gimagereader" ism met "tesseract". Ik draai dat soms
onder Mint en Ubuntu en dat werkt min of meer.

Re: OCR programma gezocht
« Reactie #3 Gepost op: 2014/08/06, 20:25:14 »
Onder Linux zijn er geen echt goede grastis OCR programma's. IK heb zelf een ouder versie Omnipage (14)
gekocht en gebruik die onder Windows7 in Virtualbox.

De enige redelijk werkende software onder Linux is "gimagereader" ism met "tesseract". Ik draai dat soms
onder Mint en Ubuntu en dat werkt min of meer.

Aangezien je niet vies bent van kopen, zou je OCR Shop Lite kunnen overwegen. Dat schijnt een erg goed, commercieel pakket voor Linux te zijn.
http://www.linuxocr.org/be_xtrlite_overview.html (specs: http://www.linuxocr.org/be_xtrlite_specs.html)
Je kunt ook een gratis proefversie downloaden.
« Laatst bewerkt op: 2014/08/06, 20:30:53 door Vistaus »

Re: OCR programma gezocht
« Reactie #4 Gepost op: 2014/08/07, 20:17:44 »
Maar Vistaus, Molly vraagt het en niet Aartje.  ;)

Klopt, maar ik ging ervan uit dat bovenstaande antwoorden voor mij aangaande Linux-software al voldoende waren want even zoekend op het internet krijg je precies hetzelfde antwoord dus dat lijkt mij de beste oplossing. Daarom dat ik even een zijpad inging naar aartje's post ;)

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #5 Gepost op: 2014/08/08, 10:44:54 »
Ik heb gimagereader geïnstalleerd met hulp van de site http://linuxg.net/how-to-install-gimagereader-2-93-on-ubuntu-linux-mint-elementary-os-and-pinguy-os/.
Dat duurde een tijd, maar uiteindelijk was het klaar. gImagereader staat netjes in de lijst met programma's, maar als ik het aanklik is er eventjes boven in beeld een scherm te zien, dat dan meteen verdwijnt. Er gebeurt verder niets. Moet er nog iets meer gebeuren???

Offline Henkp

  • Lid
Re: OCR programma gezocht
« Reactie #6 Gepost op: 2014/08/08, 14:11:51 »
Ik heb gimagereader geïnstalleerd met hulp van de site http://linuxg.net/how-to-install-gimagereader-2-93-on-ubuntu-linux-mint-elementary-os-and-pinguy-os/.
Dat duurde een tijd, maar uiteindelijk was het klaar. gImagereader staat netjes in de lijst met programma's, maar als ik het aanklik is er eventjes boven in beeld een scherm te zien, dat dan meteen verdwijnt. Er gebeurt verder niets. Moet er nog iets meer gebeuren???

Ik heb hem net ook geïnstalleerd op Ubuntu 14.04.1 en daar start hij gewoon op.
Maar de OCR is om te huilen wat je ook maar instelt je kan dus geen Nederlands instellen, al staat het wel vermeld bij voorkeuren.

Ik ga toch vrezen dat ik dan weer Win7 zal moeten opstarten voor de OCR, is wel heel jammer na dat ik al die OCR progjes onder Linux heb uitgeprobeerd.

Offline aartje

  • Lid
Re: OCR programma gezocht
« Reactie #7 Gepost op: 2014/08/08, 21:45:49 »
Ik heb gimagereader geïnstalleerd met hulp van de site http://linuxg.net/how-to-install-gimagereader-2-93-on-ubuntu-linux-mint-elementary-os-and-pinguy-os/.
Dat duurde een tijd, maar uiteindelijk was het klaar. gImagereader staat netjes in de lijst met programma's, maar als ik het aanklik is er eventjes boven in beeld een scherm te zien, dat dan meteen verdwijnt. Er gebeurt verder niets. Moet er nog iets meer gebeuren???

Ik heb hem net ook geïnstalleerd op Ubuntu 14.04.1 en daar start hij gewoon op.
Maar de OCR is om te huilen wat je ook maar instelt je kan dus geen Nederlands instellen, al staat het wel vermeld bij voorkeuren.

Ik ga toch vrezen dat ik dan weer Win7 zal moeten opstarten voor de OCR, is wel heel jammer na dat ik al die OCR progjes onder Linux heb uitgeprobeerd.
Volgens mij kan je voor Nederlands kiezen door ook tesseract-ocr-nld uit de standaard repository te installeren.
Soms moet je wat aan de grootte van de letters veranderen voor een betere herkenning. Ik vind
gimagereader/tesseract redelijk voldoen, maar het haalt het niet bij Omnipage, waarvan je 2e hands via
marktplaats altijd wel een oudere versie kan kopen voor zo'n 10 á 20 Euro. Die moet je dan helaas wel
onder Windows onder Virtualbox draaien.

Re: OCR programma gezocht
« Reactie #8 Gepost op: 2014/08/08, 22:11:34 »
Het helaas een terminal progje, en voor PDF's.
Veel hangt af van de kwaliteit ingescande PDF.... Maar is gratis.
PDFSandwich -> http://www.tobias-elze.de/pdfsandwich/
Er is een deb bestand hiervan: http://sourceforge.net/projects/pdfsandwich/files/pdfsandwich%200.1.2/

MvG,
MauRice
Registered Linux user: 473556

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #9 Gepost op: 2014/08/09, 13:02:41 »
Graag terug naar gimagereader.
Ik had ook de windowsversie gedownload. Om te proberen heb ik die geïnstalleerd (starten binnen Wine). Die werkte wel, naar had alleen Engels. Zou niet weten hoe daar  tesseract-ocr-nld bij te installeren. Ik heb dit dus maar weer verwijderd.
Ik zit dus nog steeds met de vraag waarom bij mij gimagereader niet start. Ik heb Linux 13 mint maya.
Tesseract-ocr is wél geïnstalleerd en ook  tesseract-ocr-nl.

Re: OCR programma gezocht
« Reactie #10 Gepost op: 2014/08/09, 20:27:16 »
Graag terug naar gimagereader.
Ik had ook de windowsversie gedownload. Om te proberen heb ik die geïnstalleerd (starten binnen Wine). Die werkte wel, naar had alleen Engels. Zou niet weten hoe daar  tesseract-ocr-nld bij te installeren. Ik heb dit dus maar weer verwijderd.
Ik zit dus nog steeds met de vraag waarom bij mij gimagereader niet start. Ik heb Linux 13 mint maya.
Tesseract-ocr is wél geïnstalleerd en ook  tesseract-ocr-nl.
Molly,

Linux 13 mint maya, komt overeen met *buntu 12.04 LTS ....

Heb je gImageReader ge-installeerd via deze ppa: https://launchpad.net/~sandromani/+archive/ubuntu/gimagereader?field.series_filter=precise
Dan moet je ook tesseract-ocr ook update van deze ppa, ander werkt het niet.
Zonder die update van tesseract-ocr zal je een foutmelding krijgen als je gimagerader opstart in de terminal.
Iest in de geest van:
Citaat
maurizio@U-64:~$ gimagereader
gimagereader: symbol lookup error: gimagereader: undefined symbol: _ZNK9tesseract11TessBaseAPI29GetAvailableLanguagesAsVectorEP13GenericVectorI6STRINGE
MvG,
MauRice
Registered Linux user: 473556

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #11 Gepost op: 2014/08/15, 10:23:17 »
Ik heb op de genoemde site bekeken wat daar staat, maar begrijp het niet helemaal. Als ik vergelijk met wat ik al gedaan heb, zie ik dat het net zo heb gedaan, en dat is als volgt:
sudo add-apt-repository ppa:sandromani/gimagereadersudo apt-get updatesudo apt-get install gimagereader tesseract-ocr tesseract-ocr-engDeze stappen heb ik van de site http://linuxg.net/how-to-install-gimagereader-2-93-on-ubuntu-linux-mint-elementary-os-and-pinguy-os/
Tussen deze commando's door gebeurde er van alles en ook ogenschijnlijk tijdenlang niets. Soms waren er foutmeldingen: "Er gebeurde iets raars ..." of "geen adres ..."
Uiteindelijk stond gimagereader op mijn systeem. Het blijkt verie 2.93-1 ~precise ppa10 te zijn. Maar het doet het niet.
(gImagereader blijkt ook in mijn Softwarebeheer te staan. Als ik het vandaar uit installeer, doet ie het ook niet.)

Wat moet ik anders doen? Op de site die jij noemt, staat behalve bovengenoemde en reeds genomen stappen ook (na aanklikken van de Ubuntoversie):
deb http://ppa.launchpad.net/sandromani/gimagereader/ubuntu precise maindeb-src http://ppa.launchpad.net/sandromani/gimagereader/ubuntu precise mainen daaronder

Signing key:
    1024R/B4591784 (What is this?)
Fingerprint:
    F3503FFDFA132F65E151D87CDCDE74FDB4591784

Moet ik daar iets mee??
Kortom, ik begrijp het niet allemaal.

Als ik Imagereader opstart vanuit de Terminal krijgt ik de volgende melding:
gimagereader: symbol lookup error: gimagereader: undefined symbol: _ZNK9tesseract11TessBaseAPI29GetAvailableLanguagesAsVectorEP13GenericVectorI6STRINGE
geeft dat een aanwijzing??

Tesseract updaten vanuit ppa, hoe doe je dat???
« Laatst bewerkt op: 2014/08/15, 10:27:04 door molly w »

Re: OCR programma gezocht
« Reactie #12 Gepost op: 2014/08/15, 10:54:05 »
Molly,

Eens je de opdracht "sudo add-apt-repository ppa:sandromani/gimagereader" hebt uitgevoerd, staat alles goed in je pakketen beheerder.
Wat betreft die "Signing key" en "Fingerprint", die hebben te makken met deze ppa.
Meer hoef je niet te doen.

Ik ben een voorstander van Synaptic pakketten beheerder...
Als je Synaptic opstart en naar tesseract-ocr zoekt..
Zal je hiervoor een uitroepteken zien ipv een groen blokje.
Er zal ook een verschil zijn tussen de ge-installeerde versie (*buntu) en de update versie  (ppa-versie).
Aanklikken rechtermuis en update.
Hierna zal gImageReader netjes opstarten zonder die foutmelding.

MvG,
MauRice
Registered Linux user: 473556

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #13 Gepost op: 2014/08/15, 16:22:53 »
Citaat
Als je Synaptic opstart en naar tesseract-ocr zoekt..
Zal je hiervoor een uitroepteken zien ipv een groen blokje.
Ik zie een groen blokje, geen uitroepteken. Zie screenshot van mijn Synaptic Pakket Beheerder hierbij

Citaat
Er zal ook een verschil zijn tussen de ge-installeerde versie (*buntu) en de update versie  (ppa-versie).
wat voor verschil zou ik moeten zien?

Citaat
Aanklikken rechtermuis en update.
Als ik met rechtermuis klik, zie ik geen optie Update, maar diverse opties voor Markeren. Bij Eigenschappen zie ik o.a. welke versie van Tesseract ik heb.

Re: OCR programma gezocht
« Reactie #14 Gepost op: 2014/08/15, 16:55:43 »
Molly,

Kijks eens ook bij de bijbehorende bibliotheek libtesseract3.
Daarin staat een sterretje bij jouw, en de ge-installeerde versie (tweede kolom) geef 3.02.01-2
Daarnaast staat de versie van deze ppa: 3.02.02-1~preciseppa4 (derde kolom).
Updaten is de boodschap.

MvG,
MauRice
Registered Linux user: 473556

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #15 Gepost op: 2014/08/15, 19:26:43 »
Maurice

Gelukt!! Ik kan nu gaan oefenen met gimagereader.
Ik verwachtte eerlijk gezegd dat na "markeren voor opwaarderen" (ik had eerst niet door dat dit nederlands is voor updaten :) ) de update meteen zou starten. Ik zag toen dat ik links "toepassen" moest kiezen, maar toen ging alles gesmeerd.
Dank voor tips.
« Laatst bewerkt op: 2014/08/15, 19:29:24 door molly w »

Re: OCR programma gezocht
« Reactie #16 Gepost op: 2014/08/15, 19:33:35 »
Maurice

Gelukt!! Ik kan nu gaan oefenen met gimagereader.
Ik verwachtte eerlijk gezegd dat na "markeren voor opwaarderen" (ik had eerst niet door dat dit nederlands is voor updaten :) ) de update meteen zou starten. Ik zag toen dat ik links "toepassen" moest kiezen, maar toen ging alles gesmeerd.
Dank voor tips.

Geen dank, Molly
Graag gedaan.
MvG,
MauRice
Registered Linux user: 473556

Offline Henkp

  • Lid
Re: OCR programma gezocht
« Reactie #17 Gepost op: 2014/08/15, 20:28:19 »
@molly, een kleine tip als je met gimagereader gaat werken, let er dan op dat je scanner op 300 dpi staat ingesteld.
Bij mij stond hij automatisch op 600 dpi met Linux Mint 17 Cinnamon en daar deed hij niets, tot ik het veranderde naar 300 dpi en toen ging hij als een speer.

Maar op Ubuntu 14.04.1 heb ik daar totaal geen last van en daar had ik het ook het eerst geïnstalleerd vandaar dat ik vreemd op keek dat het in Mint 17 niet werkte. En alle twee op de zelfde computer met als dual-boot Win7 met 4 Gig geheugen er in.

En wat ik al eerder schreef hier op dit forum een kranten knipsel met foto en tekst is waardeloos dat is gewoon onbruikbaar.
Maar als je dus een a4 pagina heb met gewone tekst en een paar kleine afbeeldingen dan is het vrij goed, ik durf bijna te zeggen net zo goed als Omipage 14.

Veel succes er mee, en fijn dat het nu wel werkt.

Offline molly w

  • Lid
Re: OCR programma gezocht
« Reactie #18 Gepost op: 2014/08/16, 10:12:13 »
@molly, een kleine tip als je met gimagereader gaat werken, let er dan op dat je scanner op 300 dpi staat ingesteld.
Bij mij stond hij automatisch op 600 dpi met Linux Mint 17 Cinnamon en daar deed hij niets, tot ik het veranderde naar 300 dpi en toen ging hij als een speer.

Maar op Ubuntu 14.04.1 heb ik daar totaal geen last van en daar had ik het ook het eerst geïnstalleerd vandaar dat ik vreemd op keek dat het in Mint 17 niet werkte. En alle twee op de zelfde computer met als dual-boot Win7 met 4 Gig geheugen er in.

En wat ik al eerder schreef hier op dit forum een kranten knipsel met foto en tekst is waardeloos dat is gewoon onbruikbaar.
Maar als je dus een a4 pagina heb met gewone tekst en een paar kleine afbeeldingen dan is het vrij goed, ik durf bijna te zeggen net zo goed als Omipage 14.

Veel succes er mee, en fijn dat het nu wel werkt.

heb zojuist op proef een tekst gescand (A4, tekst, schreefloze letter, gelaserprint) met 150 dpi. tekst kwam vrijwel foutloos over! Moest wel even zoeken hoe gimagereader werkt (vind het menu niet zo duidelijk).
Maar mijn testpagina was natuurlijk wel totaal iets anders dan een krantenknipsel - de achtergrond daarvan is sowieso al donker, dus dan zou je eerst de afbeelding met Gimp kunnen bewerken (meer contrast en zo0, maar dan nog ...)

Offline Henkp

  • Lid
Re: OCR programma gezocht
« Reactie #19 Gepost op: 2014/08/16, 13:55:58 »
@molly, een kleine tip als je met gimagereader gaat werken, let er dan op dat je scanner op 300 dpi staat ingesteld.
Bij mij stond hij automatisch op 600 dpi met Linux Mint 17 Cinnamon en daar deed hij niets, tot ik het veranderde naar 300 dpi en toen ging hij als een speer.

Maar op Ubuntu 14.04.1 heb ik daar totaal geen last van en daar had ik het ook het eerst geïnstalleerd vandaar dat ik vreemd op keek dat het in Mint 17 niet werkte. En alle twee op de zelfde computer met als dual-boot Win7 met 4 Gig geheugen er in.

En wat ik al eerder schreef hier op dit forum een kranten knipsel met foto en tekst is waardeloos dat is gewoon onbruikbaar.
Maar als je dus een a4 pagina heb met gewone tekst en een paar kleine afbeeldingen dan is het vrij goed, ik durf bijna te zeggen net zo goed als Omipage 14.

Veel succes er mee, en fijn dat het nu wel werkt.

heb zojuist op proef een tekst gescand (A4, tekst, schreefloze letter, gelaserprint) met 150 dpi. tekst kwam vrijwel foutloos over! Moest wel even zoeken hoe gimagereader werkt (vind het menu niet zo duidelijk).
Maar mijn testpagina was natuurlijk wel totaal iets anders dan een krantenknipsel - de achtergrond daarvan is sowieso al donker, dus dan zou je eerst de afbeelding met Gimp kunnen bewerken (meer contrast en zo0, maar dan nog ...)

Tja dan nog blijft het behelpen, maar beter wat dan niets, denk ik dan maar.
En voor die enkele keer dat ik het echt nodig heb dan start ik maar Win7 op.  :o