Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: XSane, hoe krijg ik de tekst ingescand en kan ik deze in oOOwriter gebruiken?  (gelezen 3980 keer)

Ik heb net een bladzijde met getypte tekst en een plaatje ingescand nu kan ik deze opslaan als jpg o.i.d. Maar hoe kan ik nu de scan opslaan zodat ik de tekst bewerken in oOO writer? Ik heb al iets geprobeerd met OCR, maar dan doe ik waarschijnlijk iets niet goed qua instelling.
In der Beschränkung zeigt sich der Meister.

Offline ivo

  • Lid
Misschien kun je hier wat mee.


http://ubuntuforums.org/showthread.php?t=99583



inaninck@LT9:~$ apt-cache search gocr
fuzzyocr - spamassassin plugin to check image attachments
fuzzyocr3 - spamassassin plugin to check image attachments
gocr - A command line OCR
gocr-tk - A tcl/tk wrapper around gocr
inaninck@LT9:~$
There are only 10 types of people in the world; those who understand binary and those who don't.

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Je zegt dat je een document inscant als jpg. Dit is een formaat die voor afbeeldingen gebruikt wordt. Ik denk dat je het moet opslaan als een post script bestand en dat je die dan moet importeren in OpenOffice. Je kan het proberen.
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline ivo

  • Lid
Ik heb hier zojuist een HP ScanJet 5400c geïnstalleerd. Stond nog nieuw in doos van Sinterklaas  ^-^
Ik heb ook gocr geïnstalleerd maar het geeft nog niet het beoogde resultaat.

Van (zie screen shot) maakt ie;

inaninck@LT9:~$ cat out.txt
'  /  R
,r  v
/ z r 5/ o
inaninck@LT9:~$      
There are only 10 types of people in the world; those who understand binary and those who don't.

Offline ivo

  • Lid
Je zegt dat je een document inscant als jpg. Dit is een formaat die voor afbeeldingen gebruikt wordt. Ik denk dat je het moet opslaan als een post script bestand en dat je die dan moet importeren in OpenOffice. Je kan het proberen.

Ik kan niet vinden hoe je de out.ps postscript dokument importeert in OO.
Wanneer ik het echter open in OO dan krijg ik 147 pagina's van dit soort crap.

_UON[.eGDu(%f)&9+J<[7MdS+4=fSf!cSP/*7?4h
FKMDL'%f]^^G?5R$lE;>@A9\JoEWSX/]T2*F!p+2
ETPCeMYbD3Qj5-s64Cb@CsoE>>3naIe@9O&9_'T0
g7&;cBb:rZ.jlo46HcaO*8.ug;VFNAiER3t->99l
:lqb*LlH'&86S"cL&rO@&:B'Jp45HS)9]$@HFCs-
^8R-n<c*>:7UrJ=_0i9"9RP3UAGo%p@<94UCUEOI
[3tcTHhb7u!)fC&)PbUBcB[lC47Zo>adS>IF`-hi
V2+bW4KQ=)![\bOOj)Rif#I?Z:Rf4]c`4CqT*BBJ
Ei10pf#d'H14rk4P0dsMSan7cJh"%]VWZ)["T[+n
oH`DS$uW@nIS;)nm[S0*?F_D%6r'oOC_26J1F0bp
/6eT31K.s+a"0,9_\#hdSCh%dL/-,,:O1$X+Tmk4
QV34@Vlt)$(ipRLfMkSULu)"s+@+4JR7&Y/D3A=f
P9QEn3r'Im*C_+#a9dp*TrPqQ3V[I^W!7W`!fa-d
CWN.BmPp?0MWV.U5,7Upk-k;:b=DT0+6s!LdX<-1
k0&L&0cIBu[3[=K$MPhZp;7-sel5O2IW1ZZ:`1/N
>VDX<JI7R1*'?&K%f=([%WKV38LIuE(?B766=IHa
:puu=mjs#H@OsK*k+X+!92k5,bL9K>ibY`>8*[/e
C;uB)j0H9''l-N-<_ug6ENc(fd;UumU2R!(5^q*'
>8k%PJJPf-!L<q_,/0>0HZgs<`[iBILYErJ2*WHt
91:rIV8!0lm-GU'.EkEP^5nLpXAkODVUdmlTNGhd
dW42U:f_GN8su>a:Meu]mF3:?\gmr.V_am#'5>ci
lrTfa7ZA_IOl]%&,7Rr?PX\[qk)SU\KS&u5"(bWo
XeC\EAus!$QkVN8@ckah^RZc&I^8)+n.ob7"`%q5
4N/$%jh_#DE#\Hc[ZkoP$<Pc<VPtehI%)j49A_ui
Yq=,BaC`dE?*ZQQN!MRU9<4RE6ZV=NP%rHi!p\Q[
A;ncm>u&i+_2;",(.9staO/O6NW^OUWWV-hfhCuW
nU]9N4Crb/lB3Mb6:7^1Q.?ZN^`XH.%@Z!-7QMT]
g.O_fW(Juf8st\(=JX<-<$e2QL;g9Ij97mt^Anll
rbS,kmV.Qq%"=3M`qT%icebcq8<'oL=h$i8NkC*C
PFKCAec)eU9]S<i(7bHDQ*;]1GI"?1G>30N=Y%sl
UQI1:cd^D3`6mRbHCeXC'ckc")N=e%FjMhd3Gm:i

There are only 10 types of people in the world; those who understand binary and those who don't.

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Ok, dat werkt dus niet. Dan zal je es moeten vergelijken welke bestandstypes als uitvoer staan in Xsane en welke OpenOffice kan importeren.
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Heb je in xsane niet de mogelijkheid om ingescande documenten direct door te sturen naar een externe programma zoals OpenOffice?
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline HarzG

  • Lid
Re: OCRopus?
« Reactie #7 Gepost op: 2010/08/06, 23:30:42 »
Ik heb net een bladzijde met getypte tekst en een plaatje ingescand nu kan ik deze opslaan als jpg o.i.d. Maar hoe kan ik nu de scan opslaan zodat ik de tekst bewerken in oOO writer? Ik heb al iets geprobeerd met OCR, maar dan doe ik waarschijnlijk iets niet goed qua instelling.
Met Synaptic heb ik OCRopus gevonden - niet getest. Als dat wat is, zou ik het graag van je willen horen.
Xubuntu 20.04; siduction-15.1.0 Xfce

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Welke versie van Ubuntu gebruik je? In 10.04 zit xsane niet meer standaard erin, maar is vervangen door een andere programma.
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline ivo

  • Lid
Ok, dat werkt dus niet. Dan zal je es moeten vergelijken welke bestandstypes als uitvoer staan in Xsane en welke OpenOffice kan importeren.

op dit moment heb ik alleen de 4 opties;

Save image
OCR - save as text
Clone
Close


There are only 10 types of people in the world; those who understand binary and those who don't.

Offline ivo

  • Lid
Welke versie van Ubuntu gebruik je? In 10.04 zit xsane niet meer standaard erin, maar is vervangen door een andere programma.

Ik draai de 10.04. Weet je wat dat andere programma is?
There are only 10 types of people in the world; those who understand binary and those who don't.

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Ben niet thuis nu. Zit via mijn Blackberry te pielen hier. Maar als je 10.04 hebt moet die programma standaard geinstalleerd zijn en te vinden onder Toepassingen > Grafisch. Scannen ofzo heet het. Het moet daar tussen staan.
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline ivo

  • Lid
Ben niet thuis nu. Zit via mijn Blackberry te pielen hier. Maar als je 10.04 hebt moet die programma standaard geinstalleerd zijn en te vinden onder Toepassingen > Grafisch. Scannen ofzo heet het. Het moet daar tussen staan.

Simple Scan staat geïnstalleerd. Zal daar straks eens naar kijken.
There are only 10 types of people in the world; those who understand binary and those who don't.

Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
Ben niet thuis nu. Zit via mijn Blackberry te pielen hier. Maar als je 10.04 hebt moet die programma standaard geinstalleerd zijn en te vinden onder Toepassingen > Grafisch. Scannen ofzo heet het. Het moet daar tussen staan.

Simple Scan staat geïnstalleerd. Zal daar straks eens naar kijken.

Juist Simple-scan heet het programma. Xsane is vanaf Ubuntu versie 10.04 vervangen door Simple-scan.
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Offline ivo

  • Lid
Juist Simple-scan heet het programma. Xsane is vanaf Ubuntu versie 10.04 vervangen door Simple-scan.

Da's wel een héél erg uitgeklede applicatie t.o.v. XSane. Hoe kunnen ze dat nou een vervanger noemen.
Nou ja, je kan het natuurlijk altijd een vervanger noemen, maar dan verwacht ik toch wel een functioneel
volwaardige vervanger.
There are only 10 types of people in the world; those who understand binary and those who don't.

Dag Nomko en Ivo, even snel een berichtje. Alvast bedankt voor de antwoorden. Helaas moet ik zo al weer weg en heb ik vanavond pas tijd om het een en ander uit te proberen.
In der Beschränkung zeigt sich der Meister.


Offline nomko

  • Lid
    • Ubuntu Linux Gebruiker Site
@Gijsbert: je kan het ook zo bekijken. Degene die moeite hadden mnet het losse menu structuur van Xsane met de vele instelmogelijkheden hebben nu een veel simpele en eenvoudige te bedienen programma.  
Handige site voor de Ubuntu gebruiker:
https://sites.google.com/site/ubuntulinuxgebruiker
-------------------------
https://www.dropbox.com/referrals/NTQ4MzUwNDc5
-------------------------
Linux user number 515471
----------------------

Inmiddels het een en ander geprobeerd.
Gocr had ik al geïnstalleerd en krijg ook die "onzin" zoals Ivo schrijft. Op deze site kwam ik daarover iets tegen http://blog.bigsmoke.us/2010/02/02/linux-ocr Op deze site ook nog iets over OCR http://www.linux.com/archive/feature/138511 maar dat lijkt mij weer omslachtig. Ik kwam ook tegen dat de resolutie 400 of hoger moet zijn voor een beter resultaat met OCR.
In oOO writer kan ik alleen plaatjes inscannen.
Ik ben nu bezig met gscan2pdf, zit in Synaptic, hier ben ik nog niet helemaal uit, qua bewerken. Het scannen gaat wel goed, bij OCR kan ik ook kiezen voor Tesseract met Nederlandse taalherkening, ook hier heb ik nog geen resultaat gehad.
Ik ga nu even de link doorspitten van Thomas.

Edit: met gscan2pdf en gebruik van Tesseract dit resultaat:
1e file is de orginele tekst, 2e file is met OCR  Dus nog niet perfect maar het begint ergens op te lijken, misschien nog een hogere resolutie bij het scannen?

P.S. Ik lees dit niet, mocht je dat denken, XD mijn vrouw is lerares op een internationale basisschool.
« Laatst bewerkt op: 2010/08/07, 20:08:54 door Gijsbert »
In der Beschränkung zeigt sich der Meister.

Ooit ben ik hier een topic begonnen omtrend tesseract ocr. Gelukkig heeft iemand mij toen een veel beter alternatief gegeven. Maar toch ... Onder Windows heb ik nog gewerkt (en werk ik nog) met ABBYY Finereader. Voor ocr is dit volgens mij het best aangewezen programma. Er bestaat een Linux versie van, maar met deze heb ik nog nooit gewerkt. Voor MS zitten ze ondertussen reeds aan versie 10. Zelf werk ik nog met de versie 7. Ooit heb ik ook nog met de versie 9 gewerkt en er was een duidelijke vooruitgang geboekt. Succes er mee!  ;)

Offline Bertel

  • Lid
Sorry voor de late reactie.
Voor mij werkt onderstaande ook voor de volle 100% en is heel eenvoudig.


Installatie
1. Zoekterm in Ubuntu softwarecentrum : ocr
2. Kies: Command line OCR tool tesseract-ocr en installeren
3. Daarna: tesseract-ocr language files for Dutch text en installeren
 
OCR wordt geïnstalleerd in /user/share met daarin tessdata

Gebruik
1. Instelling bij Toepassingen, Grafisch, Scannen (=Simple Scan): Document--> Scannen--> Foto (:geeft gewenste dpi.)
2. Inscannen
3. Bijsnijden
4. Opslaan in /home/bert als document.tif (met één f)
5. Commando ingeven in terminal:
tesseract /home/bert/document.tif /home/bert/output -l nld

Opmerking:
de toevoeging ' -l nld ' verhoogt de correctheid.
« Laatst bewerkt op: 2010/08/11, 01:53:43 door Bertel »


Wat is vrije software?

tesseract-ocr had ik al geïnstalleerd met Nederlandse tekst herkenning.
Ik heb voor de rest het nog uitgetest zoals je verder beschrijft, met handgeschreven tekst, dit wordt helemaal niet herkent bij mij.
Met gedrukte tekst gaat het een stuk beter, echt 100% is het nog niet, maar beter dan via gscan2pdf ondanks dat deze ook gebruik maakt van tesseract. Beetje vreemd?

Wat ABBYY Finereader betreft, ik heb de CLI versie gedownload, bij alle andere downloads moest je je hele doopceel opgeven, daar hou ik niet van.
Zelfs bij de firma zelf, en de prijzen worden ook niet vermeld, raar?
In der Beschränkung zeigt sich der Meister.

Offline Bertel

  • Lid
Inderdaad Gijsbert, handgeschreven tekst is mij nog never nooit gelukt.  ;)

Wat Abbyy CLI betreft, lijkt veelbelovend (i.i.g. voor de ervaren terminalgebruiker).
Ben benieuwd naar jouw mening.


Wat is vrije software?

Met handgeschreven tekst gaat het moeilijker. In de versie 7 van ABBYY Finereader (draaiende onder MS software) kan men een lettertype (font) kiezen om de tekstherkenning in uit te voeren. Er zijn/waren enkele honderden fonts die een handgeschreven tekst nabootsen. Als je toevallig op een lettertype stoot die zeer dicht bij de handgeschreven tekst aanleunt, haal je (naar mijn bescheiden mening) een zeer goed resultaat. Men kan ook zelf een lettertype gaan maken, maar dit lijkt mij toch al iets omslachtiger?  O0

Offline KeesS

  • Lid
Ik heb net een bladzijde met getypte tekst en een plaatje ingescand nu kan ik deze opslaan als jpg o.i.d. Maar hoe kan ik nu de scan opslaan zodat ik de tekst bewerken in oOO writer? Ik heb al iets geprobeerd met OCR, maar dan doe ik waarschijnlijk iets niet goed qua instelling.

Gijsbert,
excuses als dit een domme opmerking is van een oude man.
Iemand heeft mij eens uitgelegd en voorgedaan hoe ik gescande tekst kon opslaan om te bewerken.
Het is lang geleden en ik weet niet meer hoe het precies het werkte.

Het vreemde (voor mij) was, dat je de tekst niet moest opslaan, maar "afdrukken".
En dan kiezen voor een *.pdf-bestand of een pdf-printer o.i.d.
Dan werd een bestand aangemaakt wat je kon lezen en/of bewerken met Adobe Reader. (meen ik)

Nogmaals hij heeft het me voorgedaan en het werkte, maar sorry als mijn uitleg niet geheel juist is.
Het is lang geleden en mijn geheugen laat wel eens wat te wensen over helaas.



VrGr,.....KeesS

alle hulp is welkom, maar graag  Nederlands; ik ken geen Engels.
ben 84 jaar,  te oud om dat nog te leren; Linux is al moeilijk genoeg