Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: PDF naar bewerkbare tekst > Writer  (gelezen 4027 keer)

Offline vragen

  • Lid
PDF naar bewerkbare tekst > Writer
« Gepost op: 2013/10/10, 15:59:39 »
http://www.filedump.net/dumped/overlastmosquitomeldingpolitie1381234674.pdf

Bovenstaande document wilde ik graag laten omzetten naar een bewerkbare tekst. Is dit wel mogelijk met deze ingescande PDF? Ik heb via internet een programma geprobeerd. Die zet het wel om naar doc bestand maar dan kun je de tekst alsnog niet bewerken! Bovenstaande PDF komt volgens mij niet in de zoekresultaten van Google terecht?

Re: PDF naar bewerkbare tekst > Writer
« Reactie #1 Gepost op: 2013/10/10, 17:45:36 »
Hallo, dat zijn inderdaad scans, enige mogelijkheid (*) is om er een OCR-program op los te laten, er zitten er een paar in de repo's.

(*) Of overtypen natuurlijk.

Re: PDF naar bewerkbare tekst > Writer
« Reactie #2 Gepost op: 2013/10/10, 20:09:57 »
Je kunt vanuit het Softwarecentrum Master PDF Editor installeren en daarmee de PDF bewerken.

Offline vragen

  • Lid
Re: PDF naar bewerkbare tekst > Writer
« Reactie #3 Gepost op: 2013/10/10, 20:43:49 »
Ik heb het idee dat met de simpele scanner in Ubuntu het zodanig heeft gescand dat het sowieso niet te bewerken valt? Normaliter kan ik de tekst selecteren en kopiƫren?

Re: PDF naar bewerkbare tekst > Writer
« Reactie #4 Gepost op: 2013/10/10, 21:17:58 »
Het is belangena nog niet de kwaliteit van ABBYY maar het is te doen.
Voor dit scriptje heb je nodig:
gs (zit in ghostscript)
tesseract (zit in tesseract-ocr)
hocr2pdf (zit in exactimage)
pdftoppm (zit in poppler-utils)
Hoe nieuwer de versie hoe beter het werkt.

En nu het script:
http://users.telenet.be/x86_64/Scripts/OCRed

Sla deze op in je home-bin map, vb OCRed
En maak die uitvoerbaar.

In de map waar de PDF's staan via een terminal het script oproepen.
OCRed

En heeft zijn tijd nodig hoeveel en hoe groot de PDF's zijnin deze map.
Eens klaar staat de PDF's met OCR herkenning in een sub-map ./OCRed/...

Ga naar deze map met pdftotext (zit ook poppler-utils) maak je er een text-bestandje ervan.
Ook via de terminal:
pdftotext -layout <pdf-bestand>

Veel plezier ermee.
MvG,
MauRice
Registered Linux user: 473556

Re: PDF naar bewerkbare tekst > Writer
« Reactie #5 Gepost op: 2013/10/11, 10:32:13 »
Je kunt vanuit het Softwarecentrum Master PDF Editor installeren en daarmee de PDF bewerken.
Dit moet je aanschaffen met o,oo dollar met Ubuntu One.Maar die accepteert mijn emailadres niet!! :o
Doe rustig aan,ben ik ook de hele dag druk mee.

Re: PDF naar bewerkbare tekst > Writer
« Reactie #6 Gepost op: 2013/10/11, 12:43:17 »
Op ingescande PDF's zal volgens mij geen enkele editor kunnen bewerken.
Het zijn immers 'plaatjes', deze hebben geen onderliggende tekst-laag.

Je zal ze eerst door een OCR progje moeten laten lopen.
ABBYY is wel de beste en dan heb je ook Adobe Pro.
Maar deze kosten nu eenmaal geld.

Maak je een PDF vanuit een applicatie, dan zit er die onderliggende tekst-laag in.
Maw, dit zijn dus PDF's waarvan je de tekst kan selecteren, kopieren en ergens anders plakken.
Deze PDF's zijn wel te bewerken met Mater pdf editor.

MvG,
MauRice
Registered Linux user: 473556

Re: PDF naar bewerkbare tekst > Writer
« Reactie #7 Gepost op: 2013/10/12, 00:02:43 »
ik zie hem helemaal niet staan in het softwarecentrum. :o

even gegoogled: https://apps.ubuntu.com/cat/applications/master-pdf-editor/
maar het opent nergens mee.

dus hier een handleiding hoe te installeren: http://linuxg.net/how-to-install-master-pdf-editor-1-9-on-ubuntu-linux-mint-debian-fedora-opensuse-and-many-other-linux-systems/

Edit: uitgeprobeerd en het werkt! Dus Lowlands, doe het op deze manier en je hebt de Mater pdf editor.
Dan werkt het beter bij jou dan bij mij!Ik zie onder elke regel die ik gekopieerd heb dat de opdracht niet is gevonden in de terminal.Nou heb ik dat allemaal in 1 keer gekopieerd en geplakt,of moet je dat per regel doen?
Doe rustig aan,ben ik ook de hele dag druk mee.

Re: PDF naar bewerkbare tekst > Writer
« Reactie #8 Gepost op: 2013/10/12, 00:15:46 »
Regel voor regel lijkt me beter.

Re: PDF naar bewerkbare tekst > Writer
« Reactie #9 Gepost op: 2013/10/12, 10:53:24 »
Jaja mevrouw! =D
Hij is geinstalleerd!Dank,dank!
Doe rustig aan,ben ik ook de hele dag druk mee.

Re: PDF naar bewerkbare tekst > Writer
« Reactie #10 Gepost op: 2013/10/12, 13:44:26 »
Een kantenklare progje die een ingescande PDF een OCRed PDF maak is...
PDFSandwich -> http://www.tobias-elze.de/pdfsandwich/
Het maak gebruik van de zelfde progjes als het script dat ik eerder meegaf.

MvG,
MauRice
Registered Linux user: 473556

Offline vragen

  • Lid
Re: PDF naar bewerkbare tekst > Writer
« Reactie #11 Gepost op: 2013/10/15, 18:31:02 »
Een kantenklare progje die een ingescande PDF een OCRed PDF maak is...
PDFSandwich -> http://www.tobias-elze.de/pdfsandwich/
Het maak gebruik van de zelfde progjes als het script dat ik eerder meegaf.

Ik snap niet hoe ik dat moet installeren? Ik kom in diverse mappen terecht?

Er is ook programma op het internet: http://www.onlineocr.net/default.aspx < alleen doet de eerste pagina....
« Laatst bewerkt op: 2013/10/15, 18:41:15 door vragen »

Re: PDF naar bewerkbare tekst > Writer
« Reactie #12 Gepost op: 2013/10/16, 08:04:16 »
Vragen,

Download de juiste deb-bestand versie 0.0.8,
amd64 voor een 64bits systeem, i386 voor een 32bits systeem.

Als via een verkenner op dubbelclick zal de 'Software Installer' de rest voor u doen.

In is een terminal progje dus ......
Eens ge-installeerd zal je via een terminal moeten werken.
pdfsandwich <bestand.pdf>

De uitkomst wordt dan <bestand_ocr.pdf> waarin de onderliiggende tekst-laag in zit.
De kwaliteit van ocr herkenning hangt ook af van de kwaliteit van de pdf.
MvG,
MauRice
Registered Linux user: 473556