Nieuws:

We zijn er weer.

Na lange tijd van afwezigheid zijn we er weer  :laugh:
We hebben alle wachtwoorden gereset, je oude wachtwoord werkt niet meer.Je moet via het "wachtwoord vergeten"-linkje je wachtwoord resetten. Je krijgt hiervoor een mailtje op het adres dat je bij ons geregistreerd hebt.

De komende tijd zijn we nog druk bezig om de rest van de site op te bouwen, dus het kan zijn dat sommige onderdelen (tijdelijk) niet werken.

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: PDF naar bewerkbare tekst > Writer  (gelezen 3126 keer)

Offline vragen

  • Lid
  • Steunpunt: Nee
PDF naar bewerkbare tekst > Writer
« Gepost op: 2013/10/10, 15:59:39 »
http://www.filedump.net/dumped/overlastmosquitomeldingpolitie1381234674.pdf

Bovenstaande document wilde ik graag laten omzetten naar een bewerkbare tekst. Is dit wel mogelijk met deze ingescande PDF? Ik heb via internet een programma geprobeerd. Die zet het wel om naar doc bestand maar dan kun je de tekst alsnog niet bewerken! Bovenstaande PDF komt volgens mij niet in de zoekresultaten van Google terecht?

Offline Paul Matthijsse

  • Lid
  • Steunpunt: Ja
Re: PDF naar bewerkbare tekst > Writer
« Reactie #1 Gepost op: 2013/10/10, 17:45:36 »
Hallo, dat zijn inderdaad scans, enige mogelijkheid (*) is om er een OCR-program op los te laten, er zitten er een paar in de repo's.

(*) Of overtypen natuurlijk.

Offline Vistaus

  • Webteam
    • vistaus
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #2 Gepost op: 2013/10/10, 20:09:57 »
Je kunt vanuit het Softwarecentrum Master PDF Editor installeren en daarmee de PDF bewerken.

Offline vragen

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #3 Gepost op: 2013/10/10, 20:43:49 »
Ik heb het idee dat met de simpele scanner in Ubuntu het zodanig heeft gescand dat het sowieso niet te bewerken valt? Normaliter kan ik de tekst selecteren en kopiƫren?

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #4 Gepost op: 2013/10/10, 21:17:58 »
Het is belangena nog niet de kwaliteit van ABBYY maar het is te doen.
Voor dit scriptje heb je nodig:
gs (zit in ghostscript)
tesseract (zit in tesseract-ocr)
hocr2pdf (zit in exactimage)
pdftoppm (zit in poppler-utils)
Hoe nieuwer de versie hoe beter het werkt.

En nu het script:
http://users.telenet.be/x86_64/Scripts/OCRed

Sla deze op in je home-bin map, vb OCRed
En maak die uitvoerbaar.

In de map waar de PDF's staan via een terminal het script oproepen.
OCRed

En heeft zijn tijd nodig hoeveel en hoe groot de PDF's zijnin deze map.
Eens klaar staat de PDF's met OCR herkenning in een sub-map ./OCRed/...

Ga naar deze map met pdftotext (zit ook poppler-utils) maak je er een text-bestandje ervan.
Ook via de terminal:
pdftotext -layout <pdf-bestand>

Veel plezier ermee.
MvG,
MauRice
Registered Linux user: 473556

Offline Lowlands

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #5 Gepost op: 2013/10/11, 10:32:13 »
Je kunt vanuit het Softwarecentrum Master PDF Editor installeren en daarmee de PDF bewerken.
Dit moet je aanschaffen met o,oo dollar met Ubuntu One.Maar die accepteert mijn emailadres niet!! :o
Doe rustig aan,ben ik ook de hele dag druk mee.

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #6 Gepost op: 2013/10/11, 12:43:17 »
Op ingescande PDF's zal volgens mij geen enkele editor kunnen bewerken.
Het zijn immers 'plaatjes', deze hebben geen onderliggende tekst-laag.

Je zal ze eerst door een OCR progje moeten laten lopen.
ABBYY is wel de beste en dan heb je ook Adobe Pro.
Maar deze kosten nu eenmaal geld.

Maak je een PDF vanuit een applicatie, dan zit er die onderliggende tekst-laag in.
Maw, dit zijn dus PDF's waarvan je de tekst kan selecteren, kopieren en ergens anders plakken.
Deze PDF's zijn wel te bewerken met Mater pdf editor.

MvG,
MauRice
Registered Linux user: 473556

Offline Lowlands

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #7 Gepost op: 2013/10/12, 00:02:43 »
ik zie hem helemaal niet staan in het softwarecentrum. :o

even gegoogled: https://apps.ubuntu.com/cat/applications/master-pdf-editor/
maar het opent nergens mee.

dus hier een handleiding hoe te installeren: http://linuxg.net/how-to-install-master-pdf-editor-1-9-on-ubuntu-linux-mint-debian-fedora-opensuse-and-many-other-linux-systems/

Edit: uitgeprobeerd en het werkt! Dus Lowlands, doe het op deze manier en je hebt de Mater pdf editor.
Dan werkt het beter bij jou dan bij mij!Ik zie onder elke regel die ik gekopieerd heb dat de opdracht niet is gevonden in de terminal.Nou heb ik dat allemaal in 1 keer gekopieerd en geplakt,of moet je dat per regel doen?
Doe rustig aan,ben ik ook de hele dag druk mee.

Offline erik1984

  • Lid
    • erik1984
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #8 Gepost op: 2013/10/12, 00:15:46 »
Regel voor regel lijkt me beter.

Offline Lowlands

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #9 Gepost op: 2013/10/12, 10:53:24 »
Jaja mevrouw! =D
Hij is geinstalleerd!Dank,dank!
Doe rustig aan,ben ik ook de hele dag druk mee.

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #10 Gepost op: 2013/10/12, 13:44:26 »
Een kantenklare progje die een ingescande PDF een OCRed PDF maak is...
PDFSandwich -> http://www.tobias-elze.de/pdfsandwich/
Het maak gebruik van de zelfde progjes als het script dat ik eerder meegaf.

MvG,
MauRice
Registered Linux user: 473556

Offline vragen

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #11 Gepost op: 2013/10/15, 18:31:02 »
Een kantenklare progje die een ingescande PDF een OCRed PDF maak is...
PDFSandwich -> http://www.tobias-elze.de/pdfsandwich/
Het maak gebruik van de zelfde progjes als het script dat ik eerder meegaf.

Ik snap niet hoe ik dat moet installeren? Ik kom in diverse mappen terecht?

Er is ook programma op het internet: http://www.onlineocr.net/default.aspx < alleen doet de eerste pagina....
« Laatst bewerkt op: 2013/10/15, 18:41:15 door vragen »

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: PDF naar bewerkbare tekst > Writer
« Reactie #12 Gepost op: 2013/10/16, 08:04:16 »
Vragen,

Download de juiste deb-bestand versie 0.0.8,
amd64 voor een 64bits systeem, i386 voor een 32bits systeem.

Als via een verkenner op dubbelclick zal de 'Software Installer' de rest voor u doen.

In is een terminal progje dus ......
Eens ge-installeerd zal je via een terminal moeten werken.
pdfsandwich <bestand.pdf>

De uitkomst wordt dan <bestand_ocr.pdf> waarin de onderliiggende tekst-laag in zit.
De kwaliteit van ocr herkenning hangt ook af van de kwaliteit van de pdf.
MvG,
MauRice
Registered Linux user: 473556