Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: [OPGELOST]Omzetten pdf naar .doc  (gelezen 5404 keer)

[OPGELOST]Omzetten pdf naar .doc
« Gepost op: 2011/10/20, 13:38:24 »
Ik heb een tekstbestand gescand en opgeslagen als pdf. Vervolgens had ik de illusie dat ik die tekst zou moeten kunnen selecteren in de pdf, zou kunnen plakken in LibreOffice waarna ik het zou kunnen opslaan als odt of .doc.
Helaas kan ik geen tekst selecteren in de pdf. Ook is er bij mijn libreoffice niet zoiets als pdf-importeren te vinden.
Ik gebruik LibreOffice 3.3 op Ubuntu 10.04
Doe ik ergens iets fout?
« Laatst bewerkt op: 2011/10/20, 22:29:17 door laacque »
Als je in de breedte groeit,||groei je dan ook in de diepte?

Offline Roc.am

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #1 Gepost op: 2011/10/20, 14:59:05 »
Als je een scan maakt, is het als een plaatje.
Als je met LO er pdf van maakt, zou het wel als tekst te selecteren zijn in je pdf.
Je kunt wel ocr gebruiken (tekst herkenning).
Deze zit o.a. in gscan2pdf.
Deze zou er wel wel tekst van kunnen maken.

- Roc

Re: Omzetten pdf naar .doc
« Reactie #2 Gepost op: 2011/10/20, 15:15:52 »
Klik hier om de PDF import plugin te downloaden (Alleen nog naar onder scrollen, en naast Linux op 'GET IT' klikken)

Dan open je LibreOffice Writer -> Extra -> extensiebeheer.

In dat kadertje duw je op toevoegen of zoiets, je navigeert naar de plugin die je gedownload hebt -> ok.

Enjoy!

Re: Omzetten pdf naar .doc
« Reactie #3 Gepost op: 2011/10/20, 17:39:51 »
Ik krijg een foutmelding. Ik gebruik 11.10

Gr Ruud

Offline vanadium

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #4 Gepost op: 2011/10/20, 18:12:28 »
Het gepaste antwoord op de vraag is dat van Roc.am.

Offline Wout55

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #5 Gepost op: 2011/10/20, 18:24:12 »
Misschien toch nog wat verduidelijken. Als je een tekst scant heb je een plaatje, een foto van de tekst. Die kan je in verschillende formats bewaren maar daarmee is het nog geen tekst. Het blijft een foto. Alleen met een OCR (tekstherkenningsprogramma) kan je dat weer in een tekstbestand omzetten. Maar dat lukt ook niet zomaar.
Een pdf bestand van een tekst is een printbestand van teksten. Dit is terug te vertalen in tekst met behulp van een PDF naar tekst convertor. Dat werkt vrij goed al kan de opmaak wel eens naar de vaantjes zijn.
Om van een gedrukte tekst weer een tekstbestand te maken zijn er slechts twee wegen, overtypen (meestal nog het snelst) of een ocr programma erop loslaten en de tekst daarna woord voor woord napluizen.

Offline vanadium

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #6 Gepost op: 2011/10/20, 18:38:25 »
pdf kan verschillende soorten "content" bevatten.

Als je een tekst scant, dan komt je "tekst" als een grafische afbeelding in je PDF terecht.

Als je een PDF aanmaakt vanuit bijvoorbeeld Writer, dan komt je tekst als lettertekens in je PDF terecht. Dergelijke tekst kan je wel kopiëren en plakken.

Offline vanadium

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #7 Gepost op: 2011/10/20, 19:47:46 »
Als het de bedoeling is dat je gegevens kan aanpassen, dan moet je de gegevens opvragen in een teksverwerkingsformaat. PDF is niet ontworpen om aangepast te worden. Kan wel als het echt moet, maar het is behelpen.

Re: Omzetten pdf naar .doc
« Reactie #8 Gepost op: 2011/10/20, 21:36:15 »
Hm, interessant allemaal, maar ik ben er nog niet.
Ik heb dus een pak met tekst, overtypen zou mij nogal wat tijd gaan kosten en eigenlijk wil ik er gewoon een .doc of odt van maken zodat ik heb gemakkelijk kan verspreiden en anderen er iets aan kunnen toevoegen.

gscan2pdf doet het prima.
Ik heb bij het scannen OCR gescande pagina's aangevinkt.
Maar het lukt mij nog steeds niet goed om de tekst uit het bestand te halen.
Ik heb het opgeslagen als text, maar als ik dat bestand via Libre Office open, staan er wel letters alleen geen letters die vagelijk lijken op de oorspronkelijke gescande tekst. Het goede is wel dat ik nu een tekst heb die ik kan bewerken.
Sla ik het als pdf of als djvu dan kom ik ook niet verder.
De handleiding is nou ook niet bepaald duidelijk hierin.


Inmiddels ben ik weer wat verder. Bij het scannen kiezen voor ocr gescande pagina's dan kiezen voor tesseract en, helaas keuze uit 1 taal, Engels.
Ik krijg dan een herkenbare tekst maar nog met zoveel fouten dat het niet opschiet.

De zoektocht wordt voortgezet.
« Laatst bewerkt op: 2011/10/20, 22:01:31 door laacque »
Als je in de breedte groeit,||groei je dan ook in de diepte?

Offline petervs

  • Lid
Re: Omzetten pdf naar .doc
« Reactie #9 Gepost op: 2011/10/20, 21:46:34 »
Je zou nog kunnen kijken naar pdftoabw (abw van abiword)

Is een terminalprogramma, is volgens mij standaard geïnstalleerd (in poppler-utils) info: man pdftoabw
Ubuntu MATE 16.04

Re: Omzetten pdf naar .doc
« Reactie #10 Gepost op: 2011/10/20, 22:11:36 »
Yessss! Ik heb het! Heb nog toegevoegd in de synaptic tesseract-ocr-nld en nu scheelt het af en toe maar een lettertje en het scheelt mij veel typewerk. Bedankt!
Leuk he.
Als je in de breedte groeit,||groei je dan ook in de diepte?

Offline mrGee

  • Lid
Re: [OPGELOST]Omzetten pdf naar .doc
« Reactie #11 Gepost op: 2011/10/21, 09:46:54 »
Hallo

@femke98

Tekst en plaatjes vanuit een pdf kan je meestal prima hergebruiken om er weer
opnieuw een document van te maken. Dat kan al met de standaard pdf viewer,
evince, Maar omdat die nog weleens steken laat vallen; met name sommige pdf typen
worden de plaatjes niet goed weer gegeven (allemaal dunne lijnen) gebruik ik ook
wel okular
Je opent de pdf in okular, zet het selectie gereedschap aan (tools/selection tool of doe ctrl+3)
en selecteer wat je wilt, je krijgt een context menu van wat je er mee wil; copy to clipboard als text,
of save/copy  het als image (dat laatste is niet nuttig voor text als zodanig)
daarna kan je in je tekst verwerker het als tekst plakken. Maar zoals vermeld, dat werkt op ongeveer
dezelfde manier in de standaard pdf viewer; selecteren/kopiëren en dan in je tekst plakken.

Groeten Gerrit
-- = >  simplify if you can   -- = >

Re: [OPGELOST]Omzetten pdf naar .doc
« Reactie #12 Gepost op: 2011/10/21, 23:33:34 »
Ik kan dus tekst inscannen em als ik bij OCR tesserade kies en Nederlands kies, herkent hij de tekst. Die tekst kan ik vervolgend direct nakijken en bewerken. Kortom: precies wat ik wou.

Heb trouwens okular ook geinstalleerd.
Ik had er helemaal niet bij stil gestaan dat er meerdere pdf-viewers zijn. Stom natuurlijk.
Maar met okular kan ik een stuk gemakkelijker tekst uit de pdf halen.

Kortom, ik ben weer helemaal fris en fruitig!
Als je in de breedte groeit,||groei je dan ook in de diepte?