Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: Converteren PDF naar XLS  (gelezen 2475 keer)

Offline McLean

  • Lid
Converteren PDF naar XLS
« Gepost op: 2011/06/21, 14:07:59 »
Ik ben op zoek ( en kan het niet vinden) naar een programma dat een (gescand) PDF file
om kan zetten naar een XLS/ODT bestand.
Ik wil het XLS/ODT bestand kunnen bewerken in LibreOffice.
Wie heeft dit ooit bij de hand gehad.

Ubuntu 10.04 lts

mclean





Offline vanadium

  • Lid
Re: Converteren PDF naar XLS
« Reactie #1 Gepost op: 2011/06/21, 14:24:01 »
Deze vraag is analoog aan de vraag om aardbeien uit de yoghurt te scheiden.

In principe kan dat niet zomaar. Je kan document omzetten naar leesbare tekst via een OCR programma. Dan hangt het er van af hoe vlot je de informatie in de door je gewenste vorm in een rekenblad krijgt.

Offline McLean

  • Lid
Re: Converteren PDF naar XLS
« Reactie #2 Gepost op: 2011/06/21, 14:58:15 »
@vanadium

Welk ocr programma is daar geschikt voor?

ps. aardbeien van yoghurt scheiden is goed te doen met een vork.

mclean

Re: Converteren PDF naar XLS
« Reactie #3 Gepost op: 2011/06/21, 16:19:17 »
kijk eens of het via deze website gaat: http://www.zamzar.com/conversionTypes.php
Allemaal Linux gerelateerde links op mijn website http://home.scarlet.be/jefdamen/Ubuntu.html
Mijn YouTube kanaal:http://www.youtube.com/user/asilnevs
https://jefdamen.wordpress.com/
We are spiritual beings having a human experience

Offline McLean

  • Lid
Re: Converteren PDF naar XLS
« Reactie #4 Gepost op: 2011/06/21, 16:31:24 »
@ asilnevs

Bedankt voor deze site. Deze site suggereert dat het mogelijk is om een pdf naar een xls bestand te converteren.
Maar wat mij tegen houdt is het terug ontvangen (waarschijnlijk in een bijlage) per email.
Deze moet dan geopend worden en daar ben ik niet dol op.
Conclusie, het zou moeten kunnen, maar hoe?

mclean

Offline ThomasN

  • Lid
Re: Converteren PDF naar XLS
« Reactie #5 Gepost op: 2011/06/21, 16:54:10 »
Een gescande tekst is niet zo eenvoudig om te zetten. Die site kan waarschijnlijk ― ik heb het niet uitgeprobeerd ― best aardig een als tekst geproduceerde pdf, waarin de tekst al te doorzoeken en te selecteren is, omzetten naar een tekstbestand, maar ik denk dat een gescand document teveel gevraagd is.
Om een gescande tekst in bewerkbare tekst om te zetten is echt een programma voor optical character recognition ― OCR, zoals eerder genoemd ― nodig. Snel wat zoeken op internet laat zien dat er verschillende mogelijkheden zijn in Linux, maar ik heb met geen van allen ervaring, dus ik kan er geen een aanraden.

Re: Converteren PDF naar XLS
« Reactie #6 Gepost op: 2011/06/21, 18:00:06 »
McLean,

Het is wel een Windows progje of het werkt onder Wine ??

Zelf heb ik deze uitgetest voor mijn werk op een Windows bakje.
De trail-versie was het dat ruim voldoende.
Het werkte naar tevreden heid. Een PDF vanuit het programma is anders dan een gescande PDF.

Link: http://www.cogniview.com/
MvG,
MauRice
Registered Linux user: 473556

Re: Converteren PDF naar XLS
« Reactie #7 Gepost op: 2011/06/21, 18:20:10 »
deze vind ik ook wel ok:
http://www.onlineocr.net/
maar je zit wel aan een 4mb limiet en je kan er maar 15 per uur doen
maarja, zoveel heb je het niet echt nodig veronderstel ik ;)
« Laatst bewerkt op: 2011/06/21, 18:24:35 door thomasave »
If nothing goes right, try left.
Steunpunt Berchem (Antwerpen, België)

Re: Converteren PDF naar XLS
« Reactie #8 Gepost op: 2011/06/21, 19:16:40 »
Ik heb het daarstraks geprobeerd met de site die ik voorstelde, maar na 3 u heb ik nog altijd niets ontvangen  :D
Allemaal Linux gerelateerde links op mijn website http://home.scarlet.be/jefdamen/Ubuntu.html
Mijn YouTube kanaal:http://www.youtube.com/user/asilnevs
https://jefdamen.wordpress.com/
We are spiritual beings having a human experience

Offline HarzG

  • Lid
Re: Converteren PDF naar XLS
« Reactie #9 Gepost op: 2011/06/21, 21:48:12 »
Het scannen de de OCR-actie
Je kan voor de scan/ocr-actie de volgende programma's installeren:
xsane
gocr-tk
tesseract-ocr
tesseract-ocr-deu
tesseract-ocr-eng
tesseract-ocr-nld

De kwaliteit/resolutie heeft grote invloed op het vervolg om van PDF-kolommen rekenbladen of tabellen in een tekstverwerker te genereren.

De conversie
Als je een tabel wilt inlezen in Open/LibreOffice Calc, kan je het beste "ambachtelijk" per kolom selecteren in het PDF-document.
Dat lukt prima als je de rechter ALT-toets+muisaanwijzer gebruikt om een bereik te selecteren. Daarmee kan je namelijk ook verticaal selecteren zonder dat de hele regel geselecteerd wordt.
Bij sommige (bijv. met PDFcreators gemaakte) PDF's gaat het fout met de selectie - er wordt tabelcode gezien die niet goed in te lezen is in Calc.
Calc plaatst dan 2 kolommen heel leuk onder elkaar en dan zou je moeten uitzoeken wat bij welke regel hoort.
Om het risico van kopieerfouten te vermijden, adviseer ik dus "per blok" c.q. "per kolom" te selecteren en niet in 1 keer meerdere kolommen.

Bij het plakken in een Calc-tabel zijn er de volgende aandachtspunten:
1. altijd met "plakken speciaal" uitvoeren en dan wordt "tekst zonder opmaak" aangeboden
2. de kolom als "vaste breedte" plakken (hierdoor worden de overbodige spaties verwijderd
3. in de tabelkop van de conversie moet je kijken wat passend is, ik zou altijd de optie "detecteer speciale getallen" AAN zetten (dat heb je nodig voor de juiste conversie van een datum)
4. getallen met een punt waarmee gerekend moet worden, plakken als VS-Engels
5. de verschillende datumformaten zijn eigenlijk zonder toelichting te begrijpen
Xubuntu 20.04; siduction-15.1.0 Xfce

Offline McLean

  • Lid
Re: Converteren PDF naar XLS
« Reactie #10 Gepost op: 2011/06/22, 00:11:10 »
Het scannen de de OCR-actie
Je kan voor de scan/ocr-actie de volgende programma's installeren:
xsane
gocr-tk
tesseract-ocr
tesseract-ocr-deu
tesseract-ocr-eng
tesseract-ocr-nld

De kwaliteit/resolutie heeft grote invloed op het vervolg om van PDF-kolommen rekenbladen of tabellen in een tekstverwerker te genereren.

De conversie
Als je een tabel wilt inlezen in Open/LibreOffice Calc, kan je het beste "ambachtelijk" per kolom selecteren in het PDF-document.
Dat lukt prima als je de rechter ALT-toets+muisaanwijzer gebruikt om een bereik te selecteren. Daarmee kan je namelijk ook verticaal selecteren zonder dat de hele regel geselecteerd wordt.
Bij sommige (bijv. met PDFcreators gemaakte) PDF's gaat het fout met de selectie - er wordt tabelcode gezien die niet goed in te lezen is in Calc.
Calc plaatst dan 2 kolommen heel leuk onder elkaar en dan zou je moeten uitzoeken wat bij welke regel hoort.
Om het risico van kopieerfouten te vermijden, adviseer ik dus "per blok" c.q. "per kolom" te selecteren en niet in 1 keer meerdere kolommen.

Bij het plakken in een Calc-tabel zijn er de volgende aandachtspunten:
1. altijd met "plakken speciaal" uitvoeren en dan wordt "tekst zonder opmaak" aangeboden
2. de kolom als "vaste breedte" plakken (hierdoor worden de overbodige spaties verwijderd
3. in de tabelkop van de conversie moet je kijken wat passend is, ik zou altijd de optie "detecteer speciale getallen" AAN zetten (dat heb je nodig voor de juiste conversie van een datum)
4. getallen met een punt waarmee gerekend moet worden, plakken als VS-Engels
5. de verschillende datumformaten zijn eigenlijk zonder toelichting te begrijpen

Ik ga met dit antwoord aan de slag, gezien de complexiteit tenminste voor mij,
neem ik daar wel de tijd voor. Zodra het mij is gelukt, of niet, laat ik dit weten.
Als een "plain" Ubuntu gebruiker best leuk om dit te onderzoeken, daar voor onze
"windows" gebruikers er vrij veel (betaalde) pakketten worden aangeboden.
Er is dus best wel vraag naar?

 



Re: Converteren PDF naar XLS
« Reactie #11 Gepost op: 2011/06/22, 11:45:35 »
Abbyy Finereader heeft zowel een Microsoft als een linuxversie. Het is een zeer goed ocr programma met veel mogelijkheden maar het is wel betalend. En nee, ik heb geen aandelen in deze firma.  ;)