Nieuws:

Welkom, Gast. Alsjeblieft inloggen of registreren.
Heb je de activerings-mail niet ontvangen?

Auteur Topic: OCR voor japanse taal  (gelezen 350 keer)

Offline Spidey-Westland

  • Lid
  • Steunpunt: Ja
OCR voor japanse taal
« Gepost op: 2013/10/13, 19:14:09 »
Hallo Forum

Ik gebruik om tekst van een xx.png file op te halen en daarna te bewerken met libreoffice.

Dit programma is tesseract.

Kan ik dit ook gebruiken voor Japanse taal

Ben benieuwd.

groet

Spidey-westrland
Spidey-Westland

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: OCR voor japanse taal
« Reactie #1 Gepost op: 2013/10/13, 20:23:06 »
Spidey-westrland,

Er is een japanse taal-module voor tesseract: tesseract-ocr-jpn
Dan zal de cmd opdracht er zo uitzien:
tesseract png-bestand tekst  -l jpn

Als het goed is zal je dan een tekst.txt bestand hebben met japanse charachters.
Zelf geen ervaring met japanse tekst.

MvG,
MauRice
Registered Linux user: 473556

Offline hvb

  • Lid
  • Steunpunt: Nee
Re: OCR voor japanse taal
« Reactie #2 Gepost op: 2013/10/13, 20:33:45 »
Als je gimagereader (http://sourceforge.net/projects/gimagereader/) installeert heb je ook nog een grafische schil.
Werkt overigens zeer goed, vooral handig met het weghalen van alle ontelbare ergerlijke enters in de tekstscan.


Offline Spidey-Westland

  • Lid
  • Steunpunt: Ja
Re: OCR voor japanse taal
« Reactie #3 Gepost op: 2013/10/15, 13:24:47 »
@hvb

Heb dit getest, doch niet elk karakter wordt identiek weergegeven.

Ik zie onderin het scherm:

Dictionary missing: The spellcheck dictionary for (fa_JP) is not installed, Install Don't ask again.

Moet ik het blauwe aanklikken om het te installeren
Spidey-Westland

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: OCR voor japanse taal
« Reactie #4 Gepost op: 2013/10/16, 08:07:13 »
Spidey-Westland,

Veel hangt af van de kwaliteit van het png-bestand.

fa_JP zal een japanse taal-module zijn, van welke pakket het is ??
MvG,
MauRice
Registered Linux user: 473556

Offline Spidey-Westland

  • Lid
  • Steunpunt: Ja
Re: OCR voor japanse taal
« Reactie #5 Gepost op: 2013/10/16, 10:00:42 »
@Maurice,

Ik maak png via de HP deskjet 1050 scanner.
Moet hier de dpi vergroot worden.

Ik gebruik gimagereader voor de Japanse tekens.

Ook hier de twee bijlagen (waarom in bericht niet te zien is voor mij een ?)

groet

Spidey-Westland
« Laatst bewerkt op: 2013/10/16, 14:38:57 door Spidey-Westland »
Spidey-Westland

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: OCR voor japanse taal
« Reactie #6 Gepost op: 2013/10/16, 19:23:48 »
Spidey-Westland,

Hoe hoger de dpi hoe beter neem ik aan.
Bij de opdracht ben je de -l vergeten voor jpn.
MvG,
MauRice
Registered Linux user: 473556

Offline Spidey-Westland

  • Lid
  • Steunpunt: Ja
Re: OCR voor japanse taal
« Reactie #7 Gepost op: 2013/10/17, 12:48:45 »
@Maurice,

Het is nu gelukt met "tesseract".

Echter worden niet alle tekens goed omgezet. zie bijlage

Moet ik nog wat anders toevoegen in de taal "WenQuanYi Micro Hei"

Is dit een Japans letter type of Chinees?

Ik ben benieuwd
Spidey-Westland

Offline MauRice2

  • Lid
  • Steunpunt: Nee
Re: OCR voor japanse taal
« Reactie #8 Gepost op: 2013/10/18, 05:58:20 »
Spidey-Westland,

Ik vind het resultaat niet slecht.
Dat de ocr niet alles weergeeft, dat heb ik ook met mijn PDF's (Westersche talen).
Kan je niet veel aan doen.
Het blijft een machine.
MvG,
MauRice
Registered Linux user: 473556