Zoals ik al schreef, doe ik het nu met python. En dat werkt stukken beter in dit geval.
Wel zit ik nog met het volgende: In het srt bestand staan veel woorden waar een spatie tussen zou moeten staan. Bv waarje, datje gaje, hebjij, denkje etc
met:
line = re.sub(r"(\b[a-z]{2,4})(?=(je|jou|jij)\b)", r"\1 ", line)
worden de meesten opgelost.
Maar er zijn uitzonderingen: bv meisje, beetje, eindje, klusje, lesje. Deze worden ook gesplitst in bv meis je.
Hoe voorkom ik dit? Ik heb [^(eind|beet|stuk)] ertussen gezet, maar dan gaat er weer van alles fout
Alvast weer bedankt
Bauke