De bedoeling is om een opgenomen tekst (interview) om te zetten naar tekst.
Dat is nou echt een klus die je aan zo'n Speech Recognition vraagt ... zo'n "real life"-situatie:
- sterk wisselende signaalsterkte
- meer dan een spreker, in de rede vallen
- vaak onduidelijke uitspraak
- geen beperkte woordenschat, zelfs woordflaarden...
Dus echt niet waar je mee moet beginnen
Wie dat echt onder de knie heeft zou tegenwoordig de hele markt op dat gebied kunnen beheersen !
track