Welkom, Gast. Alsjeblieft inloggen of registreren.
De activerings e-mail gemist?
Pagina's: 1 [2] 3   Omlaag
  Print  
Auteur Topic: Spraak nodig voor spraakherkenning (Nederlands)  (gelezen 3918 keer)
Mij
Lid

Offline Offline

Berichten: 2193



Bekijk profiel
Antwoord #15, 2008/02/06, 22:14:56

ik zet het wel in mn handtekening om jullie te promoten!
Gelogd

Mij
Lid

Offline Offline

Berichten: 2193



Bekijk profiel
Antwoord #16, 2008/02/07, 12:09:01

Maar waarom kan je die inhoud dan niet gebruiken voor een product beter te maken.
Ik snap dat je die audio dan niet op je eigen site mag zetten en dan onder de GNU GPL herlicenseren. Maar voor het beter maken van software zou dit geen enkel probleem moeten zijn, als je het maar niet kopieert.
Maar voor dat taalmodel kan je toch wel in principe alle inhoud van het web gebruiken? Als je maar niet stukken kopieert en woorden uit hun context haalt is het goed. OpenTaal doet dat ook, ze gebruiken een woorden-oogster om aan hun woorden te komen.
Voor het verzamelen van geluid en tekst is dat natuurlijk wat anders.
Gelogd

RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #17, 2008/02/07, 20:20:48

Het probleem zit hem erin dat zowel de GFDL en de GPL vereisen dat afgeleide werken onder dezelfde licentie vallen als het oorspronkelijke werk. Aangezien het taalmodel (dat we onder de GPL willen uitbrengen) het afgeleide werk is, moeten de oorspronkelijke teksten ook onder de GPL vallen. De teksten op wikipedia vallen echter onder de GFDL.

Je hebt wel een beetje gelijk, want je zou kunnen argumenteren dat een taalmodel geen afgeleid werk is maar zo ver afstaat van het origineel dat het een nieuw oorspronkelijk werk is. Daar zouden we echter wel risico mee nemen want misschien dat een rechter het daar niet mee eens zou zijn.

Het gevolg daarvan kan bovendien nooit zijn dat je - door ergens een taalmodel van te maken - de oorspronkelijke teksten onder een andere licentie uit kan brengen (onder de GPL zijn we verplicht om de broncode van het taalmodel vrij te geven).

We hebben voor de GPL gekozen omdat deze licentie ontwikkeld is voor software en goede garanties biedt om verbeteringen voor de open source gemeenschap ter beschikking te houden. Op de lange termijn is dat denken wij het best.

Goed idee van die handtekening!
Gelogd

erikapekop
Lid

Offline Offline

Berichten: 69


Bekijk profiel
Antwoord #18, 2008/02/13, 22:19:17

Dit word wel heel juridisch technisch.
Ik wil in dit verband even vertellen dat onder win...s het programma Draon Naturally Speaking bestaat en inmiddels erg  goed werkt. In 2003 was zoń 90% herkenning mogelijk nu zelfs veel meer, na training uiteraard.
Scansoft heeft in de leerfase teksten van schrijvers mogen gebruiken die je voorleest, waardoor de computer eea. kan instellen. Spraakherkenning is een heel complex gebeuren en vraagt inderdaad veel rekenkracht, maar winXP kon het met 512 mb en met servicepack 2 met 1 gig aan ram-geheugen. de geluidskaart en microfoon komen bij DNS heel precies.
Zie ook website van bv. intaal: http://www.intaal.nl/, vor meer info. Echt een bezoekje waard!

Spraakherkenning kan een hulpmiddel zijn voor mensen met rsi-klachten, maar mensen met andere handicaps kunnen hun voordeel ermee doen. Voor een aantal mensen met dyslectie is het een uitkomst.

Het heeft dus nut om om de regeltjes in te spreken!!!!!
Er bestaat ook een spraak groep: http://tech.groups.yahoo.com/group/Spraak/
Daar zijn uit alle lagen van de bevolking mensen lid van; ook mense die teksten schrijven. Misschien zijn die wel te porren om teksten beschikbaar te stellen.

Beste mede Ubuntu-ers: Spreekt in!

bedankt voor uw aandacht,
Erik
Gelogd
RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #19, 2008/02/15, 13:28:41

Bedankt voor de tips Erik. Ik kende die Yahee-groep, maar had nog geen bericht gepost. Het wachten was aanvankelijk vooral op onze donatiepagina (daarvoor was doneren veel moeilijker en ik wilde niemand afschikken).

mbt hardware... ik heb ooit met 32 MB Freespeech van Philips gedraaid en dat hield mij bij als ik rustig sprak (rond de 90% nauwkeurigheid). Het verwerken van 2 uur trainingstekst duurde echter 10 uur oid (dus heb ik toen geupgrade naar 64 MB).

Dat onderstreept weer het belang van open source alternatieven. Die zijn vaak efficienter of er bestaan efficiente alternatieven (vergelijk XFCE met KDE of Gnome). Ik zou best spraakherkenning willen hebben op mijn mobiel (niet veel trager dan mijn oude pc) en dan niet alleen zo van `Bel Wim`, maar ik zie dat nog niet komen van de makers van DNS (en al helemaal niet als ik Linux op m`n mobiel draai).

Bedankt voor je donaties!

RvK
Gelogd

Johan van Dijk
Lid

Offline Offline

Berichten: 10884



Bekijk profiel
Antwoord #20, 2008/02/15, 15:31:27

Ik heb wat problemen met de donaties.
Het opnemen lijkt goed te gaan, maar het afspelen om te controleren werkt niet.
Zie de screenshots:



Gelogd

RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #21, 2008/02/15, 18:16:48

Bedankt voor de poging. Ik post het probleem in het VoxForge-forum (heb zelf de Java-applet niet geschreven). Ik laat het weten als er een oplossing voor is. Het is wellicht handig om te weten welke versie van Java en ubuntu je gebruikt.
Gelogd

Johan van Dijk
Lid

Offline Offline

Berichten: 10884



Bekijk profiel
Antwoord #22, 2008/02/15, 18:24:53

Ubuntu Gutsy Gibbon met de laatste updates.
Code:
java -version
java version "1.6.0_03"
Java(TM) SE Runtime Environment (build 1.6.0_03-b05)
Java HotSpot(TM) Client VM (build 1.6.0_03-b05, mixed mode, sharing)
Firefox:
Code:
Mozilla/5.0 (X11; U; Linux i686; nl; rv:1.8.1.12) Gecko/20080207 Ubuntu/7.10 (gutsy) Firefox/2.0.0.12
Gelogd

RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #23, 2008/02/17, 14:20:19

zie hier de forumthread op VoxForge.
Gelogd

prikkebeen2
Lid

Offline Offline

Berichten: 598



Bekijk profiel
Antwoord #24, 2008/02/18, 23:09:12

Zou voor geschreven teksten het Gutenberg project ook te gebruiken zijn? Volgens mij is dat vrij van rechten.
Gelogd

Wie de gemakkelijkste weg niet zoekt is een luiaard. Smiley
Linux User #228066
RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #25, 2008/02/19, 10:07:56

Dat klopt, maar die teksten zijn vrij omdat de auteurs meer dan 70 jaar geleden zijn overleden (teksten meestal dus ouder). Dat betekent dat je een taalmodel krijgt waarin woorden als tusschen waarschijnlijker worden gevonden dan de hedendaagse alternatieven. Ook woordvolgorde is in de afgelopen eeuw drastisch veranderd.

Bovendien zijn ook e-mails, brieven e.d. erg belangrijk (dat kunnen natuurlijk ook relatief anonieme paragrafen uit brieven zijn). Spraakherkenning wordt immers vaker gebruikt voor 't schrijven van brieven dan voor 't schrijven van boeken.

Dus nogmaals de oproep aan iedereen die wel eens iets schrijft (en wie doet dat niet) om af en toe een paar pagina's aan mij te sturen (of in 1 keer heel veel).
Gelogd

Johan van Dijk
Lid

Offline Offline

Berichten: 10884



Bekijk profiel
Antwoord #26, 2008/02/19, 12:57:34

Citaat van: RvK
Het probleem was inderdaad opgelost toen ik Quod Libet (muziekspeler) uitschakelde Smiley
Gelogd

Mij
Lid

Offline Offline

Berichten: 2193



Bekijk profiel
Antwoord #27, 2008/03/01, 16:41:29

Ik heb problemen met het uploaden. Ik krijg het wel opgenomen, maar uploaden blijft bij 1/20 stilstaan. Ik vind wel de zip-file, dus ik doe het dan handmatig;)
Gelogd

Mij
Lid

Offline Offline

Berichten: 2193



Bekijk profiel
Antwoord #28, 2008/03/02, 12:28:34

Trouwens, zou het niet handig zijn om het geluid in flac te comprimeren? Dit is verliesloze compressie (het uploaden duurt bij mij veel langer dan het inspreken).
En er mogen trouwens ook wel wat meer zinnen komen!
Gelogd

RvK
Lid

Offline Offline

Berichten: 20


Bekijk profiel
Antwoord #29, 2008/03/12, 12:06:52

Een beetje een late reactie (om duistere redenen ontvang ik opeens geen meldingen meer van nieuwe reacties).

Bedankt voor de bijdragen! Zeker gelet op de problemen en het handmatige uploaden. Ik hoop dat dat zichzelf gaat oplossen. Bij mij gaat het altijd goed, dus misschien iets met de uploadbandbreedte o.i.d.?

Het ligt in de bedoeling dat onze donatiepagina in de toekomst gebruik gaat maken van flac. Ik heb geen benul hoe makkelijk dat is, maar er wordt aan gewerkt Wink

Er moeten inderdaad meer zinnen bij. Het waren er tot voor kort 500+ goed voor in theorie goed voor vijftig unieke donaties (ca 45 minuten) maar het lijkt minder. Dat komt omdat er random tien opeenvolgende worden geplukt uit de lijst. Dat betekent dat je soms overlap hebt met een oude donatie.

Je kunt dan gewoon nog een keer doneren (spraakherkenning moet immers leren omgaan met uitspraak verschillen en die zijn er altijd wel, zeker als je bewust een andere toon aanslaat). Wellicht nog iets beter: ververs de pagina dan krijg je hopelijk nieuwe zinnen.

Het zijn er nu overigens 600+ en er komen er meer bij. Het gaat wat langzaam, omdat ik er op moet letten dat alle klanken van het Nederlands goed vertegenwoordigd zijn (ook de wat zeldzamere).
Gelogd

Pagina's: 1 [2] 3   Omhoog
  Print  
 
Ga naar: