Vragen en antwoorden over het Maarallee-project
Bouwt Maarallee zelf aan AI?
Neen, Maarallee bouwt zelf geen AI-model, maar werkt wel aan de bouwstenen van AI-systemen. Elk AI-systeem heeft namelijk trainingsdata nodig, ook de spraakherkennings-modellen die spraak naar tekst omzetten en omgekeerd. Dankzij de Maarallee-dataset zouden ontwikkelaars van die AI-modellen in de toekomst dus systemen kunnen trainen die beter en correcter de Vlaamse taalvariatie begrijpen.
Wat bedoelen we eigenlijk met ‘Vlaams’?
We verzamelen zo veel en zo divers mogelijke Vlaamse taalvariëteiten die vandaag nog worden gesproken: typische accentklanken, regionale woorden die nog in gebruik zijn, tussentaal en dialect... We focussen dus niet op uitstervende dialecten, maar wel op herkenbare vormen van gesproken taal. Al deze aspecten vallen onder de term ‘Vlaams’, die we bewust hebben gekozen om de campagne toegankelijk te maken voor een breed publiek.
Is het probleem echt zo groot?
Een terechte bedenking. Sommige AI-toepassingen herkennen Vlaamse spraak inderdaad al vrij goed, maar hoe komen die aan hun data? Vaak is die niet ethisch verkregen (denk aan scraping of de kleine lettertjes in toestemmingsvoorwaarden). Met Maarallee willen we een databank uitbouwen die verantwoord, vrijwillig en transparant is, en binnen het Europees wetgevend kader valt. De databank zal later ook vrij beschikbaar worden, met duidelijke licentie-voorwaarden, zodat ook lokale, Vlaamse bedrijven toegang hebben tot kwaliteitsvolle data!
Wat gebeurt er met de verzamelde opnames?
Maarallee zal een dataset van gesproken Vlaams opbouwen die publiek beschikbaar zal worden. De dataset zal verdeeld worden via het Instituut voor de Nederlandse Taal (INT), met duidelijke licentievoorwaarden die bepalen dat de spraakopnames enkel gebruikt mogen worden voor het bouwen van toepassingen waarin de stem van de deelnemers niet herkenbaar is.
Hoe kan ik mijn opname weer laten verwijderen uit de dataset?
Ben je niet tevreden van een bepaalde opname en wil je die verwijderen? Dat kan gemakkelijk via de app. Ga op onder instellingen op zoek naar het tabblad "Opnamelog". Daar kan je alle opnames die je met jouw toestel hebt opgenomen opnieuw beluisteren en ze ook verwijderen met de prullenbak-knop.
Ik spreek geen dialect. Kan ik dan ook meedoen?
Ja hoor! We willen zoveel mogelijk Vlaamse taalvariëteiten verzamelen. Ook gewone, Vlaamse tussentaal met of zonder een regionaal accent kan daarin niet ontbreken. Bovendien moet je je bedenken dat je voor een robuust getraind, Vlaamse spraakherkenninings AI-model al snel 6000 uur aan gesproken Vlaams nodig hebt. Reken er dus maar op dat elke spraakopname telt!
Waarom nemen jullie geen audio in vergaderingen op?
Omdat AI heel veel moeite heeft met gesprekken analyseren en herkennen wie er wanneer spreekt. Dat is zo'n complexe taak dat er aparte AI-systemen getraind worden om die taak te vervullen (achterhalen wanneer spreker 1 spreekt en spreker 2 enz...). Daarom willen we met Maarallee dus één spreker die "monoloogt" om AI eerst te leren om correct Vlaamse klanken te verstaan. Als dat systeem verbeterd is, kunnen er later nog AI-systemen met vergaderdata aan de slag gaan om daar kwaliteitsvolle spraakdata uit te filteren.