Listing 1 - 1 of 1 |
Sort by
|
Choose an application
Doelstelling: Vooraleer een NLP systeem kan gebruikt worden is het noodzakelijk dat alle data eerst wordt gepreprocessed. De state-of-the-art systemen voor preprocessing zijn echter allemaal getraind en afgestemd op taal afkomstig uit traditionele tekstgenres zoals krantenmateriaal. Dit is ook zo voor het Nederlands. Met dit onderzoek willen we nagaan of het mogelijk is om een bestaande PoS-tagger te trainen en af te stemmen op taal afkomstig uit nieuwe media zonder deze eerst te gaan omzetten naar standaardtaal (= normaliseren). Dit wordt gedaan aan de hand van een corpus van SMS uit Nederland en Vlaanderen. Middelen of methode: Voor deze studie werd eerst een corpus samengesteld van ca. 2300 SMS'en. Elke SMS werd op dezelfde manier verwerkt om zo tot een ‘gold standard' corpus te komen. Na alle data te hebben geanonimiseerd werd zowel de tokenisatie als PoS-tagging van de SMS-data eerst automatisch uitgevoerd waarna dan elk token en elke PoS-tag manueel werd geverifieerd. Met deze gold standard dataset was het mogelijk om drie experimenten uit te voeren waarbij telkens de performantie van een bestaande PoS-tagger werd nagegaan. Eerst werd de tagger getraind op krantenmateriaal en getest op SMS (Experiment 1), daarna getraind en getest op enkel SMS-data (Experiment 2) en ten slotte een combinatie van beide (Experiment 3). Resultaten: Zoals verwacht blijkt uit het eerste experiment dat de preprocessing tools minder goed scoren op SMS wanneer getraind op krantenmateriaal. De andere twee experimenten laten echter uitschijnen dat het eventueel mogelijk is om een bestaande tagger zo te hertrainen dat een respectabele performantie kan worden bereikt. Verder onderzoek, vooral met grotere datasets, is vereist om de bevindingen in deze studie beter te onderbouwen.
Messages SMS. --- Normalisation. --- PoS-tagging. --- Taaltechnologische studie. --- Tokenisation. --- Traitement automatique de langues.
Listing 1 - 1 of 1 |
Sort by
|