UniCat-Search

Union Catalogue of Belgian Libraries

English | Nederlands | Français

Feedback

About UniCat

Help

News

Narrow your search

Library

UGent (1)

Resource type

dissertation (1)

Language

French (1)

Year

From To

2011 (1)

Listing 1 - 1 of 1
Sort by

Dissertation

Est-il possible d'entraîner un étiquetteur morphosyntaxique aux textes non-normalisés? Une étude expérimentale du processus de pré-processing appliqué aux textos
Authors: Van Cotthem, Xenia --- Hogeschool Gent. --- VETO.
Year: 2011 Publisher: Gent : s.n.,

Abstract | Keywords | Export | Availability | Bookmark

Loading...

Export citation
Choose an application

Reference Manager

EndNote

RefWorks (Direct export to RefWorks)

Bookmark

Abstract
Doelstelling: Vooraleer een NLP systeem kan gebruikt worden is het noodzakelijk dat alle data eerst wordt gepreprocessed. De state-of-the-art systemen voor preprocessing zijn echter allemaal getraind en afgestemd op taal afkomstig uit traditionele tekstgenres zoals krantenmateriaal. Dit is ook zo voor het Nederlands. Met dit onderzoek willen we nagaan of het mogelijk is om een bestaande PoS-tagger te trainen en af te stemmen op taal afkomstig uit nieuwe media zonder deze eerst te gaan omzetten naar standaardtaal (= normaliseren). Dit wordt gedaan aan de hand van een corpus van SMS uit Nederland en Vlaanderen. Middelen of methode: Voor deze studie werd eerst een corpus samengesteld van ca. 2300 SMS'en. Elke SMS werd op dezelfde manier verwerkt om zo tot een ‘gold standard' corpus te komen. Na alle data te hebben geanonimiseerd werd zowel de tokenisatie als PoS-tagging van de SMS-data eerst automatisch uitgevoerd waarna dan elk token en elke PoS-tag manueel werd geverifieerd. Met deze gold standard dataset was het mogelijk om drie experimenten uit te voeren waarbij telkens de performantie van een bestaande PoS-tagger werd nagegaan. Eerst werd de tagger getraind op krantenmateriaal en getest op SMS (Experiment 1), daarna getraind en getest op enkel SMS-data (Experiment 2) en ten slotte een combinatie van beide (Experiment 3). Resultaten: Zoals verwacht blijkt uit het eerste experiment dat de preprocessing tools minder goed scoren op SMS wanneer getraind op krantenmateriaal. De andere twee experimenten laten echter uitschijnen dat het eventueel mogelijk is om een bestaande tagger zo te hertrainen dat een respectabele performantie kan worden bereikt. Verder onderzoek, vooral met grotere datasets, is vereist om de bevindingen in deze studie beter te onderbouwen.

Keywords
Messages SMS. --- Normalisation. --- PoS-tagging. --- Taaltechnologische studie. --- Tokenisation. --- Traitement automatique de langues.

Listing 1 - 1 of 1
Sort by