Listing 1 - 1 of 1 |
Sort by
|
Choose an application
Doelstelling: De state-of-the-art NLP systemen zijn getraind en afgestemd op taal afkomstig uit traditionele tekstgenres, zoals bijvoorbeeld krantenmateriaal. Zodra deze worden toegepast op tekstmateriaal afkomstig uit sociale media, vertonen ze fouten en werken ze niet optimaal. Het doel van deze thesis bestaat erin om na te gaan hoe een dergelijk NLP systeem kan hertraind worden zodanig dat het afgestemd is op taal dat typerend is voor nieuwe media. Dit wordt gedaan aan de hand van een corpus, bestaande uit Nederlandse tweets, dat genormaliseerd en geanalyseerd wordt. Middelen of methode: Om ons onderzoek te realiseren werd een corpus samengesteld bestaande uit 250 tweets. Deze tweets werden manueel geselecteerd en zijn afkomstig van negen mensen die we gedurende een bepaalde periode gevolgd hebben op Twitter. Eenmaal de tweets verzameld waren, volgde de tokenisatie. Daarna werd ieder token genormaliseerd en geanalyseerd om zo hun taalkundige transformaties en eigenschappen te bepalen. In totaal werden vijf experimenten uitgevoerd die elk dieper ingaan op deze taalkundige transformaties en eigenschappen. Alle handelingen werden manueel uitgevoerd en ondersteund door richtlijnen die opgesteld zijn voor de normalisatie van SMS-data. Resultaten: Uit de vijf experimenten blijkt dat de taal gebruikt in tweets heel wat taalkundige transformaties en eigenschappen bevat die afwijken van de standaardtaal. Onder taalkundige transformaties verstaan we insertie, deletie, substitutie en transpositie van letters. Een grote meerderheid werd genormaliseerd aan de hand van inserties, wat inhoudt dat de voornaamste transformatie in tweets wordt veroorzaakt door de weglating van letters en/of woorden. Verder blijkt dat deze transformaties ook veeleer lexicaal dan grammaticaal zijn. Bij de taalkundige eigenschappen van tweets stellen we vast dat vreemde woorden en tussenwerpsels hier een relatief groot aandeel in hebben. De resultaten van dit onderzoek kunnen een basis vormen in de hertraining van NLP systemen op taal afkomstig uit nieuwe media. Verder onderzoek met grotere datasets is echter vereist om de bevindingen in deze studie beter te onderbouwen.
Corpusstudie. --- Natuurlijke taalverwerking. --- Nederlands. --- Normalisatie. --- Tweets.
Listing 1 - 1 of 1 |
Sort by
|