Listing 1 - 10 of 80 | << page >> |
Sort by
|
Choose an application
Doelstelling: Automatische desambiguering van woordbetekenissen (Word Sense Disambiguation) is een belangrijk probleem binnen de computerlinguïstiek. Naast de methodes die gebruikmaken van lexicale bronnen zijn er ook methodes die gebruikmaken van een geannoteerd of een parallel corpus. Tot nu toe werd meestal gewerkt met een manueel geannoteerd corpus, maar dergelijke corpora zijn zeer schaars en het kost enorm veel tijd om ze te maken. Daarom is het interessanter een parallel corpus te gebruiken. Het uitgangspunt van deze methode is dat een woord met meerdere betekenissen ook meerdere vertalingen heeft. Wij willen nagaan of het Europarl corpus geschikt is voor automatische desambiguering en zullen hierbij speciale aandacht hebben voor synonymie in de vertalingen. Middelen of methode: Voor ons onderzoek hebben we vier polyseme Engelse woorden die in het Europarl corpus voorkomen geselecteerd. Vervolgens hebben we op automatische wijze alle zinnen waarin deze woorden voorkomen en de Nederlandse, Franse en Duitse vertaling van die zinnen uit het corpus gehaald. Daarna hebben we met Giza++ de Engelse woorden gealigneerd met hun vertaling en deze woordalignatie vervolgens manueel gecontroleerd. Hierna hebben we automatisch lijsten met alle vertalingen van deze woorden gegenereerd en deze vertalingen hebben we dan geclusterd op basis van hun betekenis. Zo konden we voor onze geselecteerde woorden nagaan welke betekenissen allemaal in het corpus aanwezig zijn en dit vergelijken met de betekenissen in het Van Dale woordenboek. Verder hebben we onderzocht of er binnen een cluster veel synoniemen aanwezig waren. Resultaten: We hebben de meeste betekenissen van de geselecteerde woorden in het corpus kunnen vinden. Binnen de grote clusters waren er meestal synoniemen aanwezig maar hun aantal lag vrij laag. Het Europarl corpus is geschikt voor automatische desambiguering, maar kan best aangevuld worden met andere corpora.
Automatische desambiguering. --- Europarl. --- Parallelle corpora. --- Taaltechnologische studie. --- WSD. --- Word sense disambiguation.
Choose an application
Doelstelling: Een van de belangrijkste problemen binnen de taaltechnologie is de automatische desambiguering van woordbetekenissen (Word Sense Disambiguation). Er zijn ruwweg twee manieren te onderscheiden om dit probleem aan te pakken: op basis van een geannoteerd corpus of op basis van parallelle corpora. Aan deze eerste methode zijn echter heel wat nadelen verbonden, onder andere het feit dat het samenstellen van een geannoteerd corpus erg veel tijd kost en er bijgevolg weinig geannoteerde corpora bestaan. Bovendien bestaan deze corpora bijna uitsluitend voor het Engels. Woordenboeken zijn vaak ook moeilijk te integreren in automatische vertaalsystemen omdat ze te specifieke betekenissen bevatten. Deze paper wil aantonen dat word sense disambiguation met behulp van parallelle corpora (in dit geval het Europarl corpus) een goed alternatief is dat deze nadelen niet heeft. Middelen of methode: Word sense disambiguation met behulp van parallelle corpora heeft als uitgangspunt dat de verschillende betekenissen van een woord door verschillende woorden vertaald worden in een andere taal. Daarom werden voor dit onderzoek alle zinnen die vijf vooraf gedefiniëerde Engelse polyseme woorden bevatten en hun vertalingen in het Nederlands, Duits, Frans, Italiaans en Spaans uit het zinsgealigneerd Europarl corpus geselecteerd. Vervolgens werden deze zinnen gealigneerd op woordniveau met behulp van het programma GIZA++ en werden de woordalignaties van de vijf polyseme woorden in kwestie met hun veronderstelde vertalingen manueel nagekeken. Op basis hiervan werd dan een lijst opgesteld van alle unieke vertalingen van deze vijf woorden en werden de woorden met hun vertalingen geclusterd volgens betekenis. Om na te gaan in hoeverre de gevonden betekenissen en vertalingen overeenkomen met die in het woordenboek, werden ze vergeleken met enerzijds een verklarend en anderzijds een vertalend woordenboek. Resultaten: Uit de resultaten blijkt dat de meeste algemene betekenissen en vertalingen in het corpus zijn terug te vinden. Betekenissen en vertalingen die alleen in het woordenboek en dus niet in het corpus staan, zijn vaak erg specifieke betekenissen die niet binnen de context van het corpus vallen of die niet tot de standaardtaal behoren. Betekenissen die alleen in het corpus en dus niet in het woordenboek staan, zijn vaak erg contextspecifieke woorden, in dit geval vaak politieke termen. Uit deze resultaten kunnen we afleiden dat word sense disambiguation met behulp van parallelle corpora wel degelijk een goede optie is, maar dat er zeker rekening gehouden moet worden met de context van het gebruikte corpus.
Automatische desambiguering. --- Europarl corpus. --- Parallelle corpora. --- Taaltechnologie. --- Taaltechnologische studie. --- WSD. --- Word sense disambiguation.
Choose an application
Doelstelling: Systemen voor de automatische desambiguering van woordbetekenissen (Word Sense Disambiguation) kunnen kennisgebaseerd of corpusgebaseerd zijn. Corpusgebaseerde WSD die gebruik maakt van geannoteerde corpora is de meest succesvolle aanpak, maar het maken van zulke corpora is heel tijdsintensief en duur. Daarom krijgt WSD die gebruik maakt van parallele corpora meer en meer aandacht. Deze methode gaat er van uit dat de verschillende betekenissen van een woord ooi verschillende vertalingen hebben. Wij willen met dit onderzoek aantonen dat het Europarl corpus geschikt is voor het automatisch desambigueren van woordbetekenissen. Middelen of methode: Wij hebben vijf polyseme Engelse substantieven gekozen en de zinnen die deze woorden bevatten uit het Europarl corpus gehaald, samen met hun vertaling in het Nederlands, Duits en Frans. Daarna hebben we eerst de corpora automatisch geailigneerd op woordniveau en daarna deze alignatie manueel geverifieerd. Aan de hand van automatisch gecreëerde lijsten van de polyseme woorden met al hun vertalingen, hebben we voor elk substantief betekenisclusters gemaakt. Zo konden we de betekenissen die wij teruggevonden hadden in het corpus vergelijken met de betekenissen in woordenboeken. Tenslotte zijn we nagegaan of de betekenisclusters veel synoniemen bevatten. Resultaten: Wij hebben de belangrijkste betekenissen van de polyseme substantieven in het Europarl corpus teruggevonden. Rekening houdend met de grootte van het corpus, kunnen we zeggen dat de betekenisclusters niet veel synoniemen bevatten. Ondanks een aantal problemen, waaronder het grootste probleem de automatische woordalignatie, kunnen we concluderen dat het Europarl corpus geschikt is voor het automatisch desambigueren van woordbetekenissen, maar dat het best aangevuld kan worden met andere corpora.
Automatische desamibuering. --- Europarl. --- Ongesuperviseerd. --- Parallele corpora. --- Taaltechnologische studie. --- WSD. --- Word sense disambiguation.
Choose an application
Doelstelling: De taak van word sens desambiguation (WSD) bestaat erin automatisch de juiste betekenis van een ambigu woord toe te kennen in een bepaalde context. Dit gebeurt vaak aan de hand van externe bronnen zoals woordenboeken of betekenisgeannoteerde corpora. Betekenisgeannoteerde corpora zijn echter heel schaars, waardoor men de laatste jaren steeds vaker gebruikt maakt van parallelle corpora. Hierbij gaat men ervan uit dat een polyseem woord verschillende vertalingen heeft en dat deze vertalingen dan ook de verschillende betekenissen van dat woord weergeven. Met dit onderzoek willen wij nagaan of het mogelijk is om een WSD-systeem te creëren op basis van een parallel corpus, namelijk Europarl, zonder beroep te doen op externe bronnen. We zullen dit onderzoeken aan de hand van de vertalingen van vier Nederlandse polyseme substantieven. Middelen of methode: Om na te gaan of het mogelijk is om een WSD-systeem te creëren op basis van een parallel corpus zonder gebruik te maken van externe bronnen, hebben we volgende stappen ondernomen. De eerste stap van ons onderzoek bestond uit het selecteren van vier Nederlandse polyseme substantieven. Wij kozen voor missie, ring, test en zijde. Vervolgens extraheerden we uit het Europarl corpus drie talenparen: Nederlands-Engels, Nederlands-Frans en Nederlands-Duits. Voor ons onderzoek maakten we enkel gebruik van de 1-op-1 gealigneerde zinnen die een van de vier substantieven bevatten. Vervolgens werden de woorden gealigneerd aan de hand van GIZA++ zodat we alle mogelijke vertalingen van het polyseem woord konden opsporen. Deze automatische woordalignatie werd ook nog eens manueel gecontroleerd. Ten slotte hebben we alle vertalingen gecategoriseerd per betekenis en vergeleken met de betekenissen in een vertalend woordenboek. Zo konden we onderzoeken of alle betekenissen van de vier polyseme woorden ook effectief in het corpus voorkwamen. Resultaten: Uit ons onderzoek is gebleken dat Europarl niet alle betekenissen en vertalingen bevat van onze polyseme woorden. Het corpus bestaat namelijk uit parallelle teksten over de debatten van het Europees parlement, die vooral politieke onderwerpen behandelen. Bijgevolg zal het Europarl-corpus zeker nuttig zijn voor het desambiguëren van politieke teksten maar heeft men ook andere corpora nodig voor het desambiguëren van teksten uit andere domeinen. Ons onderzoek heeft ook aangetoond dat vertalende woordenboeken ook niet alle betekenissen en vertalingen van onze doelwoorden bevatten. Bovendien geeft Europarl meestal meer vertalingen voor een bepaalde betekenis dan vertalende woordenboeken. Uit onze resultaten is echter ook gebleken dat ons Nederslands-Engels-Duits-Frans corpus meestal niet in staat is om onze doelwoorden te desambiguëren omdat hun betekenissen in de verschillende talen op dezelfde manier evoluëren. Bijgevolg is het noodzakelijk om extra talenparen toe te voegen. Hieruit kunnen we besluiten dat het Europarl-corpus slechts bruikbaar is voor bepaalde WSD-applicaties zoals voor het maken van automatische vertalingen, maar bijvoorbeeld niet voor information retrieval
Europarl. --- Parallelle corpora. --- Taaltechnologie. --- Taaltechnologische studie. --- WSD. --- Woord- en zinsalignatie. --- Word sense disambiguation.
Choose an application
Doelstelling: De meeste state-of-the-art systemen voor het automatisch desambigueren van woordbetekenissen maken gebruik van gesuperviseerde leeralgoritmes. Deze algoritmes proberen aan de hand van de context de juiste betekenis van een polyseem woord te achterhalen. Daarvoor hebben ze wel corpora nodig waarbij elk polyseem woord van een betekenislabel voorzien is. Aangezien betekenisgeannoteerde corpora heel schaars zijn, wordt steeds meer overgestapt op het gebruik van parallelle corpora. Het gebruik van parallelle corpora gaat er van uit dat de verschillende betekenissen van een polyseem woord vaak anders vertaald worden. Zo bevat een parallel corpus dat alle vertalingen van een polyseem woord bevat ook alle betekenissen van dat woord. Met dit onderzoek willen we nagaan in welke mate het parallelle corpus Europarl geschikt is voor het automatisch desambigueren van woordbetekenissen. Dit zullen we onderzoeken aan de hand van de vertalingen van acht polyseme woorden uit het Engels. Middelen of methode: De acht polyseme woorden van ons onderzoek hebben we in de eerste plaats geselecteerd op basis van hun aantal betekenissen. Aan de hand van een zelfgemaakt programma hebben we namelijk alle woorden uit het Europarl corpus geextraheerd die volgens het electronische lexicon Wordnet meer dan vijf betekenissen hebben. Deze woorden hebben we dan opgedeeld volgens woordsoort. Van elke woordsoort hebben we een aantal woorden experimenteel vastgelegd. Voor onze selectie woorden hebben we dan de parallelle corpora voor drie talenparen geextraheerd: Engels-Nederlands, Engels-Frans en Engels-Duits. Deze drie talenparen zijn nodig om de belangrijkste betekenisverschillen te kunnen lexicaliseren. Aangezien het Europarl corpus enkel zinsgealigneerd is, hebben we de concordantiesoftware Paraconc moeten gebruiken om alle vertalingen te kunnen localiseren. We hebben dan ten slotte de vertalingen van ieder woord vergeleken met de vertalingen van drie bilinguale woordenboeken om de geschiktheid van Europarl te bepalen. Voor enkele woorden hebben we ook onderzocht of we met alle vertalingen ook daadwerkelijk alle betekenissen kunnen lexicaliseren zoals die voorkomen in het Engelse verklarende woordenboek Merriam Webster. Resultaten: Voor een aantal polyseme woorden hebben we alle vertalingen gevonden die opgenomen zijn in de bilinguale woordenboeken. Een vergelijking met het verklarende woordenboek Merriam Webster toont aan dat de gevonden vertalingen ook alle betekenissen van die polyseme woorden kunnen lexicaliseren. Voor de andere woorden van ons onderzoek hebben we niet alle nodige vertalingen kunnen extraheren. Voor enkele van die woorden zijn we nagegaan welke betekenissen daardoor niet gelexicaliseerd zijn. Voor één van de woorden waarvan niet alle vertalingen in Europarl aanwezig waren, zijn we ook nagegaan of de vertalingen uit de bilinguale woordenboeken wel in staat waren alle betekenissen te lexicaliseren. De woordenboeken konden echter ook niet alle betekenissen uitdrukken.
Europarl. --- Ongesuperviseerde leeralgoritmes. --- Paraconc. --- Parallelle teksten. --- Semantische ambiguïteiten. --- Taaltechnologische studie. --- Vertalingen. --- Woord- en zinsalignatie. --- Word sense disambiguation.
Choose an application
Government --- European Union --- #SBIB:044.AANKOOP --- #SBIB:327.7H221 --- #SBIB:324H42 --- Europees Parlement --- Politieke structuren: verkiezingen --- European Parliament --- -Eurōpaiko Koinovoulio --- Europäisches Parlament --- Parlement européen --- Parlamento europeo --- Europese Parlement --- Europa-Parlament --- Parlament Europeu --- Parlament Europejski --- Ōshū Gikai --- Parlamento della Comunità europea --- Parlamento Europeu --- EUROPARL --- European Union. --- European Parliamentary Assembly --- Elections, 1999 --- -Elections, 1999 --- -European Communities. Parliament --- European Communities. Parliament --- Elections, 1999.
Choose an application
Government --- European Union --- #SBIB:327.7H221 --- 341.2424 --- Uf1 --- Europees Parlement --- European Parliament. --- Eurōpaiko Koinovoulio --- Europäisches Parlament --- Parlement européen --- Parlamento europeo --- Europese Parlement --- Europa-Parlament --- Parlament Europeu --- Parlament Europejski --- Ōshū Gikai --- Parlamento della Comunità europea --- Parlamento Europeu --- EUROPARL --- European Union. --- European Parliamentary Assembly --- European Communities. Parliament
Choose an application
European Parliament --- -Eurōpaiko Koinovoulio --- Europäisches Parlament --- Europees Parlement --- Parlement européen --- Parlamento europeo --- Europese Parlement --- Europa-Parlament --- Parlament Europeu --- Parlament Europejski --- Ōshū Gikai --- Parlamento della Comunità europea --- Parlamento Europeu --- EUROPARL --- European Union. --- European Parliamentary Assembly --- Elections --- -Elections --- -European Communities. Parliament --- Assemblée parlementaire européenne. Elections. --- Europese parlementaire vergadering. Verkiezingen. --- European Communities. Parliament --- Elections.
Choose an application
Elections --- Statistics --- Statistiques --- European Parliament --- 341.17 EP --- #SBIB:327.7H221 --- Europees parlement--EP --- Europees Parlement --- Eurōpaiko Koinovoulio --- Europäisches Parlament --- Parlement européen --- Parlamento europeo --- Europese Parlement --- Europa-Parlament --- Parlament Europeu --- Parlament Europejski --- Ōshū Gikai --- Parlamento della Comunità europea --- Parlamento Europeu --- EUROPARL --- European Union. --- European Parliamentary Assembly --- 341.17 EP Europees parlement--EP --- European Communities. Parliament --- European Parliament.
Choose an application
European Parliament --- Elections --- Elections, 1979 --- -Eurōpaiko Koinovoulio --- Europäisches Parlament --- Europees Parlement --- Parlement européen --- Parlamento europeo --- Europese Parlement --- Europa-Parlament --- Parlament Europeu --- Parlament Europejski --- Ōshū Gikai --- Parlamento della Comunità europea --- Parlamento Europeu --- EUROPARL --- European Union. --- European Parliamentary Assembly --- -Addresses, essays, lectures --- -Elections --- -European Communities. Parliament --- European Communities. Parliament --- Elections.
Listing 1 - 10 of 80 | << page >> |
Sort by
|