Narrow your search
Listing 1 - 4 of 4
Sort by

Dissertation
Crossing Corpora : Modelling Semantic Similarity across Languages and Lects.

Loading...
Export citation

Choose an application

Bookmark

Abstract

De toenemende populariteit van corpuslinguïstiek in het onderzoek van le xicale semantiek vraagt om een automatische methode voor de modellering van semantische gelijkenis. In dit proefschrift gaan wij te rade bij de computerlinguïstiek, en onderzoeken we in hoeverre de daarin ontwikkelde distributionele modellen of semantische ruimtes ons toelaten om semanti sche gelijkenis te identificeren tussen woorden uit verschillende taalva riëteiten en verschillende talen. In Hoofdstuk 2 introduceren we het paradigma van de distributionele sema ntiek. Deze benadering gaat ervan uit dat woorden die vaak voorkomen in dezelfde soort context ook een gelijkaardige betekenis hebben. We presen teren de verschillende types distributionele modellen -- woordgebaseerd, syntaxgebaseerd en documentgebaseerd -- en hun belangrijkste parameters , zoals de similariteitsmaat. We sluiten af met een overzicht van hun to epassingen in de computerlinguïstiek en cognitive science, net als hun a llereerste gebruik in de corpuslinguïstiek. Hoewel distributionele modellen vandaag in vele takken van de computerli nguïstiek onmisbaar zijn geworden, weten we relatief weinig over hun pre cieze semantische gedrag. In Hoofdstuk 3 onderzoeken we daarom wat voor semantische relaties de verschillende modellen identificeren en welke pa rameters daarbij hun succes bepalen. We focussen daarbij specifiek op he t onderscheid tussen algemene semantische gerelateerdheid, zoals we die vinden bij losse associaties van het type golf-zee, en taxonomische geli jkenis, zoals we die vinden bij synoniemen. Op basis van een uitgebreid aantal experimenten in verschillende talen concluderen we dat syntaxgeba seerde benaderingen het beste scoren op de modellering van semantische s imilariteit, terwijl documentgebaseerde methodes meer algemene gerelatee rdheid ontdekken. Woordgebaseerde modellen bevinden zich tussen deze twe e extremen: kleinere contexten zijn meer geschikt voor het modelleren va n taxonomische gelijkenis, grotere voor algemene gerelateerdheid. Omdat de rest van deze dissertatie zich toespitst op synonymie, werken we daar in vooral met syntaxgebaseerde modellen en woordgebaseerde modellen met een kleine context. In Hoofdstuk 4 tonen we hoe distributionele modellen ons kunnen helpen b ij de modellering van taalvariatie tussen verschillende taalvariëteiten of lecten. We demonstreren hoe het distributionele paradigma kan uitgebr eid worden naar situaties met twee corpora van dezelfde taal. Een eerste toepassing is de automatische identificatie van synoniemen in een ander e taalvariëteit of lect. Onze experimenten tonen dat bilectale distribut ionele modellen vaak in staat zijn om het Nederlands-Nederlandse synonie m te identificeren voor een Belgisch-Nederlands woord, of het Duits-Duit se synoniem voor een Oostenrijks-Duits woord. Een tweede toepassing is d e automatische identificatie van woorden die typisch zijn voor een speci fieke taalvariëteit. We bewijzen meer bepaald dat de identificatie van t ypisch Belgisch-Nederlandse woorden beter verloopt wanneer we zoeken naa r verschillen in contextuele distributie dan louter naar verschillen in frequentie. Het grote voordeel van de distributionele methode is dat ze ook rekening houdt met mogelijke verschillen in betekenis. In Hoofdstuk 5 breiden we onze aanpak uit naar corpora van verschillende talen. Hoewel distributionele modellen steeds vaker worden gebruikt voo r de automatische constructie van bilinguale lexicons, kampt deze toepas sing nog met een aantal problemen. Ten eerste is ze vaak afhankelijk van een initiële set vertalingen die ons moet toelaten om contextuele distr ibuties in verschillende talen te vergelijken. We vervangen die initiële set vertalingen door de woorden die gedeeld worden tussen de twee talen . Een bootstrapprocedure voegt vervolgens nieuwe vertalingen aan het bil inguale model toe, om zo tot betere vertalingen te komen. We tonen dat d eze methode goede resultaten bereikt voor woordvertalingen tussen Duits, Engels, Nederlands en Spaans. Ten tweede weten we weinig over de aanwez igheid van andere semantische relaties in de resulterende lexicons, en o ver hun mogelijke impact op cross-linguïstische toepassingen. Daarom cla ssificeren we onze kandidaat-vertalingen manueel in een groot aantal sem antische relaties. Naast cross-linguale synonymie vinden we een groot aa ntal niet-synonieme kandidaat-vertalingen die een taxonomische gelijkeni s of semantische gerelateerdheid met het oorspronkelijke woord vertonen. We evalueren de bijdrage van deze relaties in twee cross-linguïstische taken. Op de automatische identificatie van valse vrienden hebben ze een negatief effect, omdat zulke valse vrienden vaak in een andere semantis che relatie tot elkaar staan en daarom niet onderscheiden kunnen worden van cross-linguale synoniemen. Op de cross-linguïstische modellering van selectiepreferenties hebben niet-synonieme werkwoordsvertalingen eerder een positieve invloed, omdat ook zij relevante syntactische en semantis che informatie over het oorspronkelijke woord kunnen bevatten. Kortom, ons onderzoek toont hoe distributionele semantiek kan uitgebreid worden van één corpus naar twee corpora. Toegepast op corpora van versc hillende taalvariëteiten kunnen de nieuwe modellen corpus-gebaseerd onde rzoek naar taalvariatie ondersteunen; toegepast op corpora van verschill ende talen, scheppen zij nieuwe mogelijkheden voor de automatische opbou w van bilinguale lexicons en hun toepassing in cross-linguale technologi eën. Het grootste probleem van de onderzochte modellen is dat zij slecht s één betekenisrepresentatie per woord toelaten, en dus tekortschieten b ij de modellering van polyseme woorden. Samen met een uitbreiding van he t aantal onderzochte talen en taalvariëteiten vormt de aanpak van polyse mie het belangrijkste doel voor ons toekomstige onderzoek.

Keywords


Book
Multilingual FrameNets in Computational Lexicography

Loading...
Export citation

Choose an application

Bookmark

Abstract

This book demonstrates how the underlying principles of the English-based FrameNet project are successfully applied to the description and analysis of typologically diverse languages. The stimulating collection of articles brings together insights from lexical semantics, corpus linguistics, computational lexicography, machine learning, and psychology to address three main questions: To what degree is it possible to apply semantic frames derived from the English lexicon to the description and analysis of other languages? What types of resources are necessary for the creation of FrameNets for French, German, Hebrew, Japanese, and Spanish? How can the creation of multi-lingual FrameNets be automated? The contents exemplifies the liveliness of current research on cross-lingual applications of Frame Semantics to natural language processing.


Book
Semantics - Typology, Diachrony and Processing

Loading...
Export citation

Choose an application

Bookmark

Abstract

Keywords


Book
Proceedings of the Second Italian Conference on Computational Linguistics CLiC-it 2015 : 3-4 December 2015, Trento
Authors: --- --- --- --- --- et al.
ISBN: 8899200009 Year: 2015 Publisher: Torino : Accademia University Press,

Loading...
Export citation

Choose an application

Bookmark

Abstract

CLiC-it 2015 is held in Trento on December 3-4 2015, hosted and locally organized by Fondazione Bruno Kessler (FBK), one the most important Italian research centers for what concerns CL. The organization of the conference is the result of a fruitful conjoint effort of different research groups (Università di Torino, Università di Roma Tor Vergata and FBK) showing the nationwide spreading of CL in Italy. As in the first edition, the main aim of the event is at establishing a reference forum on CL, covering all the aspects needed to describe the multi-faceted and cross-disciplinary reality of the involved research topics and of the Italian community working in this area. Indeed the spirit of CLiC-it is inclusive, in order to build a scenario as much as possible comprehensive of the complexity of language phenomena and approaches to address them, bringing together researchers and scholars with different competences and skills and working on different aspects according to different perspectives. The large number of researchers that have decided to present their work at CLiC-it and the number of directions here investigated are proof of the maturity of our community and a promising indication of its vitality. We received a total of 64 paper submissions, out of which 52 have been accepted to appear in the Conference Proceedings, which are available online and on the OpenEdition platform. Overall, we collected 129 authors from 15 countries.

Listing 1 - 4 of 4
Sort by