Listing 1 - 10 of 94 << page
of 10
>>
Sort by

Book
Structure and process in speech perception : proceedings of the symposium on dynamic aspects of speech perception held at IPO, Eindhoven, Netherlands, August 4-6, 1975
Authors: --- ---
ISBN: 3540075208 3642810020 3642810004 Year: 1975 Publisher: Berlin : Springer-Verl.,


Multi
Adaptive noise cancellation and signal separation with applications to speech enhancement
Authors: ---
ISBN: 9056820257 Year: 1996 Publisher: Heverlee Katholieke Universiteit Leuven. Faculteit der Toegepaste Wetenschappen . Departement Elektrotechniek

Computational linguistics in the Netherlands 1998 : selected papers from the ninth CLIN meeting
Authors: ---
ISBN: 9042005998 9042006099 9004488898 9789042006096 9789004488892 Year: 2000 Volume: 29 Publisher: Amsterdam: Rodopi,

Loading...
Export citation

Choose an application

Bookmark

Abstract

This volume provides a selection of the papers which were presented at the ninth conference on Computational Linguistics in the Netherlands (Leuven, 1998). It gives an accurate and up-to-date picture of the lively scene of computational linguistics in the Netherlands and Flanders. In terms of topics the contributions can be grouped under three headings: the use of statistical methods in speech and language processing (6 papers), the analysis of syntactic and semantic phenomena in the framework of computationally oriented formalisms, such as Head-driven Phrase Structure Grammar (5 papers), and the development of NLP applications, such as document processing, dialogue modelling and teaching (3 papers). The volume covers the whole range from theoretical to applied research and development, and is hence of interest to both academia and industry. The target audience consists of advanced students and scholars of computational linguistics, and speech and language processing (Linguistics, Computer Science, Electrical Engineering).


Dissertation
Robust automatic speech recognition in time-varying environments
Authors: ---
ISBN: 905682726X Year: 2006 Publisher: Leuven Katholieke Universiteit Leuven

Loading...
Export citation

Choose an application

Bookmark

Abstract

Het is een bekend feit dat de woordherkenningsgraad van een systeem voor automatische spraakherkenning (ASH) gevoelig daalt in een "ruizige" omgeving, indien niet de gepaste maatregelen worden getroffen. In deze doctoraatsstudie trachten we het ASH-systeem robuust te maken tegen de nefaste invloed van tijdsvariërende achtergrondgeluiden die het opgenomen spraaksignaal verstoren. Daarbij opteren we voor een voorverwerkingsstap op het niveau van de kenmerkenvectoren die in staat is om voorkennis over de structuur van zuivere spraak en ruis te benutten, namelijk modelgebaseerde kenmerkenverbetering (MBFE). We tonen aan dat het gebruik van een model voor spraak en voor ruis heel wat schaalbaarheid biedt, maar dat het eveneens een afweging impliceert tussen de nauwkeurigheid van de herkenning en de hoeveelheid rekenkracht die vereist is voor het systeem. We ontwikkelen een nieuwe, iteratieve methode voor de gemeenschappelijke verwijdering van additieve achtergrondruis en convolutionele distorsies (verschil in microfoonkarakteristiek en/of kamerakoestiek). De parameters van het front-end ruismodel dienen eveneens online te worden geschat, zodat adaptatie aan de zich wijzigende omgevingskarakteristieken mogelijk wordt. Daartoe stellen we een uitbreiding voor van twee bestaande ruisschattingstechnieken, namelijk MS en IMCRA. Verder wordt de variantie op de schatting van de kenmerkenvectoren van zuivere spraak, die een maat voor de resterende onzekerheid vertegenwoordigt, in rekening gebracht. Binnen dit "uncertainty decoding" paradigma vervangen we de veelgebruikte Gaussiaanse kansdichtheidsfunctie door een discrete functie. Daarnaast ontwikkelen we twee methodes waarbij informatie van het backend akoestisch model wordt aangewend om een verbeterde schatting op te stellen van zuivere spraak. Eveneens stellen we een eenvoudige, maar erg efficiënte techniek voor die gerelateerd is aan de bovenstaande methodes, namelijk multi-kandidaat MBFE. Tenslotte wordt de relatie tussen het MBFE algoritme en het multi-modaal Kalman filter (KF) analytisch aangetoond. Dit raamwerk laat ons toe om tevens het sequentiële karakter van spraak te modelleren. Voor het KF met constante systeemmatrices is bovendien een computationeel aantrekkelijke implementatie mogelijk. Daarnaast beschouwen we het "unscented" Kalman filter om de linearisatie van de relatie tussen spraak, ruis en ruizige spraak in het cepstraal domain te omzeilen. De besproken technieken werden uitgebreid getest op twee standaarddatabanken, namelijk AURORA2 en AURORA4. Experimentele resultaten bevestigen dat een significant betere performantie wordt behaald met deze nieuwe technieken. Op de AURORA4 herkenningstaak behalen we met de MBFE uitbreidingen de beste performantie van alle gepubliceerde resultaten. It is well-known that the accuracy of an automatic speech recognition (ASR) system significantly decreases in noisy environments, if no measures are taken. The main objective of this work is to increase the robustness of an ASR-system to the detrimental effect of time-varying noise distortions. To this end, we chose a preprocessing step at the feature vector level that incorporates prior knowledge on the structure of speech and noise, namely Model-Based Feature Enhancement (MBFE). We illustrate that using a front-end model for speech and noise offers a great scalability, but it also implies a trade-off between the recognition accuracy and the computational complexity of the system. A new, iterative method is presented to simultaneously remove the additive background noise and the convolutional distortions (difference in microphone and/or channel). The parameters of the front-end noise model also require an online adaptation to the changing characteristics of the environment. To this end, we extend two existing noise estimation techniques, namely MS and IMCRA. Then, the variance of the clean speech estimator, which represents the residual uncertainty, is incorporated in the recognition process. Within this "uncertainty decoding" paradigm, we successfully replace the often-used Gaussian observation pdf by a discrete pdf. Apart from that, we develop two techniques that incorporate information from the backend acoustic model to improve the clean speech estimate. Also, a simple but very efficient approach is proposed, that is related to the above methods, namely multi-candidate MBFE. Finally, the relationship between the MBFE algorithm and the multi-modal Kalman filter (KF) is analytically investigated. This framework allows us to model the sequential nature of speech. Moreover, the KF system matrices are constant, which allows a computationally efficient implementation. Also the "unscented" KF is considered to avoid the linearisation of the cepstral domain relationship between speech, noise and noisy speech. The described robustness techniques are extensively evaluated on two benchmark databases, namely AURORA2 and AURORA4. Experimental results confirm that a superior performance is achieved with these new techniques. On AURORA4, the MBFE extensions give by far the best performance among all published results. In dit proefschrift werd een techniek ontwikkeld die de nauwkeurigheid van systemen voor automatische spraakherkenning (ASH) drastisch doet toenemen in een realistische omgeving met storende achtergrondgeluiden. Door deze nieuwe methode worden ASH-systemen ook bruikbaar in alledaagse "ruizige" omstandigheden. Grootschalige herkenningsexperimenten toonden aan dat het aantal foutief herkende woorden typisch met een derde tot de helft vermindert, wanneer onze techniek wordt geïntegreerd in het systeem. ASH is het proces waarbij een spraaksignaal wordt omgezet naar tekst of naar een gepaste actie (commando) door middel van een computerprogramma. Uiteenlopende toepassingen worden mogelijk gemaakt door deze technologie, zoals PC dicteersoftware, stembestuurde navigatiesystemen, computerondersteuning bij het aanleren van een (vreemde) taal, enz. Eén van de resterende problemen bij het toepassen van een ASH-systeem is de grote gevoeligheid van het systeem aan tijdsvariërende achtergrondgeluiden die het opgenomen spraaksignaal verstoren. Hierbij denken we bijvoorbeeld aan de rolgeluiden in een wagen of in een trein, simultane gesprekken, achtergrondmuziek, straatlawaai,... die de kwaliteit van het spraaksignaal aantasten. Door het aanwenden van een voorverwerkingsstap waarin de nadelige invloeden van ruis uit het opgenomen signaal worden verwijderd, slaagden we erin om het ASH-systeem robuust te maken tegen dergelijke verstoringen. De kern van onze aanpak is een methode die voorkennis over de structuur van zuivere spraak en ruis in rekening kan brengen, namelijk modelgebaseerde kenmerkenverbetering (MBFE). Verschillende succesvolle uitbreidingen van het MBFE-algoritme werden voorgesteld. Hierdoor kunnen de achtergrondgeluiden en de variaties in microfoonkarakteristieken of kamerakoestiek gemeenschappelijk worden verwijderd. Bovendien worden de parameters van het algoritme elke seconde aangepast aan de zich wijzigende omgevingskarakteristieken. Daarnaast werd een efficiënte techniek (multi-kandidaat MBFE) ontwikkeld die de resterende onzekerheid over de geschatte waarde van zuivere spraak in rekening brengt tijdens de herkenningsfase. Tenslotte werd het MBFE-algoritme gerelateerd aan het multi-modaal Kalman filter, waardoor tevens het sequentiële karakter van spraaksignalen kan worden gemodelleerd. De besproken technieken werden uitvoerig gevalideerd op twee standaarddatabanken, namelijk een klein vocabularium cijferherkenningstaak (AURORA2) en een groot vocabularium dicteertaak (AURORA4). Elk van deze uitbreidingen leverde een significante stijging van de gemiddelde woordherkenningsgraad op.

Listing 1 - 10 of 94 << page
of 10
>>
Sort by