Listing 1 - 10 of 679 | << page >> |
Sort by
|
Choose an application
Choose an application
Dit doctoraat levert een bijdrage aan het onderzoeksdomein van digitale spraak- en audioverwerking. Meer specifiek worden subruimte ontbindingen uitgevoerd op observatiematrices die worden geconstrueerd uit korte spraak- en audiosegmenten, met een tweeledig doel : signaalmodellering (of compressie) en signaalverbetering. De signaalverwerking wordt hierbij gestuurd door een psycho-akoestisch model om de beperkingen van het menselijk gehoor optimaal te kunnen benutten. Heteerste deel van dit werk handelt over perceptuele spraak- en audiomodellering. Het objectief van dit onderzoek is de transformatie van digitale signalen naar een compacte set van beschrijvende parameters die - in combinatie met het aangenomen signaalmodel - toelaten om een signaal te construeren dat perceptueel niet te onderscheiden valt van het originele signaal. Algoritmen voor de analyse, codering en resynthese van digitale spraak- en audiosignalen vereenvoudigen de efficiente opslag en verspreiding van deze signalen (bv. de MP3-standaard voor perceptuele audiocodering). Onze belangrijkste bijdrage is de ontwikkeling van een nieuw model voor de ontbinding van spraak- en audiosignalen in een eindige som van gedempte sinusoiden. Deze ontbinding is gebaseerd op een projectie van het originele signaal op een lagerdimensionale subruimte met behulp van totale kleinste kwadraten (TKK) algoritmen. Dankzij de invoeging van een psycho-akoestisch model slagen we erin om het aantal benodigde modelleringsparameters minimaal te houden, aangezien enkel de perceptueel relevante gedempte sinusoiden uit het signaal worden geextraheerd. Door het gebruik van een subband schema wordt daarenboven de benodigde rekentijd drastisch gereduceerd. Het exponentieel sinusoidaal model (ESM) is een veralgemening van het traditionele sinusoidaal model (SM) en is geschikt voor de representatie van zowel tonale als transitionele geluidssegmenten. Computersimulaties bevestigen de doeltreffendheid van het perceptueel TKK-ESM model, hetgeen perspectieven biedt voor de aanwending van dit model in het veelbelovende domein van parametrische audiocodering aan erg lage bitsnelheden. In het tweede deel van dit werk onderzoeken we het potentieel van subruimte technieken voor de verwijdering van additieve ruis uit spraaksignalen. Door het wijdverspreide gebruik van lage-kost en/of hardware-gelimiteerde communicatietoestellen in ongecontroleerde omgevingen (bv. mobiele telefoon, hoorapparaten), is spraakverbetering een belangrijke component geworden om de kwaliteit en de verstaanbaarheid van de opgenomen en/of overgezonden spraak te verhogen. Spraakverbetering d.m.v. subruimte filtering is gebaseerd op de orthogonale ontbinding van de observatieruimte van ruizige spraak in een (spraak + ruis) subruimte en een (enkel ruis) subruimte. In dit werk leveren we een uitgebreide analyse van subruimtegebaseerde spraakverbetering en ontwikkelen we een theoretische bovengrens voor de grootte van de ruisreductie. Daarnaast presenteren we een algoritme dat toelaat om de hoorbaarheid van de residuele ruis te minimaliseren door hem de vorm te laten aannemen van de maskeercurve van het ingangssignaal. Een andere originele bijdrage is de studie van subruimte filtering als techniek om de robuustheid van automatische spraakherkenners (ASH) in omgevingen met gekleurde en additieve ruis te verhogen. Herkenningsexperimenten met de Resource Management databank tonen aan dat subruimte-gebaseerde spraakverbetering in deze context tot betere herkenningsresultaten leidt dan standaardtechnieken als Wiener filtering en spectrale subtractie. This thesis contributes to the research domain of digital speech and audio processing. In particular, we apply signal subspace decompositions to observation matrices that are constructed from short-time speech and audio segments, with a twofold objective : signal modelling (or compression) and signal enhancement. The signal processing is guided by a psycho-acoustic model in order to maximally exploit the limitations of human auditory perception. The first part of this work deals with perceptual speech and audio modelling. The objective of this research is to transform digitised signals into a compact set of describing parameters that - in combination with the adopted signal model - allows to synthesise a signal that is perceptually indistinguishable from the original one. Algorithms for the analysis, coding and resynthesis of digital speech and audio signals facilitate the efficient storage and distribution of these signals (such as the MP3-standard for perceptual audio coding). Our main contribution is the derivation of a new model for the decomposition of speech and audio signals into a finite sum of exponentially damped sinusoids. This decomposition is based on a projectionof the original signal onto a lower-dimensional subspace with total least squares (TLS) algorithms. By the inclusion of a psychoacoustic model, we manage to keep the number of modelling parameters minimal since only perceptually relevant damped sinusoids are extracted from the signal. Additionally, we propose a subband TLS approach which significantly reduces the computational load. The exponential sinusoidal model (ESM) is a generalisation of the traditional sinusoidal model (SM) and is suited for the representation of both tonal and transient signal parts. Simulations confirm the effectiveness of the perceptual TLS-ESM model, which opens perspectives for the application of this model in the promising domain of parametric audio coding at very low bit rates. In the second part of this thesis we investigate the potential of subspace techniques to remove additive noise distortions from speech signals. Considering the widespread use of low-cost and/or limited-hardware communication devices in uncontrolled environments (e.g. mobile phone, hearing aids), speech enhancement has become a crucial part in communication systems to improve the quality and intelligibility of the recorded and/or transmitted speech. In subspace filtering, speech enhancement is based on the orthogonal decomposition of the noisy speech observation space into a (speech + noise) subspace and a noiseonly subspace. In this thesis we provide an extensive analysis of subspace-based speech enhancement and derive a theoretical upper bound for the degree of noise reduction. Also, we outline an algorithm that allows to minimise the audibility of the residual noise by shaping it according to the masking threshold of the input signal. Another original contribution is the evaluation of subspace filtering as a tool to increase the robustness of automatic speech recognisers (ASR) in environments with additive coloured noise. Recognition experiments on the Resource Management benchmark database reveal that in this context subspace filtering leads to better recognition results than standard techniques like Wiener filtering and spectral subtraction. Het menselijk gehoor heeft heel wat beperkingen, en daar kunnen we handig gebruik van maken. Zo kan bijvoorbeeld een luider signaal een ander, zwakker signaal onhoorbaar maken. We noemen dit effect maskering. Wanneer we nu de onhoorbare informatie uit een geluidssignaal weglaten, bekomen we compressie. Dit is wat er onder meer gebeurt bij de codering van de populaire MP3 audiobestanden, waar een compressie van ongeveer een factor 10 t.o.v. het klassieke CD audioformaat wordt bereikt. De opslag en de verspreiding van audiobestanden gaat dankzij deze compressie een heel stuk makkelijker. De beperkingen van ons gehoor hebben nog een ander voordeel. Het komt vaak voor dat een audio- of spraaksignaal vervormd is (bv. als gevolg van een ruisbron of door het gebruik van minder goede opname-apparatuur) zonder dat deze vervormingen door ons gehoor waargenomen worden. Anders gezegd, ons gehoor lijkt de vervormingen voor een deel te kunnen negeren. Ook hier gaat het om maskering. Bij het onderdrukken van een ruisvervorming (denk aan Dolby ruisonderdrukking) volstaat het dus om enkel die ruis weg te nemen die door de luisteraar zou kunnen waargenomen worden. Indit werk worden technieken ontwikkeld voor zowel de modellering (compressie) als de verbetering (ruisreductie) van audio- en spraaksignalen, daarbij gebruik makend van het maskeereffect. We noemen dit perceptuele signaalverwerking. De algoritmen die hiervoor worden gebruikt dragen de naam signaal subruimte ontbindingen. Kort gezegd komt het hierop neer dat de geluidssignalen geanalyseerd worden in een hoger-dimensionale ruimte. Door ze te projecteren op een lager-dimensionale subruimte kan zowel compressie als ruisreductie worden bekomen. In het eerste deel ontwikkelde Kris Hermus een nieuwe techniek voor de perceptuele ontbinding van geluidssignalen in exponentieel gedempte sinusoiden. Een dergelijk model kadert in de nieuwe MPEG-4 standaard voor parametrische audio codering. Hiermee worden audiobestanden bekomen die nog compacter zijn dan de MP3 bestanden. Maar de techniek biedt ook volop nieuwe mogelijkheden om het muzieksignaal te manipuleren (bv. versneld of vertraagd afspelen zonder vervorming, een mannenstem omzetten in een vrouwenstem en vice-versa). In een tweede deel wordt een uitgebreide studie van subruimte-gebaseerde spraakverbetering beschreven. Kris Hermus ontwikkelde onder meer een techniek voor perceptuele ruisonderdrukking. Daarnaast wordt ook aangetoond dat met subruimte-gebaseerde spraakverbetering de ruisrobuustheid van automatische spraakherkenners aanzienlijk kan worden verbeterd. Dit kan onder meer worden gebruikt om de betrouwbaarheid van stemgestuurde apparaten zoals GSM toestellen en navigatiesystemen in een auto te verbeteren.
Choose an application
Choose an application
681.3*G12 <043> --- 681.3*I26 <043> --- Academic collection --- Numerical analysis. Approximation--Dissertaties --- Learning: analogies; concept learning; induction; knowledge acquisition; language acquisition; parameter learning (Artificial intelligence)--See also {681.3*K32}--Dissertaties --- Theses --- 681.3*I26 <043> Learning: analogies; concept learning; induction; knowledge acquisition; language acquisition; parameter learning (Artificial intelligence)--See also {681.3*K32}--Dissertaties
Choose an application
681.3*G12 <043> --- Academic collection --- Approximation: chebyshev; elementary function; least squares; linear approximation; minimax approximation and algorithms; nonlinear and rational approximation; spline and piecewise polynomial approximation (Numerical analysis)--Dissertaties --- Theses
Choose an application
681.3*I26 <043> --- Academic collection --- Learning: analogies; concept learning; induction; knowledge acquisition; language acquisition; parameter learning (Artificial intelligence)--See also {681.3*K32}--Dissertaties --- Theses --- 681.3*I26 <043> Learning: analogies; concept learning; induction; knowledge acquisition; language acquisition; parameter learning (Artificial intelligence)--See also {681.3*K32}--Dissertaties
Choose an application
Choose an application
Aangezien de tunneloxidedikte in Flash geheugens amper verlaagd kan worden is het eventueel noodzakelijk een tunnelbarriere met hogere prestaties te gebruiken. In dit werk wordt hiervoor een nieuwe barriereontwerpmethodologie voorgesteld: de Variot stapel die verhoogde prestaties verstrekt door het gebruik van materiaallagen met verschillende permittiviteit. Ten einde de Variot stapels te karakteriseren zijn nieuwe meettechnieken ontwikkeld om de ladingsvangst in high-k lagen te meten en heteffect ervan op stroommetingen te beperken. Het gedrag van Variot stapels is geanalyseerd met behulp van deze en conventionele technieken. Bovendien zijn Variot stapels geıntegreerd in pseudocellen, enkelvoudige poly geheugencellen en 180 nmHIMOSTM Flash cellen. Programmeren en wissen door tunnelen met slechts 6V door een Variot stapel is gedemonstreerd. Een redelijke duurzaamheid en 10 jaar ladingsbehoud aan hoge temperatuur zijn eveneens gedemonstreerd op de zelfde cellen, tonende dat de Variot een geschikte oplossing is voor de schalingsproblemen van Flash geheugen. As the tunnel oxide thickness in Flash memory cells can hardly bereduced, a need can exist for using a higher performance tunnel barrier. In this work, a new tunnel barrier engineering methodology is proposed: the Variot stack that provides enhancedperformance by using material layers with different permittivity. In order to characterize Variot stacks, new measurement techniques have been developed for measuring charge trapping in the used high-k layers and for limiting the effect on current measurement. The behavior of the Variot stacks in capacitors has been analyzed using these and conventional techniques. Furthermore, Variot stacks have been integrated in pseudocells, single poly memory cells and 180 nm HIMOS Flash cells. Tunnelprogramming and erase has been demonstrated using only 6V. Reasonable endurance characteristics and 10 years of high-temperature data retention have also been demonstrated on the same cells, therefore showing that the Variot is a suitable solution to the Flash scaling problems. Regelmatig kunnen grotere en goedkopere Flash geheugens gemaakt worden omdat de geheugencellen verkleind (geschaald) kunnen worden. Dit schalen wordt in de nabije toekomst (65 nm generatie die in 2007 op de markt moet komen) bijzonder moeilijk of zelfs onmogelijk omdat de spanning die nodig is voor het schrijven en wissen van de geheugens niet verlaagd kan worden. Een belangrijke reden hiervoor is dat het tunneloxide, dat de doorgang is langs dewelke het geheugen geprogrammeerd en gewist wordt niet meer dunner gemaakt kan worden aangezien de gegevens gedurende 10 jaar onthouden moeten worden zonder langs dit oxide weg te lekken. Een oplossing is het vervangen van het tunneloxide door een complexe stapel; de Variot stapel die in dit werk voorgesteld is zorgt voor een spanningsvermindering van meer dan 40% in geheugencellen, waardoor verder schalen van geheugencellen mogelijk wordt. In dit werk is een uitgebreide studie gemaakt van het gedrag van dergelijke Variot stapels met klassieke en nieuw ontwikkelde meettechnieken. De Variot stapels zijn in geheugencellen ingebouwd om de werkzaamheid en de betrouwbaarheid aan te tonen. Een redelijke duurzaamheid en 10 jaar gegevensbehoud aan hoge temperatuur (80C-120C) zijn verkregen, wat aantoont dat de Variot stapel een geschikte oplossing is voor het schalen van Flash geheugens na 2007. Periodically, larger and cheaper Flash memories can be manufactured because the size of the memory cells can be reduced (scaled). This scaling becomes problematic if not impossible in a very close future (65 nm generation to be in mass production in2007), as the voltage that is necessary for writing and erasing of the memories cannot be lowered. An important cause for this problem is that the thickness of the tunnel oxide, which is the passage through which the memory is programmed and erased, can not be reduced any more: a Flash memory needs to retain the data during 10 years without leaking away through this oxide. A possible solution is replacing the tunnel oxide by a complex stack; the Variot stack as presented in this work leads to a voltage reduction of more than 40% in memory cells. Therefore, further scaling of memory cells becomes possible. In this work, an extensive study is made of the Variot stack using traditional and newly developed measurement techniques. Furthermore, the Variot stacks are integrated in memory cells, demonstrating the functionality and reliability. These cells achieve a reasonable endurance as well as 10 years of data retention at elevated temperature (80C-120C). Therefore, the Variotstack is a suitable solution for scaling of Flash memory after 2007.
Choose an application
Choose an application
Listing 1 - 10 of 679 | << page >> |
Sort by
|