TY - THES ID - 3258697 TI - Example based continuous speech recognition AU - Wachter, Mathias De AU - Katholieke Universiteit Leuven PY - 2007 SN - 9789056828141 PB - Leuven Katholieke Universiteit Leuven DB - UniCat KW - 681.3*I27 <043> KW - Academic collection KW - 621.3 KW - Natural language processing: language generation; language models; language parsing and understanding; machine translation; speech recognition and under-standing; text analysis (Artificial intelligence)--Dissertaties KW - Electrical engineering KW - Theses KW - 621.3 Electrical engineering KW - 681.3*I27 <043> Natural language processing: language generation; language models; language parsing and understanding; machine translation; speech recognition and under-standing; text analysis (Artificial intelligence)--Dissertaties UR - https://www.unicat.be/uniCat?func=search&query=sysid:3258697 AB - De voorbije 25 jaar werd het onderzoek naar automatische spraakherkenning gedomineerd door systemen gebaseerd op verborgen Markov ketens (HMMs). In deze dissertatie onderzoeken we een alternatief, waarbij de te herkennen spraak wordt vergeleken met een groot aantal referentievoorbeelden. Motivatie voor deze aanpak vinden we zowel in een analyse van de zwakheden van verborgen Markov ketens, als in een vergelijking met andere onderzoeksgebieden zoals menselijke spraakverwerking, fonologie en automatische spraaksynthese. We ontwikkelen een volledig voorbeeldgebaseerd systeem voor continue spraakherkenning, waarbij vooral aandacht wordt besteed aan voorbeeldgebaseerde akoestische modellering, aan een nieuw model voor a priori waarschijnlijkheden van de herkenningshypotheses en aan de ontwikkeling van een efficiƫnt zoekalgoritme. Op bepaalde taken evenaart of verbetert het nieuwe systeem de herkenningsgraad van state-of-the-art HMM systemen, hetzij met een significant grotere behoefte aan rekenkracht. Over the past 25 years, research in automatic speech recognition has been dominated by systems based on hidden Markov models (HMMs). In this dissertation, an example based alternative is investigated, where the input speech is compared with a large number of reference templates. We find ample motivation for our approach in a study of the weaknesses of hidden Markov models, and in a comparison with other research domains such as human speech recognition, phonology and automatic speech synthesis. We develop a complete example based system for continuous speech recognition, focusing on example based acoustic modelling, on a new model for the prior probability of recognition hypotheses and on the development of an efficient search algorithm. On a number of tasks, the new system performs as good as or better than state-of-the-art HMM recognisers, although using a significantly larger amount of computational resources. Systemen voor automatische spraakherkenning zoeken de best passende tekstuele transcriptie van de opgenomen spraak door verschillende kennisbronnen te combineren. Het taalmodel bevat de kennis over hoe zinnen zijn opgebouwd, zowel qua syntax als qua semantiek, terwijl het akoestische model beschrijft welke waarnemingen (via de microfoon) worden gedaan voor de verschillende klanken. Deze dissertatie behandelt een vernieuwende aanpak voor het akoestische model. De huidige standaardsystemen beschrijven het akoestische model met statistische modellen. In dit werk vergelijken we de opgenomen spraak rechtstreeks met een heel groot aantal referentievoorbeelden, waarvan zowel de correcte klankidentiteit als de contextuele informatie volledig gekend is. Op deze manier hopen we de informatie, die verloren gaat bij het bouwen van een statistisch model, nuttig te kunnen gebruiken. Deze aanpak houdt twee grote uitdagingen in. De grote conceptuele uitdaging is het vinden van manieren om alle aanwezige informatie ook nuttig te gebruiken. De grootste praktische uitdaging is het beperken van de benodigde rekenkracht. Beide uitdagingen worden uitvoerig besproken, en de aangereikte oplossingen zorgen voor een nieuw type spraakherkenner dat op beperkte taken reeds lichtjes beter presteert dan de beste bestaande systemen, zij het met een veel grotere behoefte aan rekenkracht en geheugengebruik. Automatic speech recognition systems find the most likely textual transcription of recorded speech by combining different knowledge sources. The language model contains both syntactic and semantic knowledge, while the acoustic model describes which observations (made using a microphone) correspond to the different elementary sounds. This dissertation discusses a novel method for acoustic modelling. Current state-of-the-art systems use statistical acoustic models. In this dissertation, we instead compare the input speech with a very large number of reference examples whose exact transcription and contextual information is known. This way, we hope to be able to advantageously use the information which is normally lost in statistical model building. This approach faces two main challenges. The major conceptual challenge is the search for possible ways in which all the available information can be used. The major practical challenge is the limitation of the required computational resources. Both challenges are discussed in detail, and the proposed solutions lead to a new type of speech recognition system which already slightly outperforms traditional systems on limited tasks, although needing significantly more computational resources. ER -