Narrow your search

Library

KU Leuven (4)


Resource type

dissertation (4)


Language

Dutch (3)

English (1)


Year
From To Submit

2022 (1)

2021 (1)

2020 (1)

2018 (1)

Listing 1 - 4 of 4
Sort by

Dissertation
Invloed van het geslacht van de spreker en luisteraar en persoonlijke appreciatie van het verhaal op de neurale tracking van de spra akomhullende.

Loading...
Export citation

Choose an application

Bookmark

Abstract

In deze masterproef wordt de invloed van verschillende parameters op neurale tracking van een spraakomhullende onderzocht. Dit is hoe de neuronen in de auditieve cortex reageren op de spraakomhullende. Op basis van hoe sterk dit verband is, kan spraakverstaanbaarheid geschat worden. De onderzochte parameters zijn: geslacht van de luisteraar, geslacht van de spreker en persoonlijke appreciatie van de luisteraar. Vijfentwintig normaalhorenden (10 mannen en 15 vrouwen) tussen 18 en 30 jaar, werden eerst gescreend door middel van een vragenlijst en toonaudiometrie. Daarnaast werd ook spraakaudiometrie afgenomen. Tot slot ondergingen de deelnemers een EEG-meting terwijl ze naar verhalen luisterden. De data werd verwerkt met een lineaire decoder en een neuraal netwerk. De resultaten hiervan geven weer hoe goed de neurale tracking van de spraakomhullende was. De resultaten van deze masterproef geven weer dat vrouwen een betere schatting van de neurale tracking van de omhullende van het spraaksignaal vertoonden dan mannen. Deelnemers hadden ook een betere neurale tracking wanneer ze naar mannelijke sprekers of mannelijke shifted sprekers luisterden. Dit is de stem van een man waarop een vocoder gebruikt werd om de stem vrouwelijker te doen klinken. De persoonlijke appreciatie van de deelnemer werd in kaart gebracht met een semantische differentiaalschaal en een Likertschaal. De neurale tracking van de omhullende van spraak werd beïnvloed door hoe plezant de luisteraar de spreker vond en hoe meeslepend de luisteraar het verhaal vond. Deze bevindingen hebben implicaties in het onderzoek naar de neurale tracking van de spraakomhullende. De gebruikte modellen, een lineaire decoder en een neuraal netwerk model, gaven niet altijd dezelfde resultaten weer. De verschillen tussen de beide modellen kunnen hiervan aan de oorsprong liggen. Het neuraal netwerk is namelijk getraind op andere personen dan de deelnemers in deze studie en is geëvalueerd op de deelnemers in dit onderzoek. Dit wil zeggen dat het neuraal netwerk waarschijnlijk eerder algemene patronen kan herkennen, terwijl de lineaire decoder afzonderlijk voor elke deelnemer getraind is, waardoor deze zich volledig kan toespitsen op persoonlijke verschillen. Een ander verschil is dat het neuraal netwerk niet-lineair is en vier maal meer parameters bevat dan de lineaire decoder. Dit zou het neuraal netwerk meer capaciteit moeten geven om complexere verbanden te modelleren. Er kan dus besloten worden dat de neurale tracking van de spraakomhullende beïnvloed wordt door het geslacht van de luisteraar, het geslacht van de spreker en de persoonlijke appreciatie van de luisteraar.

Keywords


Dissertation
Het effect van verschillende stimuli op een objectieve maat van spraakverstaanbaarheid

Loading...
Export citation

Choose an application

Bookmark

Abstract

Momenteel worden er gedragsmatige testen afgenomen om spraakverstaanbaarheid in kaart te brengen. Deze testen vereisen echter medewerking van de patiënten wat voor bepaalde populaties (baby’s, jonge kinderen etc.) moeilijk is. Er is dus nood aan een objectieve maat van spraakverstaanbaarheid die geen medewerking vereist. In deze masterproef onderzoeken we hoe de objectieve maat van spraakverstaanbaarheid beïnvloed wordt door verschillende soorten aangeboden spraak. Deze objectieve maat is gebaseerd op het meten van hersenpotentialen opgewekt door spraakstimuli. De gebruikte spraakstimuli zijn audioboeken, podcasts (fragmenten van de Universiteit van Vlaanderen) en verhalen voor kinderen (o.a. sprookje Milan). Er namen 69 normaalhorenden (4 mannen, 65 vrouwen) deel aan het onderzoek. Dit onderzoek bestond uit een screening door middel van een vragenlijst, toonaudiometrie en een Matrix test, gevolgd door een EEG-meting. Tijdens de EEG-meting werden de deelnemers verzocht aandachtig te luisteren naar de spraakstimuli. In deze masterproef gaan we na of er een effect is van de verschillende spraakstimuli (audioboeken, podcasts en verhalen voor kinderen) op twee objectieve maten van spraakverstaanbaarheid: de lineaire decoder en het dilated convolutional neural network. De lineaire decoder probeert de spraakomhullende uit het EEG-signaal te reconstrueren. Het dilated convolutional neural network probeert de omhullende te identificeren die correspondeert met het EEG. We kijken welk model een betere performantie behaalt. Daarnaast gaan we de invloed van visuele ondersteuning bij auditief aangeboden stimuli op de performantie van de modellen na. Het dilated convolutional neural network blijkt robuust te performeren: er is geen significant verschil tussen verschillende soorten verhalen. De reconstructiescore voor de lineaire decoder is significant lager voor podcasts in vergelijking met audioboeken. Er is geen verschil in performantie van de modellen gevonden bij audio of audiovisuele aanbieding voor beide modellen. Deze resultaten dragen bij aan het doel om tot een objectieve maat te komen die hetzelfde resultaat behaalt onafhankelijk van spraakmateriaal of visuele (afleidende) stimuli. Dit kan leiden tot een betere objectieve maat die gebruikt kan worden voor de instelling van hoorapparaten en cochleaire implantaten.

Keywords


Dissertation
Detectie van pathologieën door machine learning

Loading...
Export citation

Choose an application

Bookmark

Abstract

Deze thesis onderzoekt of pathologieën, zoals depressie, kunnen gedetecteerd worden door machine learning. Een gepubliceerde dataset van Kaggle, gebaseerd op een vragenlijst, is de basis voor dit onderzoek. De vragenlijst bestaat uit vragen over algemene, persoonlijke informatie (leeftijd, geslacht, …) en mogelijke pathologieën (depressie, sociale angst, …). De dataset bevat 469 datapunten (ingevulde vragenlijsten) en de antwoorden op 15 van de 18 vragen zijn categorisch van aard. Eén van de vragen is of de persoon een zelfmoordpoging ondernomen heeft. Concreet werd in deze thesis een machine learning model ontwikkeld dat het antwoord op die vraag kan voorspellen aan de hand van de andere antwoorden van een persoon. Ook voor nieuwe data moet het model een correcte voorspelling kunnen maken. Om een optimaal model te vinden, werd op iteratieve wijze te werk gegaan. Eerst werden foutieve spellingen van antwoorden verbeterd en onzinnige of onmogelijke antwoorden verwijderd. De verwijderde antwoorden werden per vraag vervangen door het meest frequente antwoord om het verlies van nuttige data te beperken. Daarna werd de dataset verkend met statistische technieken (Chi kwadraat,…) en visualisaties om inzichten te verwerven over de structuur van de data. Hieruit bleek dat de te voorspellen antwoorden sterk ongebalanceerd zijn: slechts 18.12% antwoordde “Yes” op de vraag of de persoon al een zelfmoordpoging had ondernomen. Aangezien de meeste machine learning algoritmes geschaalde numerieke waarden als input verwachten, werden de tekstuele antwoorden geconverteerd naar numerieke waarden en daarna geschaald. Vervolgens werden verschillende machine learning modellen (KNN, SVM, …) getraind, geoptimaliseerd en getest. Voor optimalisatie werd een maatstaf gekozen om de kwaliteit van het machine learning model efficiënt te doen toenemen. Omdat de te voorspellen klassen ongebalanceerd zijn, werd de average precision score in plaats van het veel gebruikte accuraatheid gekozen als maatstaf. De hyperparameters van elk model werden geoptimaliseerd met cross validatie om over- en underfitting te beperken. Met verschillende scores, testen en visualisaties (F1-score, …) werden de geoptimaliseerde modellen geëvalueerd. Uit die evaluatie werden inzichten verworven om de modellen verder te optimaliseren. Methoden zoals boosting en bagging werden gebruikt om de bias en de variantie te verlagen, evenals feature selectie, ensemble methoden of model gerelateerde technieken. Ten slotte werd uit deze modellen het beste model gekozen. Door de beperkte grootte van de dataset en de onbalans tussen de te voorspellen klassen werden geen hoge scores behaald, al is verbetering door de optimalisatiemethodes zichtbaar. Om het machine learning model in een praktische toepassing te kunnen gebruiken werd zowel een Androidapplicatie als een serverapplicatie ontwikkeld. Via de Androidapplicatie kunnen gebruikers een vragenlijst invullen. Als de gebruiker zijn antwoorden bevestigt, worden de antwoorden verstuurd naar de server. De server bewaart de data en maakt op basis daarvan een voorspelling. De gebruiker ontvangt die voorspelling in de applicatie. De implementatie van de server is herbruikbaar voor andere toepassingen die dataopslag, training van modellen, maken van voorspellingen en/of berichtgeving van voorspellingen vereisen. Wegens de gevoelige aard van de vragenlijst is noch de server, noch de Androidapplicatie publiekelijk gebruikt.

Keywords


Dissertation
Decoding Speech From The Brain Using Deep Learning – Transfer Learning for Individualisation

Loading...
Export citation

Choose an application

Bookmark

Abstract

Hearing loss affects millions of people worldwide and can result into a significantly poor quality of life for those affected. Current speech audiometry tests measure the speech understanding of a person and require behavioral responses from the person, which in practice is not always possible (e.g. young children, comatose patients, etc.). However, there have been advancements in the objective tests of speech intelligibility. Recent studies show that speech intelligibility can be measured by letting a person listen to natural speech, wherein EEG responses are recorded simultaneously and the speech envelope can be decoded from the EEG signal. Recent approaches inspired from auditory attention detection (AAD) use classifiers based on Convolutional Neural Networks in a match/mismatch paradigm. In the match/mismatch paradigm, the classifier decides which of the stimulus sample produced a given EEG response and which sample was an imposter sample or a mismatch. However, inter- and intra-subject variability and an insufficient amount of training data make it difficult to reach high accuracy using these methods. This study aims to improve the performance of DL models using two approaches based on transfer learning. The first approach is based on a dilated convolutional neural network model developed at ExpORL, such as in WaveNet. This model uses a match/mismatch classification approach for relating speech to EEG and has significantly outperformed linear and CNN based models. Our approach focuses on developing a subject independent model and using it to initialise the models for each of the test subjects, thereby leading to individualisation. The second approach focuses on implementation of pretrained models like VGG16 and VGGish to facilitate a transfer of low-level features or feature embeddings. In the first scenario, transfer learning approach increases the performance of the models compared to subject independent model. However, the pretrained models perform poorly, thereby not best suited for this task.

Keywords

Listing 1 - 4 of 4
Sort by