Listing 1 - 2 of 2 |
Sort by
|
Choose an application
Les hautes fréquences (HF) de la parole (> 5 kHz) ont été ignorées dans la majorité des recherches jusque dans les années 2010, au profit de l’étude de l’énergie en basse fréquence (< 5 kHz) considérée comme suffisante pour l’intelligibilité de la parole (Boyd-Pratt & Donai, 2020 ; Monson & Caravello, 2019 ; Vitela et al., 2015). Jusqu’alors, aucune étude n’était pourtant parvenue à démontrer l’inutilité perceptive des HF (Monson, Hunter et al., 2014). La recherche de Birkholz et Drechsel (2021) a d’ailleurs suggéré leur potentiel rôle pour produire un signal de parole plus naturel. Ce mémoire s’inscrit dans un projet de développement d’une synthèse articulatoire à large bande à partir de deux types de modélisation physique des hautes fréquences : la modélisation unidimensionnelle (1D) et la modélisation tridimensionnelle (3D). Il vise à mieux comprendre et définir le lien entre la perception de la parole et les aspects physiques et acoustiques liés à sa production dans l’entièreté du registre fréquentiel audible (0.02 à 20 kHz). Une sensibilité auditive chez de jeunes adultes entre les modèles 1D et 3D pour la synthèse des HF devrait être objectivée. En outre, les stimuli générés avec le modèle 3D devraient être considérés comme plus naturels que ceux générés avec le modèle 1D, compte-tenu sa description plus complète des effets de la géométrie tridimensionnelle du tractus vocal sur ses propriétés acoustiques (Arnela et al., 2019). Après avoir complété un questionnaire anamnestique et réalisé une audiométrie tonale, 31 juges ont réalisé deux tâches perceptives. Une première tâche de discrimination de paires de stimuli a été proposée, au sein de laquelle les juges devaient indiquer si la paire était identique ou différente. La seconde tâche expérimentale consistait à évaluer l’aspect naturel de phonèmes sur une échelle de Likert allant de 0 « pas du tout naturel » à 3 « totalement naturel ». Ces expériences nous ont permis de répondre à plusieurs hypothèses concernant la modélisation utilisée, le genre de la voix de synthèse, le type de phonème et les fiabilités intra- et inter-juges. Un effet significatif concernant la perception de différences entre les modèles physiques 1D et 3D, avec une capacité de discrimination plus faible pour les paires 1D-3D, a été relevé au sein de la première tâche expérimentale. Aucun effet significatif concernant le modèle utilisé n’a pu être montré pour la seconde tâche, au sein de laquelle les stimuli 1D et 3D ont été considérés avec un degré de naturel similaire. En outre, peu importe la modélisation employée, nous avons constaté que l’aspect naturel dépend du phonème. Cette étude reste exploratoire dans la définition du rôle des HF pour la perception de la parole selon des modélisations physiques différentes. Des études confirmatoires sont donc nécessaires.
Choose an application
La parole de synthèse peut-être réalisée via diverses méthodes, notamment la synthèse articulatoire. Il existe différentes modélisations physiques : le modèle acoustique unidimensionnel (1D), le modèle acoustique tridimensionnel (3D) et le modèle d’algorithme d’extension (BWE). Le modèle 3D semble offrir la parole la plus naturelle (Gully, 2017). D’une part, il se base sur la forme précise du tractus vocal, générant des simulations acoustiques proches de la réalité, et d’autre part, il permet de modéliser correctement les hautes fréquences (HF) (> 5kHz) (Arnela et al., 2019 ; Freixes et al., 2018). Longtemps mises de côté dans les recherches sur la perception de la parole, ces HF connaissent un nouvel intérêt depuis plusieurs années, car elles semblent jouer un rôle important dans l’aspect naturel de la parole (Vitela et al., 2015 ; Monson & Caravello, 2019 ; Boyd-Pratt & Donnai, 2020 ; Birkholz & Drechsel, 2021). Ce mémoire s’inscrit dans un projet de développement d’un outil de synthèse articulatoire à large bande, dont l’aspect se veut le plus naturel possible. Notre objectif est de déterminer, pour la synthèse articulatoire, comment les différents modèles : 1D, 3D et BWE, impactent la perception de l’aspect naturel de la parole chez les jeunes adultes. Après avoir rempli un questionnaire anamnestique et passé une audiométrie tonale, 40 participants ont réalisé deux tâches expérimentales. La première tâche était une comparaison par paires, qui avait pour but de comparer l’aspect naturel des différents stimuli deux à deux. La seconde tâche était une évaluation de l’aspect naturel des stimuli, à l’aide d’une échelle métrique allant de 0 (pas du tout naturel) à 100 (totalement naturel). Ces tâches nous ont permis de répondre à trois hypothèses concernant le degré de réalisme physique des modèles acoustiques, et d’investiguer différentes questions de recherche concernant le genre de la voix de synthèse, la qualité vocale, et le type de phonème, et la fiabilité inter-juges. Les deux tâches expérimentales ont permis de mettre en avant plusieurs effets significatifs. Un effet significatif du modèle acoustique a été trouvé, de façon générale, le modèle 3D est plus naturel. Un effet significatif du type de phonème a montré que le degré de naturalité dépend du phonème. Une interaction a été trouvée entre le modèle acoustique et le type de phonème, révélant que l’aspect naturel des modèles diffère selon le type de phonème. Seule la seconde tâche expérimentale a permis de mettre en lumière un effet significatif du genre de la voix de synthèse, indiquant que la voix de synthèse masculine parait plus naturelle que la féminine. Ce mémoire a cherché à explorer le rôle des HF dans la perception des phonèmes selon différents degrés de réalismes physiques de modèles acoustiques.
Listing 1 - 2 of 2 |
Sort by
|