TY - THES ID - 146393460 TI - Perception de l'aspect naturel de phonèmes produits avec différentes méthodes de synthèse de la parole AU - Fontaine, Camille AU - Remacle, Angélique AU - Blandin, Rémi [ext016] AU - Didone, Vincent AU - Warnier, Morgane PY - 2022 PB - Liège Université de Liège (ULiège) DB - UniCat KW - Hautes fréquences KW - Perception KW - Phonèmes KW - Synthèse de la parole KW - Modélisations physiques KW - Modèles acoustiques KW - Sciences sociales & comportementales, psychologie > Multidisciplinaire, généralités & autres UR - https://www.unicat.be/uniCat?func=search&query=sysid:146393460 AB - La parole de synthèse peut-être réalisée via diverses méthodes, notamment la synthèse articulatoire. Il existe différentes modélisations physiques : le modèle acoustique unidimensionnel (1D), le modèle acoustique tridimensionnel (3D) et le modèle d’algorithme d’extension (BWE). Le modèle 3D semble offrir la parole la plus naturelle (Gully, 2017). D’une part, il se base sur la forme précise du tractus vocal, générant des simulations acoustiques proches de la réalité, et d’autre part, il permet de modéliser correctement les hautes fréquences (HF) (> 5kHz) (Arnela et al., 2019 ; Freixes et al., 2018). Longtemps mises de côté dans les recherches sur la perception de la parole, ces HF connaissent un nouvel intérêt depuis plusieurs années, car elles semblent jouer un rôle important dans l’aspect naturel de la parole (Vitela et al., 2015 ; Monson & Caravello, 2019 ; Boyd-Pratt & Donnai, 2020 ; Birkholz & Drechsel, 2021). Ce mémoire s’inscrit dans un projet de développement d’un outil de synthèse articulatoire à large bande, dont l’aspect se veut le plus naturel possible. Notre objectif est de déterminer, pour la synthèse articulatoire, comment les différents modèles : 1D, 3D et BWE, impactent la perception de l’aspect naturel de la parole chez les jeunes adultes. Après avoir rempli un questionnaire anamnestique et passé une audiométrie tonale, 40 participants ont réalisé deux tâches expérimentales. La première tâche était une comparaison par paires, qui avait pour but de comparer l’aspect naturel des différents stimuli deux à deux. La seconde tâche était une évaluation de l’aspect naturel des stimuli, à l’aide d’une échelle métrique allant de 0 (pas du tout naturel) à 100 (totalement naturel). Ces tâches nous ont permis de répondre à trois hypothèses concernant le degré de réalisme physique des modèles acoustiques, et d’investiguer différentes questions de recherche concernant le genre de la voix de synthèse, la qualité vocale, et le type de phonème, et la fiabilité inter-juges. Les deux tâches expérimentales ont permis de mettre en avant plusieurs effets significatifs. Un effet significatif du modèle acoustique a été trouvé, de façon générale, le modèle 3D est plus naturel. Un effet significatif du type de phonème a montré que le degré de naturalité dépend du phonème. Une interaction a été trouvée entre le modèle acoustique et le type de phonème, révélant que l’aspect naturel des modèles diffère selon le type de phonème. Seule la seconde tâche expérimentale a permis de mettre en lumière un effet significatif du genre de la voix de synthèse, indiquant que la voix de synthèse masculine parait plus naturelle que la féminine. Ce mémoire a cherché à explorer le rôle des HF dans la perception des phonèmes selon différents degrés de réalismes physiques de modèles acoustiques. ER -