Narrow your search

Library

ULiège (1)


Resource type

dissertation (1)


Language

French (1)


Year
From To Submit

2017 (1)

Listing 1 - 1 of 1
Sort by

Dissertation
Inférence de réseaux génétiques à partir de la littérature scientifique de Chlamydomonas reinhardtii : conception d'un package R
Authors: --- --- --- ---
Year: 2017 Publisher: Liège Université de Liège (ULiège)

Loading...
Export citation

Choose an application

Bookmark

Abstract

La fouille de textes (text mining) comme outil de création automatique de réseaux génétiques.

Avec l’amélioration constante de la vitesse et de l’accessibilité des techniques de génomique, transcriptomique et protéomique, la quantité de données disponible pour ces secteurs de recherche ne cesse d’augmenter. Malheureusement, la majorité de ces informations est encore stockée sous forme de documents textes non structurés et ce malgré la présence de certaines bases de données spécialisées.

Toutefois, une technique existe pour interpréter automatiquement ces documents textes et en retirer les informations utiles : la “fouille de textes” (text mining). Bien que généralement utilisée dans d’autres secteurs que la biologie, par exemple pour extraire les mots revenant le plus souvent sur twitter, elle est toutefois capable d’isoler des informations bien plus ciblées telle que la relation entre deux gènes.
Cette technique consiste à appliquer des analyses statistiques sur l’ensemble des mots issus d’un groupe de textes qui aura préalablement subi différents traitements tels que la séparation en phrases, la suppression de la ponctuation, etc …

Le but était ici de développer un package R capable de rechercher automatiquement, sur base d’un ou plusieurs mot clé spécifiés par l’utilisateur (Chlamydomonas reinhardtii, …), les documents disponibles sur une base de données (“PubMed”, …), de les analyser et d’en extraire un réseau génétique d’interactions entre les différents gènes issus de ces documents.

Au final, malgré l’identification de relations entre gènes d’espèces différentes à cause de sa capacité à isoler les gènes de plusieurs espèces, les prédictions générées par notre modèle peuvent être considérées comme satisfaisantes (score F1 de 68% pour l’identification des gènes dans le corpus CRAFT) compte tenu du fait qu’il n’utilise aucune ressource externe spécifique au type d’organisme analysé.

La version finale de la librairie R “GeneMining” construite tout au long de ce mémoire est disponible sur le site http://www.biosys.ulg.ac.be/students/Lete/GeneMining_0.4.0.tar.gz.
Enfin, les résultats intermédiaires obtenus au cours de ce mémoire ont fait l’objet de l’écriture
d’un article pour la sixième conférence internationale de bioinformatique et sciences biomédicales à Singapour. L’article en question peut être consulté à l’adresse suivante : http://www.biosys.ulg.ac.be/students/Lete/ICBBS2017.pdf.

Listing 1 - 1 of 1
Sort by