Listing 1 - 10 of 212 | << page >> |
Sort by
|
Choose an application
The problem of reverse-engineering biological networks has attracted a lot of attention in the last decades. Studying the interactions occurring inside a living organism is of great importance to understand the behavior of biological systems. The development of computer science and the abundance of new genetic data raised the question of predicting gene regulatory networks. These networks describe how some genes regulate the expression of some other genes. Many methods have already been developed to infer these networks from gene expression data. Among them, GENIE3, a method based on Random Forests, was proposed and achieved state-of-the-art performance. However, one drawback of GENIE3 is its inability to use the specificities of some types of gene expression measurements, potentially missing useful information. In particular, datasets often include knockouts, which are measurements done after the deletion of a gene. This thesis proposes new variants for GENIE3, based on the idea of enriched random forests, in order to integrate knockout specific information as weights guiding GENIE3 to a better prediction. First, the methods are tested on ideal cases where a knockout of every gene is available. Better predictions are indeed achieved and several ways of achieving the best results are highlighted. Realistic cases are then tested. Less convincing results are then obtained, although interesting phenomena are discovered. The second part of the thesis studies the possibility of predicting the effect of knockouts. Differences and similarities with the GRN prediction problem are analyzed and a method of evaluation, although imperfect, is proposed. Several methods are then evaluated, showing relatively encouraging results. Some initiated reflections call for future developments. The possibility of using the proposed weighted GENIE3 methods in other situations is also briefly explained. Important improvements are indeed achieved on several datasets without the use of knockouts.
gene regulatory network --- machine learning --- random forest --- enriched random forest --- knockout --- GRN inference --- Z-score --- Ingénierie, informatique & technologie > Sciences informatiques
Choose an application
Many industries, among which the cement industry, have showed growing interest in the exploitation of its gathered data to optimize its production line. In this work, typical problems occuring in cement plant are addressed. The first one concerns the prediction of cyclones cloggings phenomena. Several methods are discussed in an attempt to solve this predictive maintenance problem. Whilst one method relies on operating points clustering via K-Means, the other one consists in modeling the problem as a binary classification task where samples close to cloggings get a value 1 and the normal samples get a value 0. After some processing to counteract the imbalanced dataset problem and a feature space reduction, the Random Forest, SVM and One-Class SVM algorithms are evaluated to conduct the classification. The second task was the prediction of the clinker quality based on some measurements inside the production line. Through the collection of raw meal quality, fuels flows and clinker quality measurements, a multivariate time series problem is established and an autoregressive model (VAR) is used in this forecasting task. In any case, the prediction performance is relatively low. Even if some alternative methods could improve the predictions, the main reasons explaining poor forecast can be found in the available dataset in which the sampling period of some key data was too low. Ultimately, the understanding of monitoring data obtained from industrial plants could result in efficiency improvements and cost reductions.
Choose an application
In Scotland, Sitka spruce represents the major timber resource. The regeneration of this species isabundant and occurs widely after clearfelling. Finding way to carry out affordable inventories of regeneration would help forest managers to make decision on the future of the regeneration resource. The deployment of Unmanned Aerial Vehicle (UAV) allows rapid assessment of forest and regenerationand it is likely to lead of a decreasing cost for field surveys. This current study aims to map Sitka spruce seedlings with orthophotos acquired by drones. The used method, based on RGB images, has been carried out using OTB (Orfeo ToolBox) and a object based image analysis approach. It consists in four steps: the segmentation (i), a supervised classification (random forest) (ii), the mapping of the studied sites (iii) and finally, the validation (iv) of the model through points acquired by photointerpretation. The result shows that one of the classification models reaches a global accuracy of 66.9 with pseudo independent dataset and 77.4 with an independent dataset. The results are expected to be better with images acquired during other periods (leaf-off period) in order to prevent confusion with surrounding vegetation presents on the studied sites. Despite this fact, the mapping of Sitka spruce seems promising with an RGB camera and may offer a promising potential for commercial forestry. In addition, the method may be applied in other context such as ecological restoration or forest health. En Ecosse, l'épicéa de Sitka représente la principale ressource en bois. La régénération de cette espéce est abondante, particulièrement aprés une coupe à blanc. Trouver un moyen de réaliser des inventaires abordables de celle-ci aiderait les gestionnaires forestiers à prendre des décisions sur l'avenir de la ressource. L'utilisation de drones permet une évaluation rapide de la forêt et de la régénération, permettant ainsi une réduction des coûts des inventaires de terrain. La présente étude vise à cartographier les semis d'épicéa de Sitka à partir d'orthophotos acquises par drones. La méthode utilisée, basée sur des images RGB, a été réalisée en utilisant OTB (Orfeo ToolBox) et une approche d'analyse d'image basée sur des objets. Elle consiste en quatre étapes: la segmentation (i), une classification supervisée (random forest) (ii), la cartographie des sites étudiés(iii) et enfin, la validation (iv) du modéle par des points acquis par photointerprétation. Les résultats montrent qu'un des modéles de classification atteint une précision globale de 66,9 avec un jeu de données pseudo-indépendant et de 77,4 avec un jeu de données indépendant. On s'attend à ce que les résultats soient meilleurs avec des images acquises à d'autres périodes de l'années (période hors feuille) afin d'éviter la confusion avec la végétation environnante présentes sur les sites d'étude. Malgré cela, la cartographie de l'épicéa de Sitka semble prometteuse avec une caméra RGB et offrirait donc un potentiel intéressant pour la foresterie commerciale. En outre, la méthode pourrait être utilisée dans d'autres contextes, tel que celui de la restauration écologique ou la santé des forêts.
Sitka spruce --- seedlings --- regeneration --- UAV --- orthoimages --- RGB --- segmentation --- supervised classification --- random forest --- Orfeo Toolbox --- Scotland --- épicéa de Sitka --- semis --- régénération --- drones --- orthoimages --- RGB --- segmentation --- classification supervisée --- random forest --- Orfeo Toolbox --- Ecosse --- Ingénierie, informatique & technologie > Multidisciplinaire, généralités & autres
Choose an application
Long description: Statistische Konzepte aus der Perspektive von Data Scientists erläutert Das Buch stellt die Verbindung zwischen nützlichen statistischen Prinzipien und der heutigen Datenanalyse-Praxis her Ermöglicht Data Scientists, ihr Wissen über Statistik auf ein neues Level zu bringen Übersetzung der 2. Auflage des US-Bestsellers mit Beispielen in Python und R Statistische Methoden sind ein zentraler Bestandteil der Arbeit mit Daten, doch nur wenige Data Scientists haben eine formale statistische Ausbildung. In Kursen und Büchern über die Grundlagen der Statistik wird das Thema aber selten aus der Sicht von Data Scientists behandelt. Viele stellen daher fest, dass ihnen eine tiefere statistische Perspektive auf ihre Daten fehlt.Dieses praxisorientierte Handbuch mit zahlreichen Beispielen in Python und R erklärt Ihnen, wie Sie verschiedene statistische Methoden speziell in den Datenwissenschaften anwenden. Es zeigt Ihnen auch, wie Sie den falschen Gebrauch von statistischen Methoden vermeiden können, und gibt Ratschläge, welche statistischen Konzepte für die Datenwissenschaften besonders relevant sind. Wenn Sie mit R oder Python vertraut sind, ermöglicht diese zugängliche, gut lesbare Referenz es Ihnen, Ihr statistisches Wissen für die Praxis deutlich auszubauen. Biographical note: Peter Bruce ist Gründer des Institute for Statistics Education bei Statistics.com.Andrew Bruce ist Principal Research Scientist bei Amazon und verfügt über mehr als 30 Jahre Erfahrung in Statistik und Data Science.Peter Gedeck ist Senior Data Scientist bei Collaborative Drug Discovery, er entwickelt Machine-Learning-Algorithmen für die Vorhersage von Eigenschaften von Arzneimittelkandidaten.
Datenanalyse --- Statistik --- Wahrscheinlichkeit --- Big Data --- Python --- Algorithmen --- Machine Learning --- Regression --- Data Mining --- Datenklassifikation --- Data Science --- Random Forest --- Unsupervised learning
Choose an application
As one of the most important cash crop in the world, banana cropping is constantly threatened by a lot of diseases: Panana disease, Yellow Sigatoka, Black Sigatoka, Moko disease, etc. Not all diseases are treatable by phytopharmaceutical products. Aside from prophylaxis, their early detection is becoming a priority for large scale banana growers. Remote sensing is a possible efficient tool to achieve this goal. It has shown significant results throughout the whole agricultural industry for plant disease monitoring. The aim of this study is to create a classifier of Moko disease (Ralstonia Solanacearum) occurrence five days before the appearance of the symptoms in visible light for Food and Agriculture Industries‘ (FAI) banana plantation of Nieuw Nickerie, Surinam. To this end, ground data were collected every five days and drone flights were conducted. The drone held a multispectral camera (red, green, rededge, near infrared). Around 1000 diseased plants were manually geolocalised. Different steps were followed. Firstly, a banana/non banana classification classifier was created to segmentate the raster images and create a mask of the banana plants. This classifier gave a 96% global accuracy on the randomly generated validation set. A pixel-based and an object-based approach were tested for the classification of the raster image, respectively with a level of 95% and 73% of global accuracy. Secondly, another classifier for the occurrence of the Moko disease was created. It showed a 98% global accuracy applied on the randomly generated validation set. However, it gave mediocre results when the classifier was applied to rasters by pixel-based (53%) and object-based approach (57%). Multiple machine learning algorithms are tested to create the classifier. This study shows that local maxima algorithm for object detection does not allow the user to trust classifiers on high overlapping culture such as banana on an individual based approach.
Choose an application
Les zones riveraines ont été durablement dégradées par l’intense pression des activités humaines. À l’interface entre les écosystèmes aquatiques et les écosystèmes terrestres, les forêts de ces milieux produisent pourtant une multitude de services écosystémiques. L’importance de ces habitats est maintenant reconnue, mais davantage d’efforts doivent être réalisés pour mieux comprendre ces milieux, évaluer leur état actuel et orienter leur gestion vers des pratiques plus durables. La télédétection permet d’offrir des informations spatialement continues sur de larges étendues et facilite ainsi le monitoring de ces zones. Dans ce travail, nous utilisons des images multispectrales et des données provenant d’un LiDAR bispectral à haute densité de points pour cartographier la composition en essences ligneuses avec une approche orientée objet (OBIA) et un algorithme Random Forest pour la classification. Les résultats sont plutôt encourageants : 5 groupes d’essences forestières sont déterminés avec une précision globale de 85.9% pour la carte produite. Certaines essences comme l’aulne (Alnus glutinosa) demeurent néanmoins difficiles à différencier des autres essences. Nous identifions plusieurs leviers à travers lesquels nous pourrions améliorer les résultats de notre classification. La carte des essences forestières est ensuite croisée avec les résultats d’une modélisation hydraulique. En couplant l’emprise spatiale des évènements de crues théoriques avec la cartographie des essences forestières, on peut examiner la relation entre la forêt riveraine et son cours d’eau grâce à un indicateur direct du régime de perturbations fluviales. L’utilisation de ce concept novateur a permis d’ouvrir la voie pour approfondir des aspects fondamentaux de l’écologie des zones riveraines et améliorer leur gestion.
Choose an application
La préfecture de Coyah subit de façon récurrente des inondations, comme la plupart des zones périphériques des villes d’Afrique de l’Ouest. Face aux dégâts humains et matériels causés par ce phénomène, il est nécessaire de connaître les causes réelles et la répartition spatiale des risques qui en découlent. Cette étude a pour objectif d’améliorer la connaissance des risques d’inondation dans la préfecture de Coyah pour contribuer à la réduction de leurs impacts sur les personnes et les biens. Pour ce faire, plusieurs données ont été combinées : enquêtes de 390 ménages, 190 points d’inondations, des données globales (CHIRPS de 1981 à 2023, Landsat 5 TM (1994), Landsat 8 OLI (2023), la texture de sols, l’Indice d’Humidité Topographique (TWI), la densité de drainage, la pente, la densité de population, la distance aux cours d’eau, le MNT, les enjeux, l’Orientation (Aspect), etc.). Les données « Raster » ont d’abord été rééchantillonnées à 30 m pour leurs compatibilités. Une analyse fréquentielle et diachronique a été appliquée respectivement aux données pluviométriques CHIRPS et aux images Landsat. L’efficacité des pratiques endogènes individuelles des ménages face à la probabilité d’inondation a été évaluée à l’aide d’une régression logistique, tandis que la modélisation par « Random Forest » a permis de cartographier l’aléa. Les résultats ont montré que les indices pluviométriques tendent à la baisse à l’exception de PX1J qui montre une tendance à la hausse. Le P99p et P99.5p sont quant à eux, stationnaires. De plus, les événements pluviométriques récents tels que ceux du 2019 (120 mm), de 2020 (154 mm), de 2021 (177 mm), et de 2022 (113 mm) ont des périodes de retour respectives de 1.2 ans, 2 ans, 3.7 ans, et 1.1 an, donc des pluies à caractère « Normal ». Cependant celui de 2011 (283 mm) est qualifié de « Très exceptionnel » et l’évènement pluvieux de 2023 (222mm) de « Très anormal ». Le pourcentage de la superficie occupée par le bâti est passé de 3 % en 1994 à 13 % en 2023, les surfaces agricoles de 0.3 % à 10.3 %, et la végétation dense de 11.4 % en 1994 à 8 % en 2023. Pour l’adaptation aux inondations, les pratiques endogènes telles que les techniques avec les digues de sacs de sable, la surélévation des murs ont été estimés plus efficaces par rapport à celles des canaux de déviation. Les performances du modèle « Random Forest », pour la cartographie de l’aléa inondation, ont été acceptables avec une précision globale de 79 %, une spécificité de 91 % et un AUC de 84 %. Ainsi, 19 % de la zone a été classée à niveau « Très élevé », 18.1 % à « Elevé », 6.7 % à « Très faible », 26.5 % à niveau d’aléa « Faible » et 29.4 % comme « Modéré ». L’analyse des impacts a montré que plusieurs personnes et leurs biens se trouvent dans des zones à risque « Très élevé » et pourraient nécessiter une surveillance accrue. Ainsi, la carte de l’aléa élaborée pourrait être parmi les outils d’aide à la prise de décision en matière d’aménagement du territoire et de gestion des inondations de la préfecture de Coyah.
Flood hazard --- Peripheral areas --- Random Forest --- Coyah --- Guinea --- Aléa d’inondation --- Zones périphériques --- Guinée --- Sciences du vivant > Sciences de l'environnement & écologie
Choose an application
Random forest is in many fields of research a common method for data driven predictions. Within economics and prediction of poverty, random forest is rarely used. Comparing out-of-sample predictions in surveys for same year in six countries shows that random forest is often more accurate than current common practice (multiple imputations with variables selected by stepwise and Lasso), suggesting that this method could contribute to better poverty predictions. However, none of the methods consistently provides accurate predictions of poverty over time, highlighting that technical model fitting by any method within a single year is not always, by itself, sufficient for accurate predictions of poverty over time.
Linear Regression Models. --- Machine Learning. --- Macroeconomics and Economic Growth. --- Poverty Monitoring and Analysis. --- Poverty Reduction. --- Poverty. --- Prediction Methods. --- Random Forest. --- Rural Poverty Reduction. --- Science and Technology Development. --- Statistical and Mathematical Sciences. --- Tracking Poverty.
Choose an application
Le rapport suivant a été écrit dans le cadre de mon stage dans l'entreprise « Behave! ». Son principal objectif est d’identifier et de défendre le modèle de Machine Learning le plus pertinent dans la cadre de prévisions portant sur 7 styles d’investissement différents : « Growth », « Momentum », « Quality », « Size », « Value », « Volatility » et « Yield ». Étant donné que ce mémoire est rédigé selon une orientation "rapport d’entreprise", une part importante de ce document est consacrée à la construction de modèles et à l’analyse de résultats. De nombreuses recherches académiques ont néanmoins dû être effectuées et viendront, aussi souvent que possible, appuyer les conclusions établies au fur et à mesure des chapitres. Ma tâche au sein de l’entreprise peut être divisée en trois étapes majeures, il en va de même pour la construction de ce rapport. Premièrement, les facteurs de risque sont définis et systématiquement liés à leurs styles d’investissement. C’est l’occasion d’étudier les techniques utilisées par l’entreprise pour les calculer. Dans un deuxième temps, ce sont les modèles de Machine Learning qui sont définis et appliqués à un exemple simple en utilisant les logiciels « RStudio » et « Microsoft Azure Cortana Intelligence ». Dans ce mémoire, l’approche se limite aux modèles suivants : « Hidden Markov », « Random Forest », « Support Vector Machine » et « Neural Network ». Il s’agira enfin d’appliquer ces modèles aux styles d’investissement proposés par l’entreprise afin de pouvoir faire des comparaisons qui serviront ensuite de base à mes recommandations finales.
Machine Learning, factor investing, growth, momentum, quality, size, --- value, volatility, hidden markov, support vector machine, neural --- network, random forest, artificial intelligence, confusion matrix, --- performance, accuracy, investment, ESG criteria --- Sciences économiques & de gestion > Finance --- Ingénierie, informatique & technologie > Sciences informatiques
Choose an application
Les écosystèmes riverains constituent un enjeu écologique majeur par les nombreux services écosystémiques qu’ils fournissent à travers le globe. Pour créer ou encourager des projets de préservation et de restauration écologiques, une caractérisation de ces milieux est nécessaire. Une prémisse à cette caractérisation est l’évaluation de la diversité structurelle et biologique de ces milieux qui définit leur fonctionnalité. Cette étude se focalise sur la modélisation de la diversité structurelle de ces écosystèmes. Pour cela, le développement continu de la télédétection peut jouer un rôle important. La technologie Lidar permet une visualisation et un traitement en trois dimensions du milieu. Cependant son coût élevé et son utilisation à échelle locale produit un déséquilibre dans la couverture des contextes biogéographiques existants et l'accessibilité au Lidar reste situationnelle. À l’inverse, la disponibilité en données satellitaires permet une couverture globale avec des résolutions spatiales et temporelles fines. Dans ce contexte, s’inscrivent les questions de recherches de ce travail : - Dans quelle mesure les données satellitaires peuvent-elles capter la variabilité de la structure 3D des milieux riverains extraite à partir des données Lidar ? - Quelle est l’influence du contexte biogéographique dans la captation de la structure 3D des milieux riverains et quelle est la variabilité de captation inter-contexte observée ?Pour répondre à ces deux questions, 424 milieux riverains provenant de 14 écorégions différentes ont été échantillonnés. A partir de ces échantillons, une matrice de référence d’indicateurs issus du Lidar 3D a été construite ainsi que quatre matrices d’indicateurs issus de divers capteurs et algorithmes satellitaires (indicateurs spectraux, texture, saisonnalité et radar). Ces matrices reflètent la diversité de l’imagerie spatiale disponible en accès libre et gratuit pour les opérateurs. La réalisation d’analyses de redondance (RDA) a pour objectif de capter la variabilité de la matrice d’indicateurs Lidar à partir des matrices issues des satellites pour répondre aux questions avancées. Les résultats expriment entre 15 % et 30 % de variabilité de la matrice Lidar 3D captée lorsque l'ensemble des milieux riverains est considéré. Ils sont supérieurs à 50 % dans tous les cas lorsque l'analyse de redondance est réalisée pour chaque contexte biogéographique. Dans cette seconde situation, certaines combinaisons de contexte et d'indicateurs mènent à 81 % de captation. Les meilleurs résultats sont obtenus à partie des indicateurs de saisonnalité. Cependant, ils possèdent également la plus grande variance inter-contexte. Les indicateurs de texture captent moins la variabilité du Lidar 3D, mais sont plus robustes aux changements de contexte. Les écorégions connaissant moins d’amplitude de saisonnalité (forêts sempervirentes / déserts) sont associées à de moins bonnes performances. La variation des résultats des RDA par écorégion selon les capteurs et les algorithmes utilisés témoigne de leur complémentarité.
Télédétection --- Écosystèmes riverains --- Hétérogénéité structurelle --- Échelle globale --- Random Forest --- Analyse de Redondance --- Lidar --- Spectral --- Texture --- Saisonnalité --- Radar --- Sentinel-1 --- Sentinel-2 --- Sciences du vivant > Sciences de l'environnement & écologie
Listing 1 - 10 of 212 | << page >> |
Sort by
|