TY - THES ID - 148648234 TI - Automatisation de la reconnaissance d'espèces animales dans des vidéos de pièges photographiques installés dans les forêts tropicales en Afrique centrale, grâce à l'apprentissage profond AU - Campers, Harold AU - Lejeune, Philippe AU - Delplanque, Alexandre AU - Charles, Catherine AU - Mercatoris, Benoît AU - Soyeurt, Hélène PY - 2022 PB - Liège Université de Liège (ULiège) DB - UniCat KW - camera trap KW - tropical forest KW - deep learning KW - convolutional neural network KW - convolutional long short-term memory KW - classification KW - wildlife KW - piège photographique KW - forêt tropicale KW - apprentissage profond KW - réseau de neurones convolutifs KW - mémoire convolutive à long court terme KW - classification KW - faune sauvage KW - Ingénierie, informatique & technologie > Multidisciplinaire, généralités & autres UR - https://www.unicat.be/uniCat?func=search&query=sysid:148648234 AB - The world today is threatened by a dramatic biodiversity crisis. It is therefore becoming essential to monitor the animal and plant populations that inhabit the earth's ecosystems. In this sense, camera traps are cameras that capture images or videos when they detect movement. These cameras are increasingly used in the scientific world and could become an essential tool in wildlife monitoring systems. They have the advantage of being very low-intrusive and of being able to be installed in remote and difficult-to-access places. The main weakness of this technology is that it generates a huge amount of data. The analysis of this data by humans is therefore very time-consuming and tedious. A solution to this problem could be found in the use of deep learning. This allows deep neural networks to be trained to automate a task usually performed by humans. Some deep learning approaches have achieved better results in solving complex problems. The main objective of this work is therefore to use deep learning to automate the recognition of animal species in videos of camera traps installed in the tropical rainforests of Central Africa. To this end, three datasets were created and 22 classes were defined. Different model architectures were then tested. These are composed of convolutional neural networks (two-dimensional and three-dimensional ResNet) and recurrent neural networks (convolutional long short-term memory (ConvLSTM) and long short-term memory (LSTM)). This work also discusses the comparison of different tools that have been developed to automatically classify camera traps data. The best trained models achieved, on a test dataset, an overall accuracy of 67,93 % for multispecies classification and 84,89 % for binary classification (animal/background). These models performed better than the other tested tools for the multispecies classification but not for the binary classification. Finally, the models developed could be used under certain conditions to assist in the analysis of camera traps data. The results obtained are promising. Le monde actuel est menacé par une crise de la biodiversité dramatique. Il devient donc primordial de surveiller les populations animales et végétales qui habitent les écosystèmes de la Terre. Dans ce sens, les pièges photographiques sont des caméras qui capturent des images ou des vidéos lorsqu'elles détectent un mouvement. Ces caméras sont de plus en plus utilisées dans le monde scientifique et pourraient devenir un outil essentiel dans des systèmes de surveillance de la faune et de la flore. Elles possèdent notamment l'avantage d'être très peu intrusives et de pouvoir être installées dans des endroits reculés et difficilement accessibles. Le point faible de cette technologie est qu'elle génère une quantité très importante de données. L'analyse de ces dernières par l'homme est donc très chronophage et fastidieuse. Une solution pourrait être apportée à ce problème grâce à l'utilisation de l'apprentissage profond. Celui-ci permet d'entraîner des réseaux de neurones profonds afin d'automatiser une tâche habituellement réalisée par l'homme. Certaines approches d'apprentissage profond ont permis d'atteindre de meilleurs résultats lors la résolution de problèmes complexes. L'objectif principal de ce travail est donc d'utiliser l'apprentissage profond afin d'automatiser la reconnaissance d'espèces animales dans des vidéos de pièges photographiques installés dans les forêts tropicales d'Afrique centrale. Pour ce faire, trois jeux de données ont été constitués et 22 classes ont été définies. Différentes architectures de modèles ont ensuite été testées. Ces dernières sont composées de réseaux de neurones convolutifs (ResNet à deux dimensions et à trois dimensions) et de réseaux de neurones récurrents (mémoire convolutive à long court terme (ConvLSTM) et mémoire à long court terme (LSTM)). Ce travail aborde également la comparaison de différents outils qui ont été développés afin de classifier automatiquement des données de pièges photographiques. Les meilleurs modèles entraînés ont atteint, sur un jeu de données de test, une exactitude globale de 67,93 % pour la classification multi-espèces et de 84,89 % pour la classification binaire (animal / arrière-plan). Ces modèles ont mieux performés que les autres outils testés, pour la classification multi-espèces mais pas pour la classification binaire. Enfin, les modèles développés pourraient être utilisés sous certaines conditions dans le but d'aider à l'analyse des données de pièges photographiques. Les résultats obtenus sont prometteurs. ER -