Narrow your search

Library

KU Leuven (17)


Resource type

dissertation (17)


Language

English (12)

Dutch (5)


Year
From To Submit

2021 (17)

Listing 1 - 10 of 17 << page
of 2
>>
Sort by

Dissertation
Normalisatie van diavoorstellingen bij de conversie van pdf naar PowerPoint

Loading...
Export citation

Choose an application

Bookmark

Abstract

Diavoorstellingen zijn een populaire manier om informatie op een gestructureerde en aantrekkelijke manier over te brengen. Er zijn verschillende applicaties die dit mogelijk maken: PowerPoint, Keynote, Beamer, Prezi, . . . . Elk van deze applicaties heeft zijn eigen encoding, waardoor het combineren van diavoorstellingen gemaakt in verschillende programma’s geen evidentie is. De enige gedeelde encoding, pdf, brengt het probleem van onaanpasbaarheid met zich mee. Een tweede probleem toont zich tijdens het combineren van diavoorstellingen met verschillende lay-outs: elke spreker heeft een lay-out die het best bij zijn persoonlijke presenteerstijl past. De applicaties die beschikbaar zijn om pdf om te zetten naar PowerPoint houden geen rekening met het gebruik van elementen die het aanpassen van de lay-out makkelijk maken. Bij het automatisch verwerken van wetenschappelijke literatuur gebruiken programma’s zoals Grobid, Sectlabel, Cermine en PdfDigest lokale heuristieken om tekstdelen te annoteren en zo structuren in de tekst te herkennen. In deze thesis bouwen hierop verder door diavoorstellingen in pdf te converteren naar PowerPoint via automatische annotatie van dia-elementen. De methode bestaat eruit een slide-archetype toe te wijzen aan elke dia, gebruikmakend van de XML-structuur, Rectangle Algebra en lokale heuristieken. Dit archetype kan daarna omgezet worden naar een genormaliseerde PowerPoint, waarbij genormaliseerd slaat op een diavoorstelling zonder lay-out die responsief is op lay-outveranderingen. Kwalitatieve en kwantitatieve evaluatie van deze methodiek op twee datasets, enerzijds een zelf samengestelde set van diavoorstellingen uit vakken en conferenties en anderzijds een dataset van de Amerikaanse overheid, toont dat deze conversie mogelijk is. Het nut van een ingevoerde uitbreiding van de Rectangle Algebra blijkt uit een uitgevoerd ablatie-experiment. De methodiek kan gebruikt worden als metriek om te kijken hoe conform een diavoorstelling is met de standaard slide-archetypes van PowerPoint.

Keywords


Dissertation
SAGE: een heuristiek-gebaseerde acroniemgenerator
Authors: --- ---
Year: 2021 Publisher: Leuven KU Leuven. Faculteit Wetenschappen

Loading...
Export citation

Choose an application

Bookmark

Abstract

Het verzinnen van goede acroniemen voor organisaties, systemen, wetenschappelijke technieken, en menig andere concepten kan soms onnodig tijdrovend zijn. Er bestaan al acroniemgeneratoren die dit proces automatiseren, maar deze zijn sterk beperkt in functionaliteit, en hebben weinig of geen inzicht in de kwaliteit van de voorgestelde acroniemen. Dit werk stelt een acroniemgenerator genaamd SAGE (Smart Acronym GEnerator) voor, die een aantal verbeteringen ten opzichte van huidige generatoren aanbiedt. SAGE genereert op een slimme manier een aantal relatief eenvoudige acroniemen uit een gegeven uitdrukking. Een iteratieve methode zoekt buur-acroniemen tot op een bepaalde diepte. Meer opties voor de gebruiker, zoals een minimumlengte voor het acroniem, of het gebruik van synoniemen, zorgen ervoor dat er een bredere waaier aan goede acroniemen gegenereerd wordt. De acroniemen krijgen een score op basis van kenmerken (zoals hun lengte, of hoe goed ze de gegeven uitdrukking voorstellen), waarvan het belang bepaald wordt door de gebruiker. Deze kan haar voorkeur duidelijk kan maken met een aantal voorbeelden van goede acroniemen. Door een evaluatie van de invloed van elke heuristiek ondervonden we dat vooral bestaande woorden goede acroniemen zijn, zolang ze een goede representatie zijn van de bijhorende expressie. Er werd vastgesteld dat het gebruik van synoniemen en vooral een veranderlijke woordvolgorde de zoekruimte ruim uitbreiden, maar wel voor veel ruis zorgen. Uit een publieke bevraging blijkt dat SAGE significant beter scoort dan momenteel beschikbare online generatoren, zoals acronymify.com of dcode.fr. Bijna 90% van de gebruikers gaf de SAGE-acroniemen hogere scores. De resultaten tonen aan dat deze slimme methode veelbelovend is om acroniemen mee te genereren. Een online applicatie zou een logische toepassing zijn van dit werk. Een andere uitbreiding is om de invoer te vergroten naar een beschrijvende paragraaf of tekst, waaruit dan een passend acroniem gegenereerd kan worden.

Keywords


Dissertation
Neural Probabilistic Logic Programming
Authors: --- ---
Year: 2021 Publisher: Leuven KU Leuven. Faculty of Engineering Science

Loading...
Export citation

Choose an application

Bookmark

Abstract

In the past decade, deep learning has revolutionized many applications in artificial intelligence (AI), ranging from image classification to natural language processing.After this initial success, more and more researchers are now encountering the limitations of deep learning. Whereas it excels at pattern recognition tasks on high-dimensional data, it struggles with reasoning and generalization.These strengths and weaknesses are complementary to those of symbolic AI.
An integration of symbolic (logic) and sub-symbolic AI (deep learning) could thus bring the best of both worlds.This is the domain of the field of neural-symbolic AI.This thesis discusses three main contributions.The field of neural-symbolic AI is moving very quickly and could benefit from an overview of the many different approaches that categorizes them along well-know concepts from a different, but related field.Therefore we propose a categorization of the field of neural-symbolic AI based on a comparison to the well-established field of StarAI, which also focuses on integrating reasoning and learning.Next, we introduce our neural-symbolic framework called DeepProbLog.DeepProbLog integrates logic and neural networks by introducing the concept of the neural predicate to the probabilistic logic programming language ProbLog. It distinguishes itself from other neural-symbolic methods as it features both probabilistic logic, a fully expressive logic programming language, and neural networks.We evaluate this framework on four sets of experiments that showcase DeepProbLog's ability to:1) integrate logical reasoning and deep learning,2) integrate probabilistic reasoning and deep learning,3) perform program induction through parameter learning, and4) manipulate embeddings and perform natural language reasoning.The results for these experiments show that DeepProbLog is able to outperform neural networks on tasks requiring reasoning and learning, and that it is also able to outperform other neural-symbolic frameworks.One of the main drawbacks of DeepProbLog is that its inference does not scale well. That's why our final contribution is an approximate inference technique for neural probabilistic logic programming, called DPLA.Reasoning probabilistically over the entire output of the neural networks can become prohibitively expensive.It replaces the standard search for proofs by an informed A*-based search that makes inference scalable by only considering a subset of all proofs.However, combining approximate inference with learning brings its own set of challenges. To solve these, we consider the curriculum learning setting and introduce exploration based on the UCB algorithm.We evaluate DPLA* on a set of experiments that showcase that it scales better than DeepProbLog and other neural-symbolic frameworks and can be applied to a larger set of tasks.We conclude this thesis by discussing possible future directions for DeepProbLog and by discussing open challenges for the field of neural-symbolic AI in general.

Keywords


Dissertation
Learning MAX-SAT models from contextual examples using genetic algorithms

Loading...
Export citation

Choose an application

Bookmark

Abstract

This thesis presents HASSLE-GEN, a novel genetic algorithm aimed at learning weighted partial MAX-SAT models from labeled contextual examples. This problem involves jointly learning Boolean hard and soft constraints—as well as appropriate weights for the latter—from known solutions and non-solutions. The inclusion of contexts in the example set allows for learning from situational information. For instance, an example that is labeled as a solution and that comes with a particular context is possibly not a solution outside of that context. In this work, several blind and heuristic genetic operators are developed and empirically compared. The final algorithm is equipped with heuristic operators, as they are shown to realize superior performance. The algorithm also employs the deterministic crowding scheme, allowing it to learn high-quality models while maintaining a diverse population, which in turn results in better overall performance. In the experimental evaluation, HASSLE-GEN is shown to outperform the best existing approach, HASSLE-SLS, in various ways. Firstly, the novel method is able to learn high-quality models much faster than its competitor. It also learns good models more consistently (over different runs) than the existing method. Finally, it is able to simultaneously learn several distinct-looking high-quality models. This allows the user to select the model that fits best to their potential needs and preferences that are not captured in the set of examples. A second contribution made in this thesis is the development of a novel MAX-SAT model evaluation procedure. By making use of knowledge compilation techniques, a considerable speed-up in model evaluation is realized for small to medium-sized models. This is a significant result, as the evaluation of candidate models was a large bottleneck in the existing learning approach. The knowledge-compilation-based evaluation procedure can be employed regardless of what search algorithm is used. It has been implemented for both the existing and the new search approach.

Keywords


Dissertation
Using Stochastic Local Search to Learn Mixed Discrete-Continuous Constraint Satisfaction Problems
Authors: --- ---
Year: 2021 Publisher: Leuven KU Leuven. Faculteit Ingenieurswetenschappen

Loading...
Export citation

Choose an application

Bookmark

Abstract

The problem of learning constraints from data has recently started to attract in- creasing attention. In this context, the problem of learning constraints that can be represented as satisfiability problems modulo the theory of linear arithmetic over the real numbers – SMT(LRA) – is of particular interest. It extends the range of con- straints expressible as satisfiability problems in propositional logic (SAT) with linear inequalities over the real numbers. We introduce SLOTH as a stochastic local search algorithm for learning such SMT(LRA)-models from data. We approach the problem by means of stochastic local search to close a gap in the existing learning methods, that do not provide solutions for learning SMT(LRA)-models from noisy data. We evaluate SLOTH on synthetic problems with respect to its performance depending on the complexity of the models that need to be learned and the impact of noise on this performance. Its performance is compared to INCAL (Kolb et al., 2018), the current state of the art approach to learning SMT(LRA)-models. Our results show that SLOTH is able to learn accurate SMT(LRA)-models in both, the noiseless and the noisy case and that, on average, it performs better than the current state of the art solution, when time constraints are a limiting factor. This supports the use of SLOTH, and of stochastic local search in general, as a viable approach to the problem of learning SMT(LRA)-models from data.

Keywords


Dissertation
ZeroProgrammers: AlphaZero voor programmasynthese

Loading...
Export citation

Choose an application

Bookmark

Abstract

In 2017 slaagde het algoritme AlphaZero erin om wereldkampioen te worden in zowel schaken, shogi als Go. Hiermee toonde het aan dat bordspelen in het algemeen geleerd kunnen worden louter door het simuleren van zetten, zonder dat daarbij gespecialiseerde kennis ingebouwd moet worden. In dit eindwerk wordt onderzocht of deze aanpak toegepast kan worden op het schrijven van programma's, beter bekend als programmasynthese. De bedoeling is om een programmeur te trainen die, gegeven meerdere voorbeelden van invoer en uitvoer voor verschillende problemen, voor zoveel mogelijk van deze problemen een correct programma kan vinden die de invoer afbeeldt op de uitvoer. Uit eenvoud wordt er gebruik gemaakt van een concatenatieve programmeertaal. Een programma in deze taal is simpelweg een lijst van tekens waarbij elke combinatie van tekens syntactisch correct is. De tussenwaarden worden naamloos bijgehouden in een stack. Het doel is dan om vertrekkend van een leeg programma iteratief het volgende teken te voorspellen dat aan het programma moet worden toegevoegd. Dit wordt beschouwd als een spel voor 'e'en speler en getraind met behulp van policy-iteratie via Monte-Carlo Tree search zoals bij AlphaZero. De volgorde van de problemen wordt gekozen uit een gegenereerde dataset met behulp van curriculum learning. De toestand van het spel wordt voorgesteld als de combinatie van het programma, de voorbeelden en de huidige uitvoer. Een online interpreter hergebruikt deze uitvoer in de volgende toestand. Vervolgens wordt ook een heuristiek toegevoegd om de uitvoering van de implementatie te versnellen. Dit volledige algoritme wordt hier voorgesteld onder de naam ZeroProgrammers. De analyse van dit algoritme brengt een aantal moeilijkheden aan het licht. Vanuit de verzamelde gegevens en theoretische inzichten worden tenslotte hypotheses voorgesteld die deze moeilijkheden verklaren en oplossingen aanreiken voor het verbeteren van toekomstig onderzoek.

Keywords


Dissertation
Investigating the Limits of Learning Non-Markovian Reward Models
Authors: --- ---
Year: 2021 Publisher: Leuven KU Leuven. Faculteit Ingenieurswetenschappen

Loading...
Export citation

Choose an application

Bookmark

Abstract

This thesis investigates the learnability of Markov Decision Processes (MDPs) with added complexity along multiple dimensions. A theoretical investigation into the implications of the complexity dimensions is performed and it is discussed how existing algorithms deal with them. 3 complexity dimensions are defined, being temporal dependence, partial observability and dynamism. The temporal dependence and dynamism dimensions are closely related, but are distinguished because there is a subtle difference regarding the learnability of MDPs with these complexities. In Reinforcement Learning literature, frameworks exist for solving Decision Processes with non-Markovian Rewards (NMRDPs), based on the use of a Mealy Reward Machine, and for Partially Observable MDPs, based on the use of belief states. Both methods transform the original problem to a process that behaves in a Markov way, allowing traditional model-solving techniques to be used. The limitations of these techniques for dynamic PO-NMRDPs, which combine the three dimensions of complexity, are investigated and it is proposed how they can be extended to fit dynamic PO-NMRDPs. Consequently, two methods are presented to handle PO-NMRDPs, one based on an MRM and the other on the use of belief states. An important distinction between the two is made in regard to policies for these methods, as the former is deterministic and the latter results in a stochastic action plan. Following the theoretical discussion regarding complex MDPs, a practical framework is proposed that simultaneously learns an MRM to represent the reward structure and derives an optimal deterministic policy to maximize rewards in dynamic PO-NMRDPs. This framework is an extension of the ARM framework, which has been developed to deal with standard NMRDPs. The issues of learning dynamic PO-NMRDPs using the standard ARM framework are discussed and it is explained diligently how these issues are resolved. The learning phase is based on Angluin's L* algorithm, which constructs an MRM and combines this MRM with the original state space to create a synchronized product, which behaves in a Markov manner. Traditional model-checking techniques are employed on this synchronized product in order to derive an optimal deterministic, reactive policy.

Keywords


Dissertation
End-to-end spreadsheet segmentation: Similarity measures using cell embeddings
Authors: --- ---
Year: 2021 Publisher: Leuven KU Leuven. Faculteit Ingenieurswetenschappen

Loading...
Export citation

Choose an application

Bookmark

Abstract

Spreadsheets are a very useful tool in a lot of contemporary business and scientific environments. A modern spreadsheet allows us to read out, modify and analyze data in an easy-to-use and user-friendly way. A spreadsheet also allows the user to make the data visually attractive and straightforward to understand. This user-friendliness ensures the opposite for machine applications. The structure of a spreadsheet is anything but standardized and 2 different spreadsheets can have a completely different layout. It is difficult for a computer to recognize structure in a spreadsheet and often help from a person is needed. This problem limits the use of spreadsheets in the case of data-mining or other applications where a lot of data is needed. par In this master's thesis we aim to make the extraction of data from spreadsheets easier by developing an embedding algorithm which can then be used to apply a similarity measure to different cells. This will allow us to differentiate different types of cells, tables and apply segmentation on a spreadsheet. A spreadsheet has three main properties that allow us to distinguish them form others; syntactic properties, contextual properties and stylistic properties. In our research we will try to embed these properties into one numerical embedding vector which we can then use to distinguish different types of cells using their distance. More specifically the aim is to determine whether two cells belong to the same class, segment, table... Where other researchers focused on a specific task within data extraction from a spreadsheet, our aim is to generate a distance measure between cells that can be used for any application using application specific constraints.

Keywords


Dissertation
Recovering class information from binary serialized files using pattern mining

Loading...
Export citation

Choose an application

Bookmark

Abstract

Serialized datastructures are part of almost any modern application processing data. These serialized structures are becoming more and more efficient as researchers find new and better ways to compress the data. During this serialization process, many information is thrown away. Serialization software is then responsible to recover this information using hard-coded or external aids. Without these aids, full recovery of the information is impossible. When this external information gets lost or corrupted, domain experts try to manually recover information from the binary serialized files. This is done by carefully examining every sequence of bytes to make educated guesses on how the data is structured. We set a first step into developing a toolbox to help relieve some of the burden of manually recovering information from binary serialized files. Our method uses sequential pattern mining and clustering to recognize common subsequences in the serialized datastructures. Such common sequences are characteristic for specific layouts of classes and the distribution of its information. We exploit this hidden structure in binary files to cluster subsequences which belong to the same class. We propose a method for clustering entire binary files as well as sub-objects found in these files. Our method is suited for recovery of class information when many files have to be recovered. Recovery of submessages of a single file is not suited for our algorithm as the number of classes are too low for the number of instances found. For this setting we propose other methods based on subgraph-mining and human-machine interaction.

Keywords


Dissertation
Automatisch rangschikken van gegenereerde porte-manteaus

Loading...
Export citation

Choose an application

Bookmark

Abstract

In het domein van creatieve generatie bestaan er verschillende soorten generatoren, bijvoorbeeld voor het automatisch genereren van beelden of tekst. Deze thesis focust specifiek op generatoren voor het construeren van porte-manteaus. Het afgelopen decennium zijn er verschillende porte-manteaugeneratoren uitgewerkt, maar net zoals voor de generatoren in andere niches is het niet eenvoudig om de kwaliteit van hun creaties automatisch te beoordelen of om verschillende generatoren automatisch ten opzichte van elkaar te evalueren. In deze thesis worden twee modellen uitgewerkt voor het onderscheiden van de kwalitatieve en minder kwalitatieve porte-manteaus gegenereerd door een porte-manteaugenerator. Vervolgens wordt 'e'en van deze twee modellen uitgebreid om het mogelijk te maken op dezelfde wijze ook de kwaliteit van porte-manteaugeneratoren ten opzichte van elkaar te vergelijken. Ten slotte worden de resultaten van deze generatorenvergelijking verder gestaafd aan de hand van een menselijke evaluatie. De finale resultaten van de modellen geven een notie van de belangrijke kenmerken van kwaliteitsvolle porte-manteaus en tonen aan dat ze succesvol porte-manteaus kunnen rangschikken op basis van hun kwaliteit alsook succesvol porte-manteaugeneratoren onderling kunnen evalueren.

Keywords

Listing 1 - 10 of 17 << page
of 2
>>
Sort by