Listing 1 - 10 of 195 | << page >> |
Sort by
|
Choose an application
Business --- 681.3*E --- 681.3*E Data --- Data --- Electronic data processing --- Data processing --- Information systems
Choose an application
"This book is concerned with the processes for development of metadata application profiles, in an increasingly complex world of data, information standards and requirements for data exchange and interoperability. The chapters in this book cover a range of approaches to the development of metadata application profiles"--
681.3*E --- 681.3*E Data --- Data --- Library automation --- Information systems
Choose an application
Discusses hypothesis testing strategies for the assessment of association in contingency tables and sets of contingency tables. Also discusses various modeling strategies available for describing the nature of the association between a categorical outcome measure and a set of explanatory variables.
Programming --- Mathematical statistics --- -681.3*E --- 681.3*E --- 681.3*E Data --- Data --- Data processing --- SAS (Computer file) --- Statistical analysis system --- SAS system --- Mathematical statistics - Data processing
Choose an application
Het doel van data mining is het vinden van regels (of hypothesen) die niet-triviale relaties, patronen of eigenschappen van een grote hoeveelheid gegevens omschrijven, teneinde de gegevens beter te begrijpen. Inductief Logisch Programmeren (ILP) is een relationele data mining techniek gebaseerd op eerste orde logica. Logica is een krachtig en natuurlijk formalisme voor het voorstellen van kennis, wat ILP toelaat om concepten te leren die niet geleerd kunnen worden met een minder krachtig formalisme. Omwille van zijn hoge expressiviteit is de ruimte van alle mogelijke hypothesen echter zeer complex, waardoor het zoeken naar een goede hypothese een complexe taak wordt. Een van de belangrijkste factoren bij de uitvoering van ILP algoritmen is de motor die door het algoritme gebruikt wordt. Deze motor is verantwoordelijk voor het evalueren van kandidaatshypothesen (of queries) op de gegevens, en voorziet primitieven voor het ILP algoritme om de evaluatie van queries te sturen. In dit werk presenteren we verschillende technieken voor het optimaliseren van motoren gebruikt door ILP algoritmen. We combineren twee bestaande onafhankelijke technieken voor query-evaluatie: de once-transformatie, dewelke redundante uitvoering binnen dezelfde query probeert te vermijden, en query packs, dewelke redundantie in de uitvoering van meerdere queries probeert te vermijden. De algemene aanpak voor query-evaluatie is om de query te compileren naar een efficiëntere versie alvorens hem uit te voeren. We bestuderen alternatieven voor deze aanpak, en stellen een performantere compilatietechniek voor, tesamen met een luie variant die enkel delen van queries compileert als deze nodig zijn. Analyse en debuggen van query uitvoering is een belangrijk deel van het ontwikkelingsproces van meer efficiënte query uitvoeringstechnieken. We stellen een spoorgebaseerde aanpak voor het debuggen en analyseren van de uitvoeringsstap van ILP algoritmen. We doen een studie van het afwegen van geheugenruimte tegenover uitvoeringstijd op verschillende niveaus van ILP uitvoering. Deze technieken bevatten predikaatstabellering en programmaspecialisatie, tesamen met meer algoritme-specifieke technieken. The goal of data mining is to find rules (or hypotheses) that describe non-trivial relations, patterns or properties of large quantities of data, thus helping in understanding the data better. Inductive Logic Programming (ILP) is a relational data mining technique based on first order logic. Logic provides a powerful yet natural formalism for representing knowledge, allowing ILP to learn concepts that cannot be learned using less powerful data mining techniques. However, because of its high expressivity, the space of all possible hypotheses is also very complex, due to which the search for good hypotheses becomes a complex task. One of the most important factors in the execution of ILP algorithms is the engine underlying the algorithm. This engine is responsible for evaluating candidate hypotheses (or queries) on the data, and provides primitives to the ILP algorithm for guiding the evaluation of queries. In this work, we present different techniques for optimizing the engines used by ILP algorithms. We combine two existing, independent, and successful optimization techniques for query evaluation: the once transformation, which aims to avoid redundant execution within a single query, and query packs, which avoid redundancy in the execution of multiple queries. The general approach to query evaluation is to compile the query to a more efficient version instead of executing the query directly. We study alternatives to this approach, and propose a more performant compilation technique, together with a lazy variant that only compiles parts of queries as they are needed. Analysis and debugging of query execution is an important part of the development of more efficient query execution techniques. We present a trace-based technique for debugging and analyzing the execution step of ILP algorithms. We present a study of trading off extra memory for execution time on different levels of ILP execution. These techniques include predicate tabling and program specialization, together with more ILP algorithm-specific techniques. De hoeveelheid gegevens die opgeslagen worden op digitale media groeit zeer snel. Het hoofddoel van het bewaren van deze gegevens is om er nieuwe informatie uit af te leiden: supermarken verzamelen gegevens over het koopgedrag van hun klanten, om zo hun marketing campagnes beter te kunnen richten; zoekmotoren bewaren informatie over vorige zoekopdrachten om gepersonaliseerde resultaten te kunnen tonen, ... Het doel van data mining is om uit deze grote hoeveelheden gegevens nieuwe informatie af te leiden. Inductief Logisch Programmeren (ILP) is een krachtige data mining techniek, gebaseerd op logisch redeneren. Omwille van de complexe informatie die ILP kan afleiden uit gegevens, is het afleiden van deze informatie zelf een zeer zware taak. Een cruciaal element bij het afleiden van nieuwe informatie, gebruik makend van ILP, is de motor van het ILP systeem. In dit werk bestuderen we technieken voor het bouwen van efficiëntere ILP motoren.
Academic collection --- 681.3*E --- 681.3*D34 <043> --- Data --- Processors, compilers, interpreters, debuggers--Dissertaties --- Theses --- 681.3*E Data
Choose an application
Choose an application
Choose an application
De toenemende verspreiding van wetenschappelijke en technologische publicaties via het internet, en de beschikbaarheid ervan in grootschalige bibliografische databanken, leiden tot enorme mogelijkheden om de wetenschap en technologie in kaart te brengen. Ook de voortdurende toename van beschikbare rekenkracht en de ontwikkeling van nieuwe algoritmen dragen hiertoe bij. Belangrijke uitdagingen blijven echter bestaan. Dit proefschrift bevestigt de hypothese dat de nauwkeurigheid van zowel het clusteren van wetenschappelijke kennisgebieden als het classificeren van publicaties nog verbeterd kunnen worden door het integreren van tekstontginning en bibliometrie. Zowel de tekstuele als de bibliometrische benadering hebben voor- en nadelen, en allebei bieden ze een andere kijk op een corpus van wetenschappelijke publicaties of patenten. Enerzijds is er een schat aan tekstinformatie aanwezig in dergelijke documenten, anderzijds vormen de onderlinge citaties grote netwerken die extra informatie leveren. We integreren beide gezichtspunten en tonen hoe bestaande tekstuele en bibliometrische methoden kunnen verbeterd worden. De dissertatie is opgebouwd uit drie delen: Ten eerste bespreken we het gebruik van tekstontginningstechnieken voor informatievergaring en voor het in kaart brengen van kennis vervat in teksten. We introduceren en demonstreren het raamwerk voor tekstontginning, evenals het gebruik van agglomeratieve hiërarchische clustering. Voorts onderzoeken we de relatie tussen enerzijds de performantie van het clusteren en anderzijds het gewenste aantal clusters en het aantal factoren bij latent semantische indexering. Daarnaast beschrijven we een samengestelde, semi-automatische strategie om het aantal clusters in een verzameling documenten te bepalen. Ten tweede behandelen we netwerken die bestaan uit citaties tussen wetenschappelijke documenten en netwerken die ontstaan uit onderlinge samenwerkingsverbanden tussen auteurs. Dergelijke netwerken kunnen geanalyseerd worden met technieken van de bibliometrie en de grafentheorie, met als doel het rangschikken van relevante entiteiten, het clusteren en het ontdekken van gemeenschappen. Ten derde tonen we de complementariteit aan van tekstontginning en bibliometrie en stellen we mogelijkheden voor om beide werelden op correcte wijze te integreren. De performantie van ongesuperviseerd clusteren en van classificeren verbetert significant door het samenvoegen van de tekstuele inhoud van wetenschappelijke publicaties en de structuur van citatienetwerken. Een methode gebaseerd op statistische meta-analyse behaalt de beste resultaten en overtreft methoden die enkel gebaseerd zijn op tekst of citaties. Onze geïntegreerde of hybride strategieën voor informatievergaring en clustering worden gedemonstreerd in twee domeinstudies. Het doel van de eerste studie is het ontrafelen en visualiseren van de conceptstructuur van de informatiewetenschappen en het toetsen van de toegevoegde waarde van de hybride methode. De tweede studie omvat de cognitieve structuur, bibliometrische eigenschappen en de dynamica van bio-informatica. We ontwikkelen een methode voor dynamisch en geïntegreerd clusteren van evoluerende bibliografische corpora. Deze methode vergelijkt en volgt clusters doorheen de tijd. Samengevat kunnen we stellen dat we voor de complementaire tekst- en netwerkwerelden een hybride clustermethode ontwerpen die tegelijkertijd rekening houdt met beide paradigma's. We tonen eveneens aan dat de geïntegreerde zienswijze een beter begrip oplevert van de structuur en de evolutie van wetenschappelijke kennisgebieden. Increasing dissemination of scientific and technological publications via the Internet, and their availability in large-scale bibliographic databases, has led to tremendous opportunities to improve classification and bibliometric cartography of science and technology. This metascience benefits from the continuous rise of computing power and the development of new algorithms. Paramount challenges still remain, however. This dissertation verifies the hypothesis that accuracy of clustering and classification of scientific fields is enhanced by incorporation of algorithms and techniques from text mining and bibliometrics. Both textual and bibliometric approaches have advantages and intricacies, and both provide different views on the same interlinked corpus of scientific publications or patents. In addition to textual information in such documents, citations between them also constitute huge networks that yield additional information. We incorporate both points of view and show how to improve on existing text-based and bibliometric methods for the mapping of science. The dissertation is organized into three parts: Firstly, we discuss the use of text mining techniques for information retrieval and for mapping of knowledge embedded in text. We introduce and demonstrate our text mining framework and the use of agglomerative hierarchical clustering. We also investigate the relationship between the number of Latent Semantic Indexing factors, the number of clusters, and clustering performance. Furthermore, we describe a combined semi-automatic strategy to determine the optimal number of clusters in a document set. Secondly, we focus on analysis of large networks that emerge from many individual acts of authors citing other scientific works, or collaborating in the same research endeavor. These networks of science and technology can be analyzed with techniques from bibliometrics and graph theory in order to rank important and relevant entities, for clustering or partitioning, and for extraction of communities. Thirdly, we substantiate the complementarity of text mining and bibliometric methods and we propose schemes for the sound integration of both worlds. The performance of unsupervised clustering and classification significantly improves by deeply merging textual content of scientific publications with the structure of citation graphs. Best results are obtained by a clustering method based on statistical meta-analysis, which significantly outperforms text-based and citation-based solutions. Our hybrid strategies for information retrieval and clustering are corroborated by two case studies. The goal of the first is to unravel and visualize the concept structure of the field of library and information science, and to assess the added value of the hybrid approach. The second study is focused on bibliometric properties, cognitive structure and dynamics of the bioinformatics field. We develop a methodology for dynamic hybrid clustering of evolving bibliographic data sets by matching and tracking clusters through time. To conclude, for the complementary text and graph worlds we devise a hybrid clustering approach that jointly considers both paradigms, and we demonstrate that with an integrated stance we obtain a better interpretation of the structure and evolution of scientific fields. De toenemende verspreiding van wetenschappelijke en technologische publicaties via het internet, en de beschikbaarheid ervan in grootschalige databanken, leiden tot enorme mogelijkheden om de wetenschap en technologie in kaart te brengen. Ook de voortdurende toename van beschikbare rekenkracht en de ontwikkeling van nieuwe software dragen hiertoe bij. Belangrijke uitdagingen blijven echter bestaan. Clusteren is het automatisch indelen van een verzameling objecten in groepen of clusters, waarbij de elementen in eenzelfde cluster gelijkaardige kenmerken vertonen. Grote verzamelingen documenten kan men bijvoorbeeld indelen naargelang het onderwerp. Het onderzoek in dit proefschrift van Frizo Janssens bevestigt dat de integratie van tekstontginning en bibliometrie de nauwkeurigheid van het clusteren van wetenschappelijke kennisgebieden nog kan verbeteren. Zowel de tekstuele als de bibliometrische benadering hebben voor- en nadelen, en allebei bieden ze een andere kijk op een verzameling van wetenschappelijke publicaties of patenten. Enerzijds is er een schat aan tekstinformatie aanwezig in dergelijke documenten, anderzijds vormen de onderlinge citaties (een artikel citeert of refereert naar andere artikels) grote netwerken die extra informatie leveren. Frizo Janssens integreert beide gezichtspunten en toont hoe bestaande tekstuele en bibliometrische methoden nog geperfectioneerd kunnen worden. De dissertatie is opgebouwd uit drie delen: Ten eerste bespreekt de auteur het gebruik van tekstontginningstechnieken voor het vinden van informatie met behulp van zoekmachines en voor het in kaart brengen van kennis vervat in teksten. Hij introduceert en demonstreert een raamwerk voor tekstontginning, evenals het gebruik van algoritmen die documenten automatisch indelen in groepen. Voorts onderzoekt hij de relatie tussen enerzijds de nauwkeurigheid van clusteren en anderzijds het gewenste aantal clusters. Hij beschrijft een samengestelde strategie om het aantal clusters in een verzameling documenten te bepalen. Ten tweede behandelt hij netwerken die bestaan uit citaties tussen wetenschappelijke documenten en netwerken die ontstaan uit onderlinge samenwerkingsverbanden tussen auteurs. Dergelijke netwerken kunnen geanalyseerd worden met technieken van de bibliometrie en de grafentheorie, met als doel het rangschikken van relevante entiteiten, het clusteren en het ontdekken van gemeenschappen. Ten derde toont de auteur de complementariteit aan van tekstontginning en bibliometrie en stelt hij mogelijkheden voor om beide werelden op correcte wijze te integreren. De nauwkeurigheid van clusteren en classificeren verbetert significant door het samenvoegen van de tekstuele inhoud van wetenschappelijke publicaties en de structuur van citatienetwerken. Een methode gebaseerd op statistische meta-analyse behaalt de beste resultaten en overtreft methoden die enkel gebaseerd zijn op tekst of citaties. De geïntegreerde of hybride strategieën voor informatievergaring en clustering worden gedemonstreerd in twee domeinstudies. Het doel van de eerste studie is het ontrafelen en visualiseren van de conceptstructuur van de informatiewetenschappen en het toetsen van de toegevoegde waarde van de hybride methode. De tweede studie omvat de cognitieve structuur, bibliometrische eigenschappen en de dynamica van bio-informatica. Frizo Janssens ontwikkelt hiervoor een methode voor dynamisch en geïntegreerd clusteren van evoluerende databanken. Deze methode vergelijkt en volgt clusters doorheen de tijd. Samengevat kan men stellen dat voor de complementaire tekst- en netwerkwerelden een hybride clustermethode ontworpen werd die tegelijkertijd rekening houdt met beide paradigma's. De promovendus toont eveneens aan dat de geïntegreerde zienswijze een beter begrip oplevert van de structuur en de evolutie van wetenschappelijke kennisgebieden.
681.3*I2 <043> --- Academic collection --- 681.3*E --- Artificial intelligence. AI--Dissertaties --- Data --- Theses --- 681.3*E Data --- 681.3*I2 <043> Artificial intelligence. AI--Dissertaties
Choose an application
Choose an application
"The continued and dramatic rise in the size of data sets has meant that new methods are required to model and analyze them. This timely account introduces topological data analysis (TDA), a method for modeling data by geometric objects, namely graphs and their higherdimensional versions: simplicial complexes. The authors outline the necessary background material on topology and data philosophy for newcomers, while more complex concepts are highlighted for advanced learners. The book covers all the main TDA techniques, including persistent homology, cohomology, and Mapper. The final section focuses on the diverse applications of TDA, examining a number of case studies drawn from monitoring the progression of infectious diseases to the study of motion capture data. Mathematicians moving into data science, as well as data scientists or computer scientists seeking to understand this new area, will appreciate this self-contained resource which explains the underlying technology and how it can be used"--
Topology --- Mathematical analysis --- 517.1 Mathematical analysis --- Analysis situs --- Position analysis --- Rubber-sheet geometry --- Geometry --- Polyhedra --- Set theory --- Algebras, Linear --- 681.3*E --- 681.3*E Data --- Data
Choose an application
Programming --- Computer programming --- Computer programming. --- 681.3*D1 --- 681.3*D1 Programming techniques--See also {681.3*E} --- Programming techniques--See also {681.3*E} --- Computers --- Electronic computer programming --- Electronic data processing --- Electronic digital computers --- Programming (Electronic computers) --- Coding theory
Listing 1 - 10 of 195 | << page >> |
Sort by
|