Comment entraîner un système de traitement automatique des langues aux textes non standards? Une étude expérimentale appliquée aux tweets
Year: 2012 Publisher: Gent : s.n.,

Doelstelling: De state-of-the-art NLP systemen zijn getraind en afgestemd op taal afkomstig uit traditionele tekstgenres, zoals bijvoorbeeld krantenmateriaal. Zodra deze worden toegepast op tekstmateriaal afkomstig uit sociale media, vertonen ze fouten en werken ze niet optimaal. Het doel van deze thesis bestaat erin om na te gaan hoe een dergelijk NLP systeem kan hertraind worden zodanig dat het afgestemd is op taal dat typerend is voor nieuwe media. Dit wordt gedaan aan de hand van een corpus, bestaande uit Nederlandse tweets, dat genormaliseerd en geanalyseerd wordt. Middelen of methode: Om ons onderzoek te realiseren werd een corpus samengesteld bestaande uit 250 tweets. Deze tweets werden manueel geselecteerd en zijn afkomstig van negen mensen die we gedurende een bepaalde periode gevolgd hebben op Twitter. Eenmaal de tweets verzameld waren, volgde de tokenisatie. Daarna werd ieder token genormaliseerd en geanalyseerd om zo hun taalkundige transformaties en eigenschappen te bepalen. In totaal werden vijf experimenten uitgevoerd die elk dieper ingaan op deze taalkundige transformaties en eigenschappen. Alle handelingen werden manueel uitgevoerd en ondersteund door richtlijnen die opgesteld zijn voor de normalisatie van SMS-data. Resultaten: Uit de vijf experimenten blijkt dat de taal gebruikt in tweets heel wat taalkundige transformaties en eigenschappen bevat die afwijken van de standaardtaal. Onder taalkundige transformaties verstaan we insertie, deletie, substitutie en transpositie van letters. Een grote meerderheid werd genormaliseerd aan de hand van inserties, wat inhoudt dat de voornaamste transformatie in tweets wordt veroorzaakt door de weglating van letters en/of woorden. Verder blijkt dat deze transformaties ook veeleer lexicaal dan grammaticaal zijn. Bij de taalkundige eigenschappen van tweets stellen we vast dat vreemde woorden en tussenwerpsels hier een relatief groot aandeel in hebben. De resultaten van dit onderzoek kunnen een basis vormen in de hertraining van NLP systemen op taal afkomstig uit nieuwe media. Verder onderzoek met grotere datasets is echter vereist om de bevindingen in deze studie beter te onderbouwen.

L'analyse des sentiments appliquée sur des tweets politiques: une étude de corpus
Year: 2013 Publisher: Gent : s.n.,

Doelstellingen: De huidige technologie voor sentimentanalyse is hoofdzakelijk gebaseerd op NLP systemen die zijn getraind aan de hand van traditionele teksten zoals krantenartikelen en recensies. Uit voorgaande studies blijkt dat annotatieschema's voor sentimentanalyse van traditionele teksten vaak niet voldoende gedetailleerd zijn om op een accurate manier sentiment te detecteren in niet traditionele teksten afkomstig uit sociale media. Het hoofddoel van deze studie bestond erin na te gaan hoe gedetailleerd een dergelijk annotatieschema moet zijn om op een nauwkeurige manier sentiment te detecteren in tweets. Aan de hand van een manuele sentimentannotatie van een Twitter-corpus werd een annotatieschema geanalyseerd en geëvalueerd. Twee bijkomende doelstellingen waren nagaan in hoeverre politieke tweets de politieke voorkeur van de Belgische kiezer op een betrouwbare wijze weergeven en onderzoeken welke terminologie vaak wordt gebruikt in politieke tweets. Middelen of methode: Voor deze studie werden drie verschillende corpora samengesteld bestaande uit respectievelijk 200, 4629 en 15952 politieke Nederlandstalige tweets. De tweets werden verzameld aan de hand van een Python script dat via de Twitter API tweets met een specifieke hashtag kan downloaden en naar een.txt-bestand omzetten. In de 200 tweets van het eerste corpus werden na normalisatie manueel sentimentannotaties aangebracht met het annotatieprogramma Brat. Op basis van de manuele sentimentanalyse werden conclusies getrokken over sentimentuitdrukking op Twitter en over de sterktes en zwaktes van het annotatieschema. In de 4629 tweets van het tweede corpus werd manueel nagegaan hoe vaak de grootste Vlaamse politieke partijen en hun (ex-)voorzitters werden vermeld en welk sentiment er doorgaans aan hen werd gekoppeld. De 15952 tweets van het derde corpus werden gebruikt voor terminologie-extractie met behulp van de software TExSIS. Via part-of-speech-tagging werden woordsoorten toegekend aan de woorden van de geëxtraheerde termen. Resultaten: Uit de sentimentanalyse blijkt dat het door ons gebruikte annotatieschema veel gedetailleerder is dan het basisschema voor sentimentanalyse dat door Wiebe (2002) werd ontwikkeld. In tegenstelling tot het schema van Wiebe (2002) biedt het huidige annotatieschema de mogelijkheid om impliciet sentiment te detecteren in tweets die enkel feitelijke informatie bevatten, woorden aan te duiden die het sentiment in een zin wijzigen en sentiment te detecteren in ingebedde zinsconstructies. Toch kan het schema verder worden verfijnd om sentimentanalyse in tweets nog nauwkeuriger te maken. Daarvoor moeten dubbelzinnige categorieën zoals 'andere intensiteit' en 'andere polariteit' nog duidelijker worden omschreven, extra subcategorieën worden toegevoegd aan de huidige generieke categorie 'other modifier' en ingebedde constructies nog gedetailleerder worden geannoteerd. Verder blijkt uit deze studie dat 4629 tweets niet voldoende zijn om de politieke voorkeur van de Belgische kiezers nauwkeurig weer te geven. Uit een vergelijking met de resultaten van de gemeenteraadsverkiezingen blijkt dat sommige resultaten gedeeltelijk overeenkwamen met de analyse van het Twitter-corpus, andere dan weer niet. Uit de terminologie-extractie blijkt dat Belgische kiezers op Twitter het naar aanloop van de gemeenteraadsverkiezingen in 2012 vooral hebben gehad over de partijen Open Vld, N-VA, Groen, politieke programma's zoals Het Grote Debat en Villa Politica, de stad Antwerpen en CD&V-politicus Veli Yüksel. De meest terugkerende termen waren zelfstandige naamwoorden. Verder onderzoek met grotere datasets is nodig om algemene conclusies te kunnen trekken over de rol van Twitter als hulpmiddel om verkiezingsuitslagen te verklaren. Nieuwe onderzoeken over sentimentanalyse zouden ook moeten uitwijzen of een gedetailleerder annotatieschema effectief leidt tot een betere sentimentanalyse van niet-traditionele teksten.

Discursive self in microblogging
ISBN: 9789027256652 9789027267528 9027267529 9027256659 Year: 2016 Volume: 260 Publisher: Amsterdam Philadelphia

De filosofie van Torfs in 140 tekens.
ISBN: 9789461316615 9461316615 Year: 2017 Publisher: Kalmthout Van Halewyck

EVALITA. Evaluation of NLP and Speech Tools for Italian : Proceedings of the Final Workshop 7 December 2016, Naples
ISBN: 8899982554 Year: 2017 Publisher: Torino : Accademia University Press,

EVALITA is the evaluation campaign of Natural Language Processing and Speech Tools for the Italian language: since 2007 shared tasks have been proposed covering the analysis of both written and spoken language with the aim of enhancing the development and dissemination of resources and technologies for Italian. EVALITA is an initiative of the Italian Association for Computational Linguistics (AILC, and it is supported by the NLP Special Interest Group of the Italian Association for Artificial Intelligence (AI*IA, and by the Italian Association of Speech Science (AISV, In this volume, we collect the reports of the tasks’ organisers and of the participants to all of the EVALITA 2016’s tasks, which are the following: ArtiPhone - Articulatory Phone Recognition; FactA - Event Factuality Annotation; NEEL-IT - Named Entity rEcognition and Linking in Italian Tweets; PoSTWITA - POS tagging for Italian Social Media Texts; QA4FAQ - Question Answering for Frequently Asked Questions; SENTIPOLC - SENTIment POLarity Classification. Notice that the volume does not include reports related to the IBM Watson Services Challenge organised by IBM Italy, but information can be found at Before the task and participant reports, we also include an overview to the campaign that describes the tasks in more detail, provides figures on the participants, and, especially, highlights the innovations introduced at this year’s edition. An additional report presents a reflection on the outcome of two questionnaires filled by past participants and organisers of EVALITA, and of the panel “Raising Interest and Collecting Suggestions on the EVALITA Evaluation Campaign” held at CLIC-it 2015.

Social computing and the law : uses and abuses in exceptional circumstances
ISBN: 1108575722 1108617581 1108428657 1108650147 Year: 2018 Publisher: Cambridge : Cambridge University Press,

This innovative book sets itself at the crossroads of several rapidly developing areas of research in legal and global studies related to social computing, specifically in the context of how public emergency responders appropriate content on social media platforms for emergency and disaster management. The book - a collaboration between computer scientists, ethicists, legal scholars and practitioners - should be read by anyone concerned with the ongoing debate over the corporatization and commodification of user-generated content on social media and the extent to which this content can be legally and ethically harnessed for emergency and disaster management. The collaboration was made possible by EU's FP 7 Project Slandail (# 607691, 2014-17).

Tweeting is leading : how senators communicate and represent in the age of Twitter
ISBN: 019758229X 0197582303 0197582273 9780197582268 9780197582275 0197582265 Year: 2021 Publisher: New York : Oxford University Press,

Social media is changing the business of representation in the Senate. If you want to know what your senator is up to, you don't need a newspaper - just your phone. Drawing on a unique dataset of almost 200,000 senator tweets, 'Tweeting is Leading' offers a critical analysis of senators' communication on Twitter, the individual and constituent forces that shape it and the agendas that result.

Micro-blogging Memories : Weibo and Collective Remembering in Contemporary China
ISBN: 1137598808 1137598816 Year: 2016 Publisher: London : Palgrave Macmillan UK : Imprint: Palgrave Macmillan,

‘Micro-blogging Memories: Weibo and Collective Remembering in Contemporary China is one of the best books on Chinese internet culture and politics in recent years. It offers a stunningly original and insightful analysis of how journalists and ordinary citizens in China create news, remember contested histories, and explore personal and collective identities on China’s preeminent microblogging platform Sina Weibo. Skillfully weaving together stories of past and present, the local and the global, control and resistance, the book provides a rich and textured account of not only the highs and lows of a popular social media platform, but also the dramas of social change in China. This book makes important contributions to the scholarship on digital media and culture, collective memory, and global communication.’ – Guobin Yang, University of Pennsylvania, USA This book offers an in-depth account of social media, journalism and collective memory through a five-year analysis of Weibo, a leading Chinese micro-blogging platform, and prism of transitional China in a globalizing world.  How does society remember public events in the rapidly changing age of social media?  Eileen Le Han examines how various kinds of public events are shared, debated, and their historical significance and worthiness of remembrance highlighted on Weibo. Journalism plays a significant part in mobilizing collective remembering of these events, in a society with rapidly changing topics on the platform, the tightening state control, and nationalism on the rise.  The first five years of Weibo reflect a dramatic change in Chinese society, where journalists, media professionals, and opinion leaders in other fields of expertise, together with ordinary citizens directly affected by these changes in everyday life collaborate to witness the rapid social transition. .

Social Media and e-Diplomacy in China : Scrutinizing the Power of Weibo
ISBN: 113759358X 1137596643 Year: 2017 Publisher: New York : Palgrave Macmillan US : Imprint: Palgrave Pivot,

As with many spheres of public life, public diplomatic communication is being transformed by the boom of social media. More than 165 foreign governmental organisations in China have embarked on the use of Weibo (a hybrid of Facebook and Twitter in China) to engage with Chinese citizens and reach out to youth populations, one of the major goals of current public diplomacy efforts. This exciting new pivot, based on systemic research of Weibo usage by embassies in China, explores the challenges and the limits that the use of Chinese Weibo (and Chinese social media in general) poses for foreign embassies, and considers ways to use these or other tools. It offers a systematic study of the effectiveness and challenges of using Weibo for public diplomatic communication in and with China. Addressing the challenges of e-diplomacy, it considers notably the occurrence of cyber-nationalism on Weibo and encourages a critical look at its practice, arguing how it can contribute to the goals of public diplomacy.

Scenarios and Indicators for Sustainable Development–Towards A Critical Assessment of Achievements and Challenges
ISBN: 3038976733 3038976725 Year: 2019 Publisher: MDPI - Multidisciplinary Digital Publishing Institute

Globalization and telecoupling are enhancing the complexity of the coupled socio-ecological system constituted by the interaction between the global ecosphere and the anthroposphere. As a result, the demand for tools to identify transformative innovations, assess future risks, and support precautionary decisions for sustainability is growing by the day in business and politics. Scenarios are a means of simplification, reducing the real-world complexity to a limited number of essential factors to analyze their interactions and support policy formulation, with indicators as communication and monitoring tools. In particular, in a time of fake news and alternative truths a critical reflection amongst producers and users of scenarios and indicators is overdue; the capability for critical self-reflection is what distinguishes science from pseudo-science, and is a condition of trust. The authors of this book test established measurement and modeling approaches against new challenges, assess the weaknesses of prevailing innovation theories and the political-ideological embedment of archetypical scenarios, highlight deficits in taking the physical basics into account, and the need to understand global interaction and the stepwise process of energy transitions, point out technical as well as conceptual weaknesses in data collection, harmonization and indicator generation, always with a view to solving problems.

