Vers une vérification automatique des affirmations statistiques - PhDData

Access database of worldwide thesis




Vers une vérification automatique des affirmations statistiques

The thesis was published by Cao, Tien Duc, in September 2019, Université Paris-Saclay.

Abstract:

Digital content is increasingly produced nowadays in a variety of media such as news and social network sites, personal Web sites, blogs etc. In particular, a large and dynamic part of such content is related to media-worthy events, whether of general interest (e.g., the war in Syria) or of specialized interest to a sub-community of users (e.g., sport events or genetically modified organisms). While such content is primarily meant for the human users (readers), interest is growing in its automatic analysis, understanding and exploitation. Within the ANR project ContentCheck, we are interested in developing textual and semantic tools for analyzing content shared through digital media. The proposed PhD project takes place within this contract, and will be developed based on the interactions with our partner from Le Monde. The PhD project aims at developing algorithms and tools for :Classifying and annotating mixed content (from articles, structured databases, social media etc.) based on an existing set of topics (or ontology) ;Information and relation extraction from a text which may comprise a statement to be fact-checked, with a particular focus on capturing the time dimension ; a sample statement is for instance « VAT on iron in France was the highest in Europe in 2015 ».Building structured queries from extracted information and relations, to be evaluated against reference databases used as trusted information against which facts can be checked.

La thèse vise Ă  explorer des modèles et algorithmes d’extraction de connaissance et d’interconnexion de bases de donnĂ©es hĂ©tĂ©rogènes, appliquĂ©e Ă  la gestion de contenus tels que rencontrĂ©s frĂ©quemment dans le quotidien des journalistes. Le travail se dĂ©roulera dans le cadre du projet ANR ContentCheck (2016-2019) qui fournit le financement et dans le cadre duquel nous collaborons aussi avec l’Ă©quipe “Les DĂ©codeurs” (journalistes spĂ©cialisĂ©s dans le fact-checking) du journal Le Monde.La dĂ©marche scientifique de la thèse se dĂ©compose comme suit:1. Identifier les technologies et domaines de gestion de contenu (texte, donnĂ©es, connaissances) intervenant de façon recurrente (ou dont le besoin est ressenti comme important) dans l’activitĂ© des journalistes.Il est par exemple dĂ©jĂ  clair que ceux-ci ont l’habitude d’utiliser “en interne” quelques bases de donnĂ©es construites par les journalistes eux-mĂŞmes ; ils disposent aussi d’outils internes (Ă  la rĂ©daction) de recherche par mots-clĂ© ; cependant, ils souhaiterait augmenter leur capacitĂ© d’indexation sĂ©mantique…Parmi ces problèmes, identifier ceux pour lesquels des solutions techniques (informatiques) sont connues, et le cas Ă©chĂ©ant mis en oeuvre dans des systèmes existants.2. S’attaquer aux problèmes ouverts (sur le plan de la recherche), pour lesquels des rĂ©ponses satisfaisantes manquent, liĂ©s Ă  la modĂ©lisation et Ă  l’algorithmique efficace pour des contenus textuels, sĂ©mantiques, et des donnĂ©es, dans un contexte journalistique.



Read the last PhD tips