Extraction terminologique du vocabulaire des grands débats


(David Chavalarias) #1

Pour référencer ici toutes les inititatives en cours et questions autour de l’extractions du vocabulaire des débats.


(David Chavalarias) #2

Peut être utile : Extraction terminologique et cartographie des thèmes abordés pendant la campagne présidentielle de 2017. Chavalarias/Gaumont/Panahi, CNRS/ISC-PIF


(David Chavalarias) #3

@lesgrandsdebats : nous progressons dans l’extraction terminilogique puis l’analyse des contenus des propositions. Y a-t-il d’autres personnes travaillant sur le text-mining ? Vous pouvez échanger vos résultats intermédiaires ici.

De notre côté pour le moment voici ce que nous faisons :

En particulier, nous nous concentrons sur les éléments des propositions qui ont une longueur minimal (ex. min 100 caractères). Nous prenons pas en compte les catégories prédéfinies.

Première carte thématique très préliminaire (Zoom sur le coeur de la carte) :


(David Chavalarias) #4

Le gexf de la carte ci-dessus est disponible ici : http://nextcloud.iscpif.fr/index.php/s/WknQje9GCDj3nnc Le traitement de la langue est très basique, donc encore une fois c’est très préliminaire. Mais on peut déjà repérer des différences de distribution dans les qualités des noeuds d’un thème à l’autre. Certaines distributions peuvent être des signatures de duplicata massifs comme l’a fait remarquer @josquindebaz1 sur la distribution des tailles des contributions. Question méthodo : élimine-t-on les termes dont les patterns d’interaction sont anormaux ? Personnellement je suis pour.