Exemples de visualisations basiques avec Kibana


(Julien Romero) #1

Je mets ici quelques exemples de visualisations basiques que nous avons réalisé avec Kibana.

Tout d’abord, la répartition du nombre de réponse en fonction du code postal. Paris 15 arrive en tête de très loin.
Screenshot%20from%202019-02-13%2012-12-02


(Julien Romero) #2

Ensuite, le nombre de réponses en fonction de la date. Rien de très surprenant ici, on voit que l’intêret décroit.

Screenshot%20from%202019-02-13%2012-13-10

Nous pouvons faire une heatmap sur la France et Paris des réponses.

Screenshot%20from%202019-02-13%2012-13-37
Screenshot%20from%202019-02-13%2012-13-57

Enfin, nous avons un nuage de mots basé sur les titres qui montrent que certains thèmes sont spammés (souvent à cause d’une entité tierce qui organise le spam).

Screenshot%20from%202019-02-13%2012-12-37


(David Chavalarias) #3

@Aunsiels, sur la carte de Paris, il y a un point particulièrement actif vers Lourmel, quand on zoom, cela reste-il un point ? Cela vaudrait peut-être le coup de regarder les posts associés ? Il y a un autre point chaud un peu moins important vers Gare de Lyon.


(Julien Romero) #4

En fait, on a juste un code postal en entrée. La coordonnée GPS correspondante est juste un point. Ceux qu’on voit à Paris sont les arrondissements. Le plus lumineux correspond à Paris 15 qui a deux fois plus de contributions que les autres villes/arrondissements (c.f la répartission par code postal). Zoomer plus nous donnera toujours les mêmes points parce que nous n’avons pas les adresses précises.


(Quentin) #5

@Aunsiels que donne une vue des données filtrées sur les seuls résultats de Paris 15. Vois-tu des anomalies de répartition temporelle ? de nombre d’utilisateurs uniques ? de diversité des thèmes ?
Penses-tu qu’il soit possible d’ouvrir un accès vers le kibana pour les extérieurs à Télécom ?


(Julien Romero) #6

C’est en cours, je te dis quand c’est bon. Sinon, tu peux y accéder par VPN ou vous pouvez tirer un câble ethernet depuis l’ISC jusqu’à Télécom :slight_smile:


(David Chavalarias) #7

A propos du tag cloud, par curiosité quelle technique a été utilisée pour l’extraction de ngram ? Par ailleurs, pourquoi certains n-grams sont en double ?


(Julien Romero) #8

Pour ce cloud tag, c’est juste les titres complets. On a une version tokenisée aussi.


(Julien Romero) #9

Les titres tokenisés par ElasticSearch dans un nuage de mots:

Screenshot%20from%202019-02-14%2015-20-07


(David Chavalarias) #10

Ok, merci. Nous sommes en train de créer une liste de termes et leurs équivalents, cela pourra servir pour créer des nuages de mots plus informatifs. On le met à dispo dès que c’est prêt.


(Julien Romero) #11

Super merci. On peut rajouter “facilement” de nouvelles features au Kibana


(Quentin) #12

@Aunsiels j’ai l’impression qu’il reste des stop words dans ce nuage de mot, je te conseille de paramétrer l’analyseur (ie: l’ensemble des opérations de tokenization, filtre, stemming) d’Elasticsearch en français si ce n’est pas déjà fait https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html


(brngm) #13

ça vaut peut-être quand même le coup d’extraire ce sous corpus (celui du 15emme) et de l’analyser ? et de le comparer au reste ?
peut on avoir accés à ces corpus quelquepart ?


(Julien Romero) #14

cf le thread sur les datasets


(Julien Romero) #15

On a aussi envoyé un mail pour le Kibana avec un mot de passe et accessible depuis l’extérieur (@davidchavalarias et @qlobbe ont du le recevoir, vous ouvez le transmettre en interne)


(brngm) #16

ça c’est très cool. Vous faites ça avec quelle méthode ?


(Julien Romero) #17

@qlobbe Je pense qu’on a déjà mis en place tous les outils pour le français (sinon les articles apparaitraient en tête). Quesque tu vios de douteux ?


(Quentin) #18

“a”, “tou”, “tout”, “plu” … ça me semble un peu curieux, il faudrait vérifier la liste des stops words d’ES pour voir si elle est bien complète.


(Julien Romero) #19

“a” doit pas être considéré comme un stopword à cause du verbe avoir. ElasticSearch fait du stemming, ce qui donne est tokens étranges: tou = {tous, tout}, tout = {toute, toutes}, plu = {plus, plut, plu} (verbe plaire aussi). Je dois bien avouer que je sais pas trop comment les gens font en français pour les stopwords.


(David Chavalarias) #21

Pour établir une liste de termes des débats politiques, j’ai utilisé http://gargantext.org sur programmes de la présidentielle. Il y a une première phase de text-mining puis une phase d’interaction experte avec la liste de terme pour afiner les regroupements. Il y a un éditeur de listes dans Gargantext qui permet de faire cela très vite. SI cela vous intéresse, la plateforme est ouverte, il faut juste prendre un login. Par contre, la version actuelle n’est adaptée pour des corpus jusqu’à 10 - 20k doc. Au delà, il faudra attendre la V4 cet été.