Gestion des tirets par GarganText


(Gaëtan PEYGOURDI) #1

Bonjour à tous et toutes,

Je suis preneur d’indications sur la gestion des tirets “-” par GarganText, par exemple pour le terme “non-indigenous species”. Il semblerait que le tiret soit parfois remplacé par un espace “non indigenous species” ou bien parfois simplement supprimé “nonindigenous species”. Est-ce correct ? Ou bien les tirets sont-ils systématiquement remplacés par un espace ?

Lors de l’ajout manuel du terme “non-indigenous species” dans la liste des map terms, le tiret est remplacé par un espace “non indigenous species”, mais je ne suis pas sûr de ce qu’il se passe lors du text mining.

Merci pour votre aide,

Gaëtan


(Alexandre DelAnoe) #2

Bonjour,
oui, bien vu, étant donné la complexité de l’interface GarganText et les multiples entrées possibles, vous avez bien relevé la difficulté: la constitution des “ngrams” doit être effectivement uniformisée, soit depuis le backend lors de la détection automatique des ngrams à l’insertion du corpus soit depuis le frontend lors de l’ajout manuel.

Nous avons un ticket ouvert sur ce sujet que nous allons mettre en priorité bientôt. Vous pouvez le suivre ici: https://gitlab.iscpif.fr/gargantext/haskell-gargantext/issues/224
Nous vous solliciterons pour vérifier la qualité du “fix” lorsqu’il sera disponible si vous pouvez nous aider.

Dans cette attente, nous vous conseillons d’interpréter avec précaution vos résultats (modulo les tirets et les apostrophes ou autres caractères autres que les lettres de l’alphabet comme les hastags ou les emojis que nous testons pour des corpus issus de réseaux sociaux.).

Dans tous les cas, svp mentionnez la version de GarganText utilisée dans la bibliographie de vos publications pour permettre la reproductibilité de vos analyses. La version est visible en passant votre souris sur le premier noeud en haut de votre arbre de navigation. La version logicielle est importante dans la référence scientifique car dans le cadre de la reproduction des analyses, des différences entre les résultats pourraient être expliqués par cet ajustement logiciel et non du point de vue méthodologique qui vous concerne plutôt avec vos choix pour la constitution du corpus et des listes de mots pour construire vos visualisations.

En espérant avoir répondu à votre question et avoir été clair.


(Gaëtan PEYGOURDI) #3

Bonjour,

Merci pour votre réponse détaillée. Je vais garder en mémoire de traiter les termes comportant de tels caractères avec précaution pour le moment.

Bonne journée,
Gaëtan