Bonjour,
oui, bien vu, étant donné la complexité de l’interface GarganText et les multiples entrées possibles, vous avez bien relevé la difficulté: la constitution des “ngrams” doit être effectivement uniformisée, soit depuis le backend lors de la détection automatique des ngrams à l’insertion du corpus soit depuis le frontend lors de l’ajout manuel.
Nous avons un ticket ouvert sur ce sujet que nous allons mettre en priorité bientôt. Vous pouvez le suivre ici: https://gitlab.iscpif.fr/gargantext/haskell-gargantext/issues/224
Nous vous solliciterons pour vérifier la qualité du “fix” lorsqu’il sera disponible si vous pouvez nous aider.
Dans cette attente, nous vous conseillons d’interpréter avec précaution vos résultats (modulo les tirets et les apostrophes ou autres caractères autres que les lettres de l’alphabet comme les hastags ou les emojis que nous testons pour des corpus issus de réseaux sociaux.).
Dans tous les cas, svp mentionnez la version de GarganText utilisée dans la bibliographie de vos publications pour permettre la reproductibilité de vos analyses. La version est visible en passant votre souris sur le premier noeud en haut de votre arbre de navigation. La version logicielle est importante dans la référence scientifique car dans le cadre de la reproduction des analyses, des différences entre les résultats pourraient être expliqués par cet ajustement logiciel et non du point de vue méthodologique qui vous concerne plutôt avec vos choix pour la constitution du corpus et des listes de mots pour construire vos visualisations.
En espérant avoir répondu à votre question et avoir été clair.