Bonjour Anne-LaAure,
Je renvoie mon mail de réponse car j’ai fait la bêtise de réponse via mon mail (et ça a bloqué).
Entre temps, j’ai bien lu les différents échanges… et mes commentaires sont peut-être un peu obsolètes.
Pour le point 1 - (la date) : j’ai testé en changeant la date, pour chaque extrait, directement dans le tsv avant import mais c’est l’année de dépôt qui est retenue.
Un champ à saisir lors du dépôt, comme auteur, titre serait commode pour les textes déposés rapidement.
2 – « créer autant de corpus que de sources puis d’extraire les documents et d’importer dans un corpus unique tous les documents » : L’instance est celle de la formation. Les textes déposés sont des txt provenant de Gallica ou Wikipedia : ils passent donc de mon disque dur vers GarganText. Je n’ai pas encore essayé avec HAL, Isidore… Avec Istex, il vaut mieux cibler finement notre corpus en amont car on a trop de réponses indésirables (homonymies dans les termes de la requête : les biologistes ont trop nommé leurs animacules divers et variés avec des noms de divinités classiques !)).
J’ai créé des dossiers « thématiques », chacun correspondant à une problématique. Chacun reçoit plusieurs publications et nos publications peuvent être longues, volumineuses, et générer beaucoup d’extraits.
Vaudrait-il mieux, par ex., déposer une publication dans un dossier qui lui est propre (pour réduire le contenu du dossier), générer les termes puis déplacer les textes vers le dossier thématique ; puis pour les termes, faire une fusion de deux listes de termes (la nouvelle et celle du corpus commun) , ce que j’ai vu proposé dans les fonctionnalités-fleur" dees dossiers Terms.
Pour nous, une piste intéressante serait aussi l’import de notre “vocabulaire pertinent” ou sa fusion avec le vocabulaire du texte ( import par la “onctionnalité-fleur” de Terms) : on n’a pas encore testé…
3 – le titre : je vais suivre vos conseils : nous avons un id court propre au projet ( de type MTAL_00001) pour chaque publication/document, qui est inclus dans la notice bibliographique gérée dans notre instance Zotero. Cet id pourrait aller dans le champ Titre, ce qui pourrait créer un lien intéressant pour le graphe (le terme – la publication).
J’ai pu voir les statistiques sur les rubriques “auteur”… : le rallongement de l’information avec l’ajout du titre de la publication dans le champ “auteur” change un peu la donne car la statistique sera faite sur la publication et non l’auteur (qui peu avoir plusieurs publications), mais c’est peut-être intéressant dans certains cas.
Une piste de réduction du biais : peut-être créer une entrée de Terms sous la forme du titre, et l’interdire (stop terms) --> si ça marche, c’est-à-dire si les termes du segemnts textes ne sont pas pris en compte dans ce segment texte mais qu’en même ailleurs (pas encore testé), cela permettrait de varier le paramètre quand on veut.
par exemple : titre = “Dissertations sur les statues de Vénus”
stop Terms pour “Dissertations sur les statues de Vénus” mais “statues de Vénus” dans d’autres segments que celui-là est quand même repéré si on l’a dans les Map terms.
Je continue les tests et je reviens vers vous pour une petite visio.
Je vous remercie vivement pour votre réponse et ce que vous et votre équipe nous proposez.
Anne-Violaine