Constitution du corpus sur Gargantex


#1

En préambule, je te tiens à remercier et féliciter ici tous les concepteurs de Gargantex pour l’élaboration de ce super outil !

Mon souci, j’ai un compte utilisateur pour Gargantex mais je suis limité à un corpus de 1000 documents dans mes requêtes sur la plateforme Istex, or le corpus effectif est d’environ 8000 documents (présence du terme recherché dans les titres et résumés).

Ainsi, y a-t-il un moyen de passer outre cette limitation de 1000 documents ?

Si non : est-ce que c’est cumulatif ? C’est-à-dire si je relance 8 fois la requête est-ce que je peux constituer mon corpus de 8000 documents différents ?

Si je suis définitivement limité seulement à 1000 documents, est qu’il serait possible de savoir comment son choisi ces 1000 documents ?

Je vous remercie par avance


(David Chavalarias) #2

Pour les corpus importés via une API comme ISTEX, nous mettons une limite pour des contraintes d’infrastructure. Certaines requêtes non réfléchies (par exemple “cancer”) peuvent apporter des centaines de milliers de documents, voir des millions, ce qui risquerait de saturer les machines voire de provoquer un crash.

Pour le moment, la limite est donc fixée à 1000 documents. C’est peu et grâce à une collaboration avec ISTEX, nous allons étendre cette limite (probablement entre 5 et 10k) lors de la prochaine release de Gargantext, début 2019.

D’ici là, il est toujours possible de bricoler, par exemple en découpant en tranches sur des périodes précises et en les recollant. C’est un peu fastidieux, mais pas si long. Il faut utiliser pour cela la syntaxe API d’ISTEX décrite sur https://doc.istex.fr/api/search/syntaxe.html qui fonctionne dans Gargantext. Si vous avez 8000 documents, vous consituez 8 corpus, exportez les CSV un fois importés. Vous les collez et les réimportez.

Si vous avez un accès par ailleurs à l’API ou à un autre entrepôt de données, vous pouvez tout à fait constituer un corpus de plusieurs milliers de doc et l’importer dans Gargantext.

A savoir que la version actuelle, en raison de calculs fait côté client, devient peu opérante au delà de 10 ou 20k documents (ça dépend de votre connexion, de la puissance de votre ordinateur, etc.). Ce sera très différent avec la V4.