Bug recherche Istex - formation Urfist Bx 2017-12-21 (matin)


(Frédérique Flamerie) #1

Bonjour,
J’ai rencontré à 2 reprises le bug suivant hier matin lors de la formation.
La recherche “zotero” dans le corpus Istex ramène 90 notices. Le nombre d’occurrences du terme “zotero” est seulement de 5.
Merci, bien à vous,
Frédérique Flamerie


(David Chavalarias) #2

l’API ISTEX fait une recherche dans les méta-données et le full text mais seules les méta-données (titre, résumé) sont analysées par Gargantext. Le nombre de documents associés à une recherche peut donc être différent dans la résultat de l’API et dans le corpus téléchargé.


(Frédérique Flamerie) #3

Bonjour,
Merci beaucoup pour ces précisions, cela explique en effet le différentiel.
Je n’ai pas accès à la documentation, je pense que cela doit être mentionné quelque part et je l’ai raté.
Ce fonctionnement (i. e. recherche sur le texte intégral et les métadonnées/analyse des métadonnées) est-il analogue pour les autres sources de texte intégral (HAL notamment) ?
Bien à vous,
Frédérique Flamerie


(David Chavalarias) #4

Le champ “query” dans Gargantext reprend la syntaxe des API des différents fournisseurs de données. Il faut donc se référer aux docs des APIs source. Par exemple pour ISTEX, la syntaxe “abstract:my_query” permet de n’importer que dans les documents contenant la requête dans leur résumé. Pour la doc, voir https://iscpif.fr/gargantext/api/


(Mylène Leitzelman) #5

Bonjour,
J’ai pu également constater la différence de résultats en requétant HAL par leur interface HTML de recherche, Isidore et Pubmed, donc l’explication vient que les API de ces diverses sources renvoient des résultats différents de leur version web.


(Alexandre Delanoe) #6

Oui, c’est un vrai problème: on ne sait pas comment fonctionne ces moteurs de recherche… Je vais proposer quelque chose sur ce sujet prochainement, à discuter …