Bonjour à tous,
Constatant les instabilités de fonctionnement de l’API ISTEX, je commence à être séduit par l’idée d’aller requêter directement des BDD sur internet et d’uploader ensuite les corpus dans Gargantext.
Seulement, pour les non-spécialistes de la manipulation des données textuelles, travailler sans API est complexe. Par exemple, la BDD ISTEX (DL) ne nous permet pas de récupérer un corpus sous la forme d’un unique fichier CSV / TSV compatible avec Gargantext ; or la conversion des différents formats de corpus dans le format CSV semble loin d’être triviale.
Je suis donc à la recherche d’un listing des meilleures BDD accessibles sur le net et pouvant être facilement utilisées avec Gargantext selon les critères suivants :
- Exhaustive (plusieurs millions de documents sur un ou plusieurs domaines de la connaissance) ;
- Requête booléenne (ou à minima documentation utilisateur disponible) ;
- Corpus téléchargeables et compatibles Gargantext (à minima conversion de formats peu complexe).
Sauriez-vous m’indiquer celles que vous avez l’habitude d’utiliser ?
Enfin, au sujet du formats des données textuelles, je suis preneur de vos conseils sur les méthodes de conversion (automatisées ou semi-automatisées) dans le format CSV.
En vous remerciant pour ces aiguillages.
Excellente soirée à tous.
Maxime