Sources que vous utilisez le plus pour faire des corpus dans GarganText

athomas · 2023-07-24 09:05:54 UTC

Bonjour à tous,

J’essaie de recenser les sources de données que vous utilisez le plus pour faire des corpus à étudier dans GarganText, dans une optique de facilitation de vos pré-traitement pour permettre un import.
Je suis preneuse de vos retours, exemples, souhaits…

Au plaisir de vous lire ! Bel été à tous

Anne-Laure

joulin · 2023-07-24 09:57:09 UTC

Bonjour,

J’utilise(rai) BNF-Gallica, Archive.org ainsi que des documents scannés avec un scanner OCR (iriscan).

edit : j’avais oublié de préciser : il s’agit dans tous les cas de pdf avec OCR

Bonne journée

belveze · 2023-07-24 12:09:59 UTC

Bonjour, je souhaite y charger des corpus provenant d’Europresse (actuellement en CSV, et j’ai d’ailleurs des difficultés à le faire, cf. un message que j’ai posté sur ce canal récemment).
J’utilise aussi Gargantext avec Pubmed.

Bonnes vacances,

Damien Belvèze

FAH · 2023-08-16 09:02:01 UTC

Bonjour,

De mon côté les sources prévues pour l’instant sont des textes issus de Cairn, Persée, Erudit et des principaux sites de revues SHS. Le tout compilé via Zotero en CSV avec espoir de faire l’analyse des articles en TXT à terme

Bel été,
François